OpenAI — Família GPT
A OpenAI é a empresa mais influente no espaço de LLMs. Seus modelos GPT definiram o padrão para chat, raciocínio e geração de código.
GPT-4o
Multimodal, rápido, eficiente. Melhor equilíbrio custo-benefício da OpenAI. Processa texto, imagem e áudio. Context: 128k tokens.
o3 / o4-mini
Raciocínio estendido (thinking). Modelos que pensam antes de responder. Superiores em matemática, ciência e lógica complexa.
GPT-4.1
1M tokens de contexto. Contexto massivo, ideal para análise de repositórios completos e documentos longos.
GPT-4o mini
Econômico e rápido. Substituto do GPT-3.5 Turbo. Ótimo para tarefas simples com alto volume de chamadas.
// OpenAI SDK
import OpenAI from 'openai';
const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
const resp = await openai.chat.completions.create({
model: 'gpt-4o',
messages: [{ role: 'user', content: 'Explique embeddings em 3 frases.' }],
temperature: 0.7,
max_tokens: 500
});Anthropic — Família Claude
A Anthropic foca em IA segura e alinhada. Os modelos Claude são conhecidos pela qualidade de escrita, instrução following e janela de contexto massiva.
Claude Opus 4.7
Mais poderoso da Anthropic. Estado da arte em raciocínio, análise e geração de código. Suporta extended thinking. 200k ctx.
Claude Sonnet 4.6
Equilíbrio ideal qualidade/custo. Excelente para aplicações de produção. Mais rápido que Opus, qualidade premium.
Claude Haiku 4.5
Ultra-rápido e econômico. Para tarefas de alta frequência e baixa complexidade. Menor latência da família.
Claude Extended Thinking
Raciocínio transparente. Opus e Sonnet com thinking ativado. Mostra o processo de raciocínio antes da resposta.
// Anthropic SDK
import Anthropic from '@anthropic-ai/sdk';
const client = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY });
// Com extended thinking
const resp = await client.messages.create({
model: 'claude-opus-4-7',
max_tokens: 16000,
thinking: { type: 'enabled', budget_tokens: 10000 },
messages: [{ role: 'user', content: 'Qual a complexidade do algoritmo de Dijkstra?' }]
});system prompt robusto para definir persona e restrições. Claude segue instruções de sistema com alta fidelidade — investir aqui melhora muito a consistência.Google — Família Gemini
O Google DeepMind combina décadas de pesquisa em IA com infraestrutura global. Gemini é nativo multimodal e profundamente integrado ao ecossistema Google.
Gemini 2.5 Pro
Top tier com thinking. Melhor contexto do mercado (1M tokens). Competitivo com GPT-4o e Claude em benchmarks.
Gemini 2.5 Flash
Velocidade + thinking. Rápido com raciocínio configurável. Ótimo custo-benefício para aplicações de produção.
// Gemini via Google AI SDK
import { GoogleGenerativeAI } from '@google/generative-ai';
const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);
const model = genAI.getGenerativeModel({ model: 'gemini-2.5-pro' });
const result = await model.generateContent('Analise este codigo...');
console.log(result.response.text());Meta — Llama (Open Source)
A Meta libera os pesos dos modelos Llama publicamente, permitindo execução local, fine-tuning e deploy sem custos de API. Revolucionou o ecossistema open-source.
Llama 3.3 70B
Melhor modelo aberto. Competitivo com GPT-4o em muitas tarefas. Precisa de GPU forte.
Llama 3.2 11B / 90B
Modelos menores para hardware limitado. 11B roda em consumer GPUs.
Code Llama
Variante especializada em código. Fine-tuned em repositórios GitHub.
Como rodar localmente
# Com Ollama (mais simples)
ollama pull llama3.3
ollama run llama3.3
# Via API local compativel com OpenAI
curl http://localhost:11434/api/chat -d '{
"model": "llama3.3",
"messages": [{"role":"user","content":"Hello"}]
}'Mistral AI
Startup europeia conhecida por modelos eficientes com alta qualidade para seu tamanho. Introduziu Mixture of Experts (MoE) para LLMs de produção.
Mistral Large
Modelo flagship. Forte em raciocínio e multilíngue. Alternativa ao GPT-4.
Mixtral 8x7B
MoE open-source. Usa 2 de 8 experts por token — eficiente e poderoso.
Codestral
Especializado em código. 80+ linguagens. Fill-in-the-middle e completion.
Mistral Small 3
Ultra-rápido e econômico. Ótimo para agentes com muitas chamadas.
Como Escolher um Modelo
A escolha do modelo certo depende de requisitos de qualidade, latência, custo e privacidade do seu caso de uso.
| Critério | Recomendação |
|---|---|
| Melhor qualidade geral | Claude Opus 4.7 / GPT-4o / Gemini 2.5 Pro |
| Custo-benefício produção | Claude Sonnet 4.6 / GPT-4o mini / Gemini Flash |
| Alta frequência / baixo custo | Claude Haiku 4.5 / Mistral Small |
| Raciocínio matemático/lógico | o3 / Claude Opus (thinking) / Gemini 2.5 Pro |
| Contexto muito longo (>200k) | Gemini 2.5 Pro (1M) / GPT-4.1 (1M) |
| Privacidade / on-premise | Llama 3.3 / Mistral via Ollama |
| Geração de código | Claude Sonnet / GPT-4o / Codestral |
| Multimodal (imagem+texto) | GPT-4o / Gemini 2.5 Pro / Claude Opus |
Framework de Decisão
1. Defina o caso de uso (chat, RAG, agente, code, vision...)
2. Estime volume de tokens/mes -> calcule custo estimado
3. Teste qualidade: crie benchmark com seus casos reais
4. Avalie latencia: p50, p95 no seu volume esperado
5. Considere privacidade e compliance (dados sensiveis?)
6. Implemente com abstracao (LiteLLM, Vercel AI SDK)
-> facil trocar de provedor sem reescrever codigoParâmetros e Configurações
Entender os parâmetros de inferência permite extrair o máximo de qualquer modelo.
temperature (0–2)
0 = sempre a saída mais provável. 1 = balanceado. >1 = criativo e imprevisível. Para código: 0.1–0.3.
max_tokens
Limite de tokens na resposta. Defina sempre — evita custos inesperados e timeouts.
top_p (nucleus sampling)
Considera apenas tokens com probabilidade acumulada até p%. 0.9 é bom padrão.
top_k
Considera os k tokens mais prováveis. top_k=1 é greedy (igual temp=0).
stop sequences
Strings que interrompem a geração. Útil para parsear outputs estruturados.
stream: true
Entrega tokens incrementalmente — reduz latência percebida pelo usuário em muito.
// Configuracao tipica para codigo
{ temperature: 0.1, top_p: 0.95, max_tokens: 2048 }
// Para escrita criativa
{ temperature: 0.9, top_p: 1.0, max_tokens: 4096 }
// Para extracao de dados estruturada
{ temperature: 0.0, max_tokens: 1024, response_format: { type: 'json_object' } }Unificando Providers com LiteLLM
LiteLLM é uma biblioteca que oferece uma interface OpenAI-compatível para 100+ modelos de diferentes provedores. Facilita trocar modelos sem mudar código.
import litellm
# Todos usam a mesma interface
response = litellm.completion(
model="anthropic/claude-opus-4-7",
# model="openai/gpt-4o",
# model="gemini/gemini-2.5-pro",
# model="ollama/llama3.3",
messages=[{"role": "user", "content": "Ola!"}]
)
# Em Node.js via Vercel AI SDK
import { generateText } from 'ai'
import { anthropic } from '@ai-sdk/anthropic'
const { text } = await generateText({
model: anthropic('claude-sonnet-4-6'),
prompt: 'Ola!'
})