🤖IA

Guia Completo de Modelos de IA

Panorama dos principais LLMs: GPT, Claude, Gemini, Llama, Mistral, com framework para escolha.

Progresso
0%

OpenAI — Família GPT

A OpenAI é a empresa mais influente no espaço de LLMs. Seus modelos GPT definiram o padrão para chat, raciocínio e geração de código.

GPT-4o

Multimodal, rápido, eficiente. Melhor equilíbrio custo-benefício da OpenAI. Processa texto, imagem e áudio. Context: 128k tokens.

o3 / o4-mini

Raciocínio estendido (thinking). Modelos que pensam antes de responder. Superiores em matemática, ciência e lógica complexa.

GPT-4.1

1M tokens de contexto. Contexto massivo, ideal para análise de repositórios completos e documentos longos.

GPT-4o mini

Econômico e rápido. Substituto do GPT-3.5 Turbo. Ótimo para tarefas simples com alto volume de chamadas.

// OpenAI SDK
import OpenAI from 'openai';
const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const resp = await openai.chat.completions.create({
  model: 'gpt-4o',
  messages: [{ role: 'user', content: 'Explique embeddings em 3 frases.' }],
  temperature: 0.7,
  max_tokens: 500
});

Anthropic — Família Claude

A Anthropic foca em IA segura e alinhada. Os modelos Claude são conhecidos pela qualidade de escrita, instrução following e janela de contexto massiva.

Claude Opus 4.7

Mais poderoso da Anthropic. Estado da arte em raciocínio, análise e geração de código. Suporta extended thinking. 200k ctx.

Claude Sonnet 4.6

Equilíbrio ideal qualidade/custo. Excelente para aplicações de produção. Mais rápido que Opus, qualidade premium.

Claude Haiku 4.5

Ultra-rápido e econômico. Para tarefas de alta frequência e baixa complexidade. Menor latência da família.

Claude Extended Thinking

Raciocínio transparente. Opus e Sonnet com thinking ativado. Mostra o processo de raciocínio antes da resposta.

// Anthropic SDK
import Anthropic from '@anthropic-ai/sdk';
const client = new Anthropic({ apiKey: process.env.ANTHROPIC_API_KEY });

// Com extended thinking
const resp = await client.messages.create({
  model: 'claude-opus-4-7',
  max_tokens: 16000,
  thinking: { type: 'enabled', budget_tokens: 10000 },
  messages: [{ role: 'user', content: 'Qual a complexidade do algoritmo de Dijkstra?' }]
});
Dica Claude: Use system prompt robusto para definir persona e restrições. Claude segue instruções de sistema com alta fidelidade — investir aqui melhora muito a consistência.

Google — Família Gemini

O Google DeepMind combina décadas de pesquisa em IA com infraestrutura global. Gemini é nativo multimodal e profundamente integrado ao ecossistema Google.

Gemini 2.5 Pro

Top tier com thinking. Melhor contexto do mercado (1M tokens). Competitivo com GPT-4o e Claude em benchmarks.

Gemini 2.5 Flash

Velocidade + thinking. Rápido com raciocínio configurável. Ótimo custo-benefício para aplicações de produção.

// Gemini via Google AI SDK
import { GoogleGenerativeAI } from '@google/generative-ai';
const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);
const model = genAI.getGenerativeModel({ model: 'gemini-2.5-pro' });

const result = await model.generateContent('Analise este codigo...');
console.log(result.response.text());

Meta — Llama (Open Source)

A Meta libera os pesos dos modelos Llama publicamente, permitindo execução local, fine-tuning e deploy sem custos de API. Revolucionou o ecossistema open-source.

Llama 3.3 70B

Melhor modelo aberto. Competitivo com GPT-4o em muitas tarefas. Precisa de GPU forte.

Llama 3.2 11B / 90B

Modelos menores para hardware limitado. 11B roda em consumer GPUs.

Code Llama

Variante especializada em código. Fine-tuned em repositórios GitHub.

Como rodar localmente

# Com Ollama (mais simples)
ollama pull llama3.3
ollama run llama3.3

# Via API local compativel com OpenAI
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.3",
  "messages": [{"role":"user","content":"Hello"}]
}'
Ollama: A forma mais simples de rodar LLMs localmente. Suporta Llama, Mistral, Phi, Gemma e dezenas de outros modelos. Compatível com a API da OpenAI.

Mistral AI

Startup europeia conhecida por modelos eficientes com alta qualidade para seu tamanho. Introduziu Mixture of Experts (MoE) para LLMs de produção.

Mistral Large

Modelo flagship. Forte em raciocínio e multilíngue. Alternativa ao GPT-4.

Mixtral 8x7B

MoE open-source. Usa 2 de 8 experts por token — eficiente e poderoso.

Codestral

Especializado em código. 80+ linguagens. Fill-in-the-middle e completion.

Mistral Small 3

Ultra-rápido e econômico. Ótimo para agentes com muitas chamadas.

Como Escolher um Modelo

A escolha do modelo certo depende de requisitos de qualidade, latência, custo e privacidade do seu caso de uso.

CritérioRecomendação
Melhor qualidade geralClaude Opus 4.7 / GPT-4o / Gemini 2.5 Pro
Custo-benefício produçãoClaude Sonnet 4.6 / GPT-4o mini / Gemini Flash
Alta frequência / baixo custoClaude Haiku 4.5 / Mistral Small
Raciocínio matemático/lógicoo3 / Claude Opus (thinking) / Gemini 2.5 Pro
Contexto muito longo (>200k)Gemini 2.5 Pro (1M) / GPT-4.1 (1M)
Privacidade / on-premiseLlama 3.3 / Mistral via Ollama
Geração de códigoClaude Sonnet / GPT-4o / Codestral
Multimodal (imagem+texto)GPT-4o / Gemini 2.5 Pro / Claude Opus

Framework de Decisão

1. Defina o caso de uso (chat, RAG, agente, code, vision...)
2. Estime volume de tokens/mes -> calcule custo estimado
3. Teste qualidade: crie benchmark com seus casos reais
4. Avalie latencia: p50, p95 no seu volume esperado
5. Considere privacidade e compliance (dados sensiveis?)
6. Implemente com abstracao (LiteLLM, Vercel AI SDK)
   -> facil trocar de provedor sem reescrever codigo

Parâmetros e Configurações

Entender os parâmetros de inferência permite extrair o máximo de qualquer modelo.

temperature (0–2)

0 = sempre a saída mais provável. 1 = balanceado. >1 = criativo e imprevisível. Para código: 0.1–0.3.

max_tokens

Limite de tokens na resposta. Defina sempre — evita custos inesperados e timeouts.

top_p (nucleus sampling)

Considera apenas tokens com probabilidade acumulada até p%. 0.9 é bom padrão.

top_k

Considera os k tokens mais prováveis. top_k=1 é greedy (igual temp=0).

stop sequences

Strings que interrompem a geração. Útil para parsear outputs estruturados.

stream: true

Entrega tokens incrementalmente — reduz latência percebida pelo usuário em muito.

// Configuracao tipica para codigo
{ temperature: 0.1, top_p: 0.95, max_tokens: 2048 }

// Para escrita criativa
{ temperature: 0.9, top_p: 1.0, max_tokens: 4096 }

// Para extracao de dados estruturada
{ temperature: 0.0, max_tokens: 1024, response_format: { type: 'json_object' } }
Atenção: Não use temperature e top_p altos juntos — o efeito é multiplicativo e pode gerar outputs incoerentes. Ajuste apenas um dos dois.

Unificando Providers com LiteLLM

LiteLLM é uma biblioteca que oferece uma interface OpenAI-compatível para 100+ modelos de diferentes provedores. Facilita trocar modelos sem mudar código.

import litellm

# Todos usam a mesma interface
response = litellm.completion(
  model="anthropic/claude-opus-4-7",
  # model="openai/gpt-4o",
  # model="gemini/gemini-2.5-pro",
  # model="ollama/llama3.3",
  messages=[{"role": "user", "content": "Ola!"}]
)

# Em Node.js via Vercel AI SDK
import { generateText } from 'ai'
import { anthropic } from '@ai-sdk/anthropic'

const { text } = await generateText({
  model: anthropic('claude-sonnet-4-6'),
  prompt: 'Ola!'
})
Fundamentos de IA← Todos os treinamentos