Kaique Mitsuo Silva Yamamoto
Ia

LLMs e APIs de IA

Large Language Models (LLMs) revolucionaram a forma como interagimos com sistemas de inteligencia artificial. Este guia cobre as principais APIs e provedores.

OpenAI

A OpenAI oferece os modelos mais populares do mercado.

Modelos Principais

ModeloDescricaoUso Recomendado
GPT-4oMultimodal, rapido e eficienteChat, analise de imagens, codigo
GPT-4 TurboAlta capacidade de raciocinioTarefas complexas, analise
o1Modelo de raciocinio avancadoMatematica, logica, codigo complexo
GPT-3.5 TurboRapido e economicoTarefas simples, alto volume

Exemplo de Uso

from openai import OpenAI

client = OpenAI(api_key="sua-chave")

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Voce e um assistente util."},
        {"role": "user", "content": "Explique Docker em 3 frases."}
    ],
    temperature=0.7,
    max_tokens=500
)

print(response.choices[0].message.content)

Funcionalidades Avancadas

  • Function Calling: Permite que o modelo chame funcoes definidas
  • Vision: Analise de imagens com GPT-4o
  • JSON Mode: Garante saida em formato JSON valido
  • Streaming: Respostas em tempo real

Anthropic Claude

Claude e conhecido pela seguranca e capacidade de seguir instrucoes complexas.

Modelos

ModeloCaracteristica
Claude 3.5 SonnetEquilibrio entre velocidade e qualidade
Claude 3 OpusMaximo desempenho
Claude 3 HaikuUltra-rapido e economico

Exemplo de Uso

import anthropic

client = anthropic.Anthropic(api_key="sua-chave")

message = client.messages.create(
    model="claude-3-5-sonnet-20241022",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Explique Kubernetes brevemente."}
    ]
)

print(message.content[0].text)

Diferenciais

  • Context Window: Ate 200K tokens
  • System Prompts: Excelente em seguir instrucoes
  • Artifacts: Geracao de codigo e documentos estruturados

Google Gemini e Vertex AI

Google oferece modelos multimodais poderosos.

Modelos

ModeloCapacidade
Gemini 1.5 ProMultimodal, 1M tokens de contexto
Gemini 1.5 FlashRapido e eficiente
Gemini UltraMaximo desempenho

Exemplo com Vertex AI

import vertexai
from vertexai.generative_models import GenerativeModel

vertexai.init(project="seu-projeto", location="us-central1")
model = GenerativeModel("gemini-1.5-pro")

response = model.generate_content("Explique microservicos.")
print(response.text)

OpenRouter

Agregador que fornece acesso a multiplos modelos via uma unica API.

Vantagens

  • Unificacao: Uma API para OpenAI, Anthropic, Google, Meta, etc.
  • Fallback: Roteamento automatico entre provedores
  • Precos Competitivos: Muitas vezes mais barato que direto

Exemplo

from openai import OpenAI

client = OpenAI(
    base_url="https://openrouter.ai/api/v1",
    api_key="sua-chave-openrouter"
)

response = client.chat.completions.create(
    model="anthropic/claude-3.5-sonnet",
    messages=[{"role": "user", "content": "Ola!"}]
)

Groq

Hardware especializado para inferencia ultra-rapida.

Caracteristicas

  • Velocidade: Ate 10x mais rapido que GPUs tradicionais
  • Modelos Open Source: Llama, Mixtral, etc.
  • Baixa Latencia: Ideal para aplicacoes em tempo real

Exemplo

from groq import Groq

client = Groq(api_key="sua-chave")

response = client.chat.completions.create(
    model="llama-3.1-70b-versatile",
    messages=[{"role": "user", "content": "Ola!"}]
)

Comparativo de Custos (por 1M tokens)

ProvedorModeloInputOutput
OpenAIGPT-4o$2.50$10.00
AnthropicClaude 3.5 Sonnet$3.00$15.00
GoogleGemini 1.5 Pro$1.25$5.00
GroqLlama 3.1 70B$0.59$0.79

Precos aproximados, podem variar.


Boas Praticas

  1. Rate Limiting: Implemente controle de requisicoes
  2. Retry Logic: Use backoff exponencial para erros
  3. Caching: Cache respostas para prompts identicos
  4. Monitoring: Monitore custos e latencia
  5. Fallback: Configure provedores alternativos

Recursos