Avaliação e Métricas de Modelos de IA — Como Medir se Funciona
Baixar PDFMétricas de ML (F1, AUC, MSE), métricas de RAG (faithfulness, relevância), LLM-as-judge, avaliação de qualidade de respostas e frameworks de avaliação (Ragas, DeepEval, Promptfoo).
Avaliação e Métricas de Modelos de IA — Como Medir se Funciona
Meu caro buscador, construir um modelo de IA é a parte fácil. A parte difícil é saber se ele funciona de verdade. E "funciona" não é "gera uma resposta bonita" — é "gera uma resposta correta, relevante e confiável".
Este artigo é o guia completo de avaliação — do básico (métricas de ML) ao avançado (LLM-as-judge). É o que separa um engenheiro de IA de alguém que só faz prompt.
1. Métricas de Machine Learning Clássico
1.1 Classificação
| Métrica | Fórmula (intuitiva) | Quando usar |
|---|---|---|
| Accuracy | Acertos / Total | Classes balanceadas |
| Precision | VP / (VP + FP) | Quando falso positivo é caro (spam, fraude) |
| Recall | VP / (VP + FN) | When falso negativo é caro (doença, segurança) |
| F1-Score | Média harmônica de P e R | Quando precisa equilibrar P e R |
| AUC-ROC | Área sob a curva ROC | Comparação geral de modelos |
| Log Loss | Penaliza previsões erradas confiantes | Quando a probabilidade importa |
1.2 Regressão
| Métrica | O que mede | Interpretação |
|---|---|---|
| MSE | Erro quadrático médio | Penaliza erros grandes |
| RMSE | Raiz do MSE | Mesma unidade dos dados |
| MAE | Erro absoluto médio | Menos sensível a outliers |
| R² | Variância explicada | 1 = perfeito, 0 = chute |
| MAPE | Erro percentual | Útil para comparar séries diferentes |
2. Métricas de RAG
2.1 As métricas essenciais
| Métrica | O que mede | Como medir |
|---|---|---|
| Faithfulness | A resposta é baseada nos documentos recuperados? | LLM-as-judge: "A resposta se sustenta nos documentos fornecidos?" |
| Answer Relevancy | A resposta é relevante para a pergunta? | LLM-as-judge: "A resposta responde à pergunta?" |
| Context Precision | Os documentos relevantes estão no topo? | Verificar posição dos docs relevantes no ranking |
| Context Recall | Todos os docs relevantes foram recuperados? | Comparar docs recuperados com docs "gabarito" |
| Context Relevancy | Os docs recuperados são relevantes? | LLM-as-judge por documento |
2.2 Framework Ragas
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision
result = evaluate(
dataset=eval_dataset, # question, answer, contexts, ground_truth
metrics=[faithfulness, answer_relevancy, context_precision],
)
print(result)
# {'faithfulness': 0.87, 'answer_relevancy': 0.92, 'context_precision': 0.78}3. LLM-as-Judge
3.1 O conceito
Usar um LLM (geralmente GPT-4o ou Claude) para avaliar a saída de outro LLM. É o método mais prático e escalável de avaliação em produção.
3.2 O prompt de avaliação
JUDGE_PROMPT = """
Você é um avaliador especialista. Avalie a resposta abaixo.
PERGUNTA: {question}
RESPOSTA DO MODELO: {answer}
CONTEXTO RECUPERADO: {context}
GABARITO (se existir): {ground_truth}
Critérios:
1. CORRETUDE (0-5): A resposta está factualmente correta?
2. RELEVÂNCIA (0-5): A resposta responde à pergunta?
3. COMPLETUDE (0-5): A resposta cobre todos os aspectos?
4. CLAREZA (0-5): A resposta é bem escrita e compreensível?
Retorne APENAS JSON:
{{"correctness": X, "relevance": X, "completeness": X, "clarity": X, "overall": X, "reasoning": "..."}}
"""3.3 Frameworks de avaliação
| Framework | Vantagem | Instalação |
|---|---|---|
| Ragas | Foco em RAG, métricas prontas | pip install ragas |
| DeepEval | Genérico, suporte a múltiplas métricas | pip install deepeval |
| Promptfoo | Testes de prompt, CI/CD friendly | npm install -g promptfoo |
| LangSmith | Tracing + avaliação integrada | Integração LangChain |
4. Avaliação em Produção
4.1 O ciclo de avaliação
DESENVOLVIMENTO
→ Testes unitários de prompts
→ Avaliação offline com dataset de teste
→ LLM-as-judge automatizado
PRODUÇÃO
→ Logging de todas as interações
→ Amostragem para avaliação humana
→ Monitoramento de métricas (latência, custo, qualidade)
→ Alertas de degradação
MELHORIA CONTÍNUA
→ Análise de falhas
→ Atualização de prompts
→ Re-avaliação após mudanças
→ A/B testing de modelos4.2 O que monitorar
| Métrica | Ferramenta | Alerta quando |
|---|---|---|
| Latência p95 | Prometheus/Grafana | > 5s |
| Taxa de erro | Logs estruturados | > 1% |
| Custo por requisição | Custom metric | > threshold |
| Faithfulness médio | Ragas / LLM-as-judge | < 0.8 |
| Taxa de "não sei" | Custom metric | > 20% |
Dica Final
Avaliação não é opcional — é obrigatória. Um sistema de IA sem avaliação é um carro sem painel: você não sabe a velocidade, não sabe se falta gasolina, e não sabe se o motor está superaquecendo.
Comece com métricas simples (faithfulness + relevância) e evolua. No teste prático, se você mencionar que "avaliaria a qualidade com Ragas ou LLM-as-judge", já se destaca.
O que não é medido, não é gerenciado. O que não é gerenciado, não melhora.
Engenharia de IA na Prática — Do Protótipo ao Produto
Como um engenheiro de IA trabalha no dia a dia: arquitetura de sistemas com LLMs, pipeline de dados, integração de modelos, avaliação contínua e padrões de código para projetos de IA.
MLOps e Deploy — Colocando IA em Produção
Como colocar modelos de IA em produção: FastAPI, Docker, versionamento de modelos e prompts, monitoramento, CI/CD para ML e padrões de deploy para sistemas de IA.