Métricas de ML (F1, AUC, MSE), métricas de RAG (faithfulness, relevância), LLM-as-judge, avaliação de qualidade de respostas e frameworks de avaliação (Ragas, DeepEval, Promptfoo).

Avaliação e Métricas de Modelos de IA — Como Medir se Funciona

Meu caro buscador, construir um modelo de IA é a parte fácil. A parte difícil é saber se ele funciona de verdade. E "funciona" não é "gera uma resposta bonita" — é "gera uma resposta correta, relevante e confiável".

Este artigo é o guia completo de avaliação — do básico (métricas de ML) ao avançado (LLM-as-judge). É o que separa um engenheiro de IA de alguém que só faz prompt.

1. Métricas de Machine Learning Clássico

1.1 Classificação

Métrica	Fórmula (intuitiva)	Quando usar
Accuracy	Acertos / Total	Classes balanceadas
Precision	VP / (VP + FP)	Quando falso positivo é caro (spam, fraude)
Recall	VP / (VP + FN)	When falso negativo é caro (doença, segurança)
F1-Score	Média harmônica de P e R	Quando precisa equilibrar P e R
AUC-ROC	Área sob a curva ROC	Comparação geral de modelos
Log Loss	Penaliza previsões erradas confiantes	Quando a probabilidade importa

1.2 Regressão

Métrica	O que mede	Interpretação
MSE	Erro quadrático médio	Penaliza erros grandes
RMSE	Raiz do MSE	Mesma unidade dos dados
MAE	Erro absoluto médio	Menos sensível a outliers
R²	Variância explicada	1 = perfeito, 0 = chute
MAPE	Erro percentual	Útil para comparar séries diferentes

2. Métricas de RAG

2.1 As métricas essenciais

Métrica	O que mede	Como medir
Faithfulness	A resposta é baseada nos documentos recuperados?	LLM-as-judge: "A resposta se sustenta nos documentos fornecidos?"
Answer Relevancy	A resposta é relevante para a pergunta?	LLM-as-judge: "A resposta responde à pergunta?"
Context Precision	Os documentos relevantes estão no topo?	Verificar posição dos docs relevantes no ranking
Context Recall	Todos os docs relevantes foram recuperados?	Comparar docs recuperados com docs "gabarito"
Context Relevancy	Os docs recuperados são relevantes?	LLM-as-judge por documento

2.2 Framework Ragas

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision

result = evaluate(
    dataset=eval_dataset,  # question, answer, contexts, ground_truth
    metrics=[faithfulness, answer_relevancy, context_precision],
)

print(result)
# {'faithfulness': 0.87, 'answer_relevancy': 0.92, 'context_precision': 0.78}

3. LLM-as-Judge

3.1 O conceito

Usar um LLM (geralmente GPT-4o ou Claude) para avaliar a saída de outro LLM. É o método mais prático e escalável de avaliação em produção.

3.2 O prompt de avaliação

JUDGE_PROMPT = """
Você é um avaliador especialista. Avalie a resposta abaixo.

PERGUNTA: {question}
RESPOSTA DO MODELO: {answer}
CONTEXTO RECUPERADO: {context}
GABARITO (se existir): {ground_truth}

Critérios:
1. CORRETUDE (0-5): A resposta está factualmente correta?
2. RELEVÂNCIA (0-5): A resposta responde à pergunta?
3. COMPLETUDE (0-5): A resposta cobre todos os aspectos?
4. CLAREZA (0-5): A resposta é bem escrita e compreensível?

Retorne APENAS JSON:
{{"correctness": X, "relevance": X, "completeness": X, "clarity": X, "overall": X, "reasoning": "..."}}
"""

3.3 Frameworks de avaliação

Framework	Vantagem	Instalação
Ragas	Foco em RAG, métricas prontas	`pip install ragas`
DeepEval	Genérico, suporte a múltiplas métricas	`pip install deepeval`
Promptfoo	Testes de prompt, CI/CD friendly	`npm install -g promptfoo`
LangSmith	Tracing + avaliação integrada	Integração LangChain

4. Avaliação em Produção

4.1 O ciclo de avaliação

DESENVOLVIMENTO
  → Testes unitários de prompts
  → Avaliação offline com dataset de teste
  → LLM-as-judge automatizado

PRODUÇÃO
  → Logging de todas as interações
  → Amostragem para avaliação humana
  → Monitoramento de métricas (latência, custo, qualidade)
  → Alertas de degradação

MELHORIA CONTÍNUA
  → Análise de falhas
  → Atualização de prompts
  → Re-avaliação após mudanças
  → A/B testing de modelos

4.2 O que monitorar

Métrica	Ferramenta	Alerta quando
Latência p95	Prometheus/Grafana	> 5s
Taxa de erro	Logs estruturados	> 1%
Custo por requisição	Custom metric	> threshold
Faithfulness médio	Ragas / LLM-as-judge	< 0.8
Taxa de "não sei"	Custom metric	> 20%

Dica Final

Avaliação não é opcional — é obrigatória. Um sistema de IA sem avaliação é um carro sem painel: você não sabe a velocidade, não sabe se falta gasolina, e não sabe se o motor está superaquecendo.

Comece com métricas simples (faithfulness + relevância) e evolua. No teste prático, se você mencionar que "avaliaria a qualidade com Ragas ou LLM-as-judge", já se destaca.

O que não é medido, não é gerenciado. O que não é gerenciado, não melhora.

Avaliação e Métricas de Modelos de IA — Como Medir se Funciona

On this page