Kaique Mitsuo Silva Yamamoto
Ia

Avaliação e Métricas de Modelos de IA — Como Medir se Funciona

Métricas de ML (F1, AUC, MSE), métricas de RAG (faithfulness, relevância), LLM-as-judge, avaliação de qualidade de respostas e frameworks de avaliação (Ragas, DeepEval, Promptfoo).

Avaliação e Métricas de Modelos de IA — Como Medir se Funciona

Meu caro buscador, construir um modelo de IA é a parte fácil. A parte difícil é saber se ele funciona de verdade. E "funciona" não é "gera uma resposta bonita" — é "gera uma resposta correta, relevante e confiável".

Este artigo é o guia completo de avaliação — do básico (métricas de ML) ao avançado (LLM-as-judge). É o que separa um engenheiro de IA de alguém que só faz prompt.


1. Métricas de Machine Learning Clássico

1.1 Classificação

MétricaFórmula (intuitiva)Quando usar
AccuracyAcertos / TotalClasses balanceadas
PrecisionVP / (VP + FP)Quando falso positivo é caro (spam, fraude)
RecallVP / (VP + FN)When falso negativo é caro (doença, segurança)
F1-ScoreMédia harmônica de P e RQuando precisa equilibrar P e R
AUC-ROCÁrea sob a curva ROCComparação geral de modelos
Log LossPenaliza previsões erradas confiantesQuando a probabilidade importa

1.2 Regressão

MétricaO que medeInterpretação
MSEErro quadrático médioPenaliza erros grandes
RMSERaiz do MSEMesma unidade dos dados
MAEErro absoluto médioMenos sensível a outliers
Variância explicada1 = perfeito, 0 = chute
MAPEErro percentualÚtil para comparar séries diferentes

2. Métricas de RAG

2.1 As métricas essenciais

MétricaO que medeComo medir
FaithfulnessA resposta é baseada nos documentos recuperados?LLM-as-judge: "A resposta se sustenta nos documentos fornecidos?"
Answer RelevancyA resposta é relevante para a pergunta?LLM-as-judge: "A resposta responde à pergunta?"
Context PrecisionOs documentos relevantes estão no topo?Verificar posição dos docs relevantes no ranking
Context RecallTodos os docs relevantes foram recuperados?Comparar docs recuperados com docs "gabarito"
Context RelevancyOs docs recuperados são relevantes?LLM-as-judge por documento

2.2 Framework Ragas

from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision

result = evaluate(
    dataset=eval_dataset,  # question, answer, contexts, ground_truth
    metrics=[faithfulness, answer_relevancy, context_precision],
)

print(result)
# {'faithfulness': 0.87, 'answer_relevancy': 0.92, 'context_precision': 0.78}

3. LLM-as-Judge

3.1 O conceito

Usar um LLM (geralmente GPT-4o ou Claude) para avaliar a saída de outro LLM. É o método mais prático e escalável de avaliação em produção.

3.2 O prompt de avaliação

JUDGE_PROMPT = """
Você é um avaliador especialista. Avalie a resposta abaixo.

PERGUNTA: {question}
RESPOSTA DO MODELO: {answer}
CONTEXTO RECUPERADO: {context}
GABARITO (se existir): {ground_truth}

Critérios:
1. CORRETUDE (0-5): A resposta está factualmente correta?
2. RELEVÂNCIA (0-5): A resposta responde à pergunta?
3. COMPLETUDE (0-5): A resposta cobre todos os aspectos?
4. CLAREZA (0-5): A resposta é bem escrita e compreensível?

Retorne APENAS JSON:
{{"correctness": X, "relevance": X, "completeness": X, "clarity": X, "overall": X, "reasoning": "..."}}
"""

3.3 Frameworks de avaliação

FrameworkVantagemInstalação
RagasFoco em RAG, métricas prontaspip install ragas
DeepEvalGenérico, suporte a múltiplas métricaspip install deepeval
PromptfooTestes de prompt, CI/CD friendlynpm install -g promptfoo
LangSmithTracing + avaliação integradaIntegração LangChain

4. Avaliação em Produção

4.1 O ciclo de avaliação

DESENVOLVIMENTO
  → Testes unitários de prompts
  → Avaliação offline com dataset de teste
  → LLM-as-judge automatizado

PRODUÇÃO
  → Logging de todas as interações
  → Amostragem para avaliação humana
  → Monitoramento de métricas (latência, custo, qualidade)
  → Alertas de degradação

MELHORIA CONTÍNUA
  → Análise de falhas
  → Atualização de prompts
  → Re-avaliação após mudanças
  → A/B testing de modelos

4.2 O que monitorar

MétricaFerramentaAlerta quando
Latência p95Prometheus/Grafana> 5s
Taxa de erroLogs estruturados> 1%
Custo por requisiçãoCustom metric> threshold
Faithfulness médioRagas / LLM-as-judge< 0.8
Taxa de "não sei"Custom metric> 20%

Dica Final

Avaliação não é opcional — é obrigatória. Um sistema de IA sem avaliação é um carro sem painel: você não sabe a velocidade, não sabe se falta gasolina, e não sabe se o motor está superaquecendo.

Comece com métricas simples (faithfulness + relevância) e evolua. No teste prático, se você mencionar que "avaliaria a qualidade com Ragas ou LLM-as-judge", já se destaca.

O que não é medido, não é gerenciado. O que não é gerenciado, não melhora.

On this page