A/B Testing
O que é teste A/B, como funciona, significância estatística, tamanho de amostra, p-value, ferramentas e multivariate testing.
O que é?
A/B Testing (teste A/B) é um experimento controlado onde duas versões de algo (página, feature, email, preço) são mostradas a grupos diferentes de usuários para determinar qual performa melhor com base em dados estatísticos.
- Grupo A (controle) — versão atual/original
- Grupo B (variante) — versão modificada
O tráfego é dividido aleatoriamente e os resultados são comparados estatisticamente. A versão vencedora é implementada para 100% dos usuários.
Como funciona
Anatomia de um teste A/B
1. Hipótese
"Se mudarmos o CTA de 'Cadastre-se' para 'Comece grátis',
a taxa de conversão vai aumentar em pelo menos 10%."
2. Setup
├── Métrica primária: Signup conversion rate
├── Grupo A (50%): botão "Cadastre-se" (controle)
├── Grupo B (50%): botão "Comece grátis" (variante)
└── Duração: 14 dias (mínimo para significância)
3. Execução
├── Tráfego dividido aleatoriamente
├── Sem alterar nada durante o teste
└── Monitorar métricas guardrail (não piorar nada)
4. Análise
├── Significância estatística atingida?
├── Tamanho do efeito é relevante?
└── Decisão: implementar, descartar ou iterarSignificância Estatística
p-value: probabilidade de o resultado ser obra do acaso
p < 0.05 → 95% de confiança → Estatisticamente significante ✅
p < 0.01 → 99% de confiança → Muito significante ✅
p > 0.05 → Não significante → Pode ser acaso ❌
Exemplo:
Grupo A: 1000 visitantes, 50 conversões (5.0%)
Grupo B: 1000 visitantes, 65 conversões (6.5%)
p-value: 0.03 → Significante ✅ (variante B vence)Tamanho de Amostra
Antes de rodar o teste, calcule quantos visitantes você precisa:
Variáveis:
├── Baseline conversion rate: 5%
├── Minimum Detectable Effect (MDE): 20% relativo (5% → 6%)
├── Significance level (alpha): 5%
└── Power (1-beta): 80%
Resultado: ~15.700 visitantes por variante
Total necessário: ~31.400 visitantes
Se seu site tem 2.000 visitantes/dia:
Duração mínima = 31.400 / 2.000 = ~16 diasSe o tráfego é insuficiente para atingir significância em tempo razoável, considere testar mudanças mais ousadas (maior MDE) ou usar testes qualitativos.
Multivariate Testing
A/B Test: 1 variável, 2 versões
├── A: botão azul
└── B: botão verde
Multivariate Test: múltiplas variáveis, todas as combinações
├── A: botão azul + título curto
├── B: botão azul + título longo
├── C: botão verde + título curto
└── D: botão verde + título longo
⚠️ Requer MUITO mais tráfego (4x neste caso)Erros comuns
❌ Parar o teste cedo porque "já está ganhando"
→ Espere a significância estatística
❌ Testar muitas variantes com pouco tráfego
→ Foque em 1 variável por vez
❌ Ignorar métricas guardrail
→ Conversão subiu, mas retenção caiu? Problema.
❌ Não documentar hipótese e aprendizado
→ Sem registro, a empresa não acumula conhecimento
❌ Testar mudanças triviais
→ Cor do botão raramente move a agulhaPor que importa?
A/B testing é fundamental porque:
- Elimina opiniões — dados decidem, não o HiPPO (Highest Paid Person's Opinion)
- Reduz risco — valida mudanças com uma fração dos usuários antes do rollout total
- Compõe resultados — melhorias de 5% se acumulam exponencialmente ao longo do tempo
- Gera aprendizado — mesmo testes que "falham" ensinam sobre o comportamento do usuário
- Protege receita — evita lançar mudanças que pareciam boas mas pioram métricas
Empresas como Google, Netflix e Booking.com rodam milhares de testes A/B simultaneamente. O Google testa até 10 tons de azul para links.
Exemplo prático
Teste A/B de pricing page
Hipótese: "Mostrar o plano Pro como 'mais popular' vai
aumentar a conversão para o plano Pro em 15%."
Controle (A):
┌─────────┐ ┌─────────┐ ┌─────────┐
│ Basic │ │ Pro │ │ Enterprise│
│ R$49/mês │ │ R$99/mês│ │ R$249/mês │
│ [Assinar]│ │ [Assinar]│ │ [Contato] │
└─────────┘ └─────────┘ └─────────┘
Variante (B):
┌─────────┐ ┌──────────────┐ ┌─────────┐
│ Basic │ │ ⭐ Pro │ │ Enterprise│
│ R$49/mês │ │ MAIS POPULAR │ │ R$249/mês │
│ [Assinar]│ │ R$99/mês │ │ [Contato] │
│ │ │ [Assinar Pro]│ │ │
└─────────┘ └──────────────┘ └─────────┘
Resultados (30 dias, 12.000 visitantes):
├── Controle: 3.8% conversão para Pro
├── Variante: 5.1% conversão para Pro
├── Uplift: +34% relativo
├── p-value: 0.008
└── Decisão: IMPLEMENTAR variante B ✅
Impacto projetado: +R$15k MRR/mêsTermos relacionados
- Feature Flag — mecanismo técnico para implementar testes A/B
- Conversion Rate — métrica mais comum em testes A/B
- North Star Metric — a métrica que guia quais testes rodar
KPI — Key Performance Indicator
O que é KPI, diferença entre KPI, métrica e OKR, leading vs lagging indicators e como escolher KPIs eficazes para sua startup.
North Star Metric
O que é North Star Metric, como definir a métrica única que captura o valor central do seu produto, exemplos de empresas reais.