Self-Consistency
Resumo em uma frase: Self-Consistency é a ideia de que o modelo deve pensar várias vezes antes de responder — e confiar na resposta em que ele mesmo mais concorda consigo.
A IA resolve o mesmo problema várias vezes por caminhos diferentes e escolhe a resposta que apareceu mais vezes. É como perguntar a mesma coisa para cinco pessoas e confiar na resposta da maioria.
O que é?
Self-Consistency é uma estratégia de decodificação proposta por Wang et al. (2022) como evolução direta do Chain-of-Thought Prompting. Em vez de usar a decodificação gulosa (greedy decoding) — que simplesmente pega o caminho mais provável — a técnica amostra um conjunto diverso de caminhos de raciocínio e seleciona a resposta mais consistente entre eles.
A premissa é intuitiva e poderosa: se múltiplos raciocínios independentes chegam à mesma conclusão, essa conclusão é muito mais confiável do que qualquer resposta isolada.
Por que funciona?
A técnica se apoia na intuição de que um problema de raciocínio complexo tipicamente admite múltiplas formas diferentes de pensar que convergem para uma única resposta correta.
O problema com o CoT padrão é que ele depende de um único caminho de raciocínio — e se esse caminho contém um erro early, a conclusão estará errada mesmo que o restante do raciocínio seja coerente. A Self-Consistency resolve isso diversificando os caminhos e votando na resposta mais frequente, diluindo o impacto de erros individuais.
É o mesmo princípio que torna júris mais confiáveis do que juízes únicos — ou que faz pesquisas de opinião funcionarem com amostras representativas.
Como funciona: passo a passo
1. Enviar o mesmo prompt CoT múltiplas vezes (com temperatura > 0)
↓
2. Cada execução gera um caminho de raciocínio diferente
↓
3. Coletar as respostas finais de cada execução
↓
4. Selecionar a resposta que aparece com maior frequência
(votação majoritária)
Exemplo prático
Prompt (mesmo para todas as execuções):
João tem 12 maçãs. Deu 1/3 para Maria e comeu 2. Quantas restam?
Vamos pensar passo a passo.
Execução 1:
12 ÷ 3 = 4 maçãs para Maria. Restam 8. Menos 2 que comeu = 6.
Execução 2:
1/3 de 12 é 4. João fica com 8. Come 2, sobram 6.
Execução 3:
João deu 4 maçãs (12/3). Come mais 2. 12 - 4 - 2 = 6.
Execução 4 (com erro):
1/3 de 12 = 3. Restam 9. Menos 2 = 7. (caminho errado)
Resultado por votação: 6 aparece 3×, 7 aparece 1× → Resposta final: 6 ✅
O erro da execução 4 foi neutralizado pela maioria.
Resultados experimentais
A Self-Consistency melhora o desempenho do Chain-of-Thought com margens expressivas em benchmarks populares de raciocínio aritmético e de senso comum: GSM8K (+17,9%), SVAMP (+11,0%), AQuA (+12,2%), StrategyQA (+6,4%) e ARC-challenge (+3,9%).
Vantagens
| Vantagem | Descrição |
|---|---|
| Robustez | Erros em caminhos isolados são diluídos pela votação |
| Plug-and-play | Não exige retreinamento — funciona sobre qualquer CoT |
| Ganho expressivo | Melhoras de até +17,9% em benchmarks conhecidos |
| Sem arquitetura nova | Apenas múltiplas chamadas ao mesmo modelo |
Limitações
- Custo multiplicado: N execuções = N vezes o custo em tokens e latência. Para sistemas em produção com alto volume, isso pode ser proibitivo.
- Empate na votação: Quando não há maioria clara, a estratégia de desempate precisa ser definida explicitamente.
- Diminishing returns: A partir de certo número de amostras, o ganho de precisão estagna — não é linear.
- Temperatura sensível: Amostras muito similares (temperatura baixa) reduzem a diversidade e o benefício da técnica.
Comparativo
| CoT padrão | Self-Consistency | |
|---|---|---|
| Caminhos de raciocínio | 1 | N (diversificados) |
| Seleção da resposta | Decodificação gulosa | Votação majoritária |
| Custo | Baixo | N× maior |
| Robustez a erros | Baixa | Alta |
| Melhor uso | Tarefas simples | Raciocínio crítico |
Quando usar?
- A tarefa envolve raciocínio aritmético ou lógico onde erros pontuais são frequentes;
- O custo de um erro é alto — análise jurídica, diagnóstico, decisões automatizadas;
- Você já usa CoT e quer aumentar a confiabilidade sem mudar a arquitetura;
- A latência não é crítica e você pode pagar pelo custo de múltiplas chamadas.
Para ambientes onde custo e velocidade são restrições rígidas, Self-Consistency pode ser aplicada seletivamente — apenas nos casos em que o modelo demonstra baixa confiança na primeira resposta.
Referências
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023. arxiv.org/abs/2203.11171