Self-Consistency — EngenhariaDePrompt.ia.br

Resumo em uma frase: Self-Consistency é a ideia de que o modelo deve pensar várias vezes antes de responder — e confiar na resposta em que ele mesmo mais concorda consigo.
A IA resolve o mesmo problema várias vezes por caminhos diferentes e escolhe a resposta que apareceu mais vezes. É como perguntar a mesma coisa para cinco pessoas e confiar na resposta da maioria.

O que é?

Self-Consistency é uma estratégia de decodificação proposta por Wang et al. (2022) como evolução direta do Chain-of-Thought Prompting. Em vez de usar a decodificação gulosa (greedy decoding) — que simplesmente pega o caminho mais provável — a técnica amostra um conjunto diverso de caminhos de raciocínio e seleciona a resposta mais consistente entre eles.

A premissa é intuitiva e poderosa: se múltiplos raciocínios independentes chegam à mesma conclusão, essa conclusão é muito mais confiável do que qualquer resposta isolada.

Por que funciona?

A técnica se apoia na intuição de que um problema de raciocínio complexo tipicamente admite múltiplas formas diferentes de pensar que convergem para uma única resposta correta.

O problema com o CoT padrão é que ele depende de um único caminho de raciocínio — e se esse caminho contém um erro early, a conclusão estará errada mesmo que o restante do raciocínio seja coerente. A Self-Consistency resolve isso diversificando os caminhos e votando na resposta mais frequente, diluindo o impacto de erros individuais.

É o mesmo princípio que torna júris mais confiáveis do que juízes únicos — ou que faz pesquisas de opinião funcionarem com amostras representativas.

Como funciona: passo a passo

1. Enviar o mesmo prompt CoT múltiplas vezes (com temperatura > 0)
           ↓
2. Cada execução gera um caminho de raciocínio diferente
           ↓
3. Coletar as respostas finais de cada execução
           ↓
4. Selecionar a resposta que aparece com maior frequência
           (votação majoritária)

Exemplo prático

Prompt (mesmo para todas as execuções):

João tem 12 maçãs. Deu 1/3 para Maria e comeu 2. Quantas restam?
Vamos pensar passo a passo.

Execução 1:

12 ÷ 3 = 4 maçãs para Maria. Restam 8. Menos 2 que comeu = 6.

Execução 2:

1/3 de 12 é 4. João fica com 8. Come 2, sobram 6.

Execução 3:

João deu 4 maçãs (12/3). Come mais 2. 12 - 4 - 2 = 6.

Execução 4 (com erro):

1/3 de 12 = 3. Restam 9. Menos 2 = 7. (caminho errado)

Resultado por votação: 6 aparece 3×, 7 aparece 1× → Resposta final: 6 ✅

O erro da execução 4 foi neutralizado pela maioria.

Resultados experimentais

A Self-Consistency melhora o desempenho do Chain-of-Thought com margens expressivas em benchmarks populares de raciocínio aritmético e de senso comum: GSM8K (+17,9%), SVAMP (+11,0%), AQuA (+12,2%), StrategyQA (+6,4%) e ARC-challenge (+3,9%).

Vantagens

Vantagem	Descrição
Robustez	Erros em caminhos isolados são diluídos pela votação
Plug-and-play	Não exige retreinamento — funciona sobre qualquer CoT
Ganho expressivo	Melhoras de até +17,9% em benchmarks conhecidos
Sem arquitetura nova	Apenas múltiplas chamadas ao mesmo modelo

Limitações

Custo multiplicado: N execuções = N vezes o custo em tokens e latência. Para sistemas em produção com alto volume, isso pode ser proibitivo.
Empate na votação: Quando não há maioria clara, a estratégia de desempate precisa ser definida explicitamente.
Diminishing returns: A partir de certo número de amostras, o ganho de precisão estagna — não é linear.
Temperatura sensível: Amostras muito similares (temperatura baixa) reduzem a diversidade e o benefício da técnica.

Comparativo

	CoT padrão	Self-Consistency
Caminhos de raciocínio	1	N (diversificados)
Seleção da resposta	Decodificação gulosa	Votação majoritária
Custo	Baixo	N× maior
Robustez a erros	Baixa	Alta
Melhor uso	Tarefas simples	Raciocínio crítico

Quando usar?

A tarefa envolve raciocínio aritmético ou lógico onde erros pontuais são frequentes;
O custo de um erro é alto — análise jurídica, diagnóstico, decisões automatizadas;
Você já usa CoT e quer aumentar a confiabilidade sem mudar a arquitetura;
A latência não é crítica e você pode pagar pelo custo de múltiplas chamadas.

Para ambientes onde custo e velocidade são restrições rígidas, Self-Consistency pode ser aplicada seletivamente — apenas nos casos em que o modelo demonstra baixa confiança na primeira resposta.

Referências

Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023. arxiv.org/abs/2203.11171