Chain-of-Thought
Resumo em uma frase: Chain-of-Thought Prompting é fazer o modelo mostrar o rascunho — porque a resposta certa raramente nasce do silêncio entre a pergunta e a conclusão.
O que é?
Chain-of-Thought (CoT) Prompting é uma técnica em que o modelo é induzido a externalizar seu raciocínio passo a passo antes de chegar à resposta final. Em vez de produzir apenas o resultado, o modelo "pensa em voz alta" — gerando uma cadeia de raciocínio intermediária que conecta o problema à solução.
A ideia é simples: se um humano resolve um problema difícil mostrando o rascunho, por que o modelo não faria o mesmo?
Por que funciona?
Wei et al. (2022) demonstraram que simplesmente incluir etapas de raciocínio nos exemplos — ou instruir o modelo a raciocinar antes de responder — melhora dramaticamente o desempenho em tarefas que exigem lógica, matemática e inferência multi-etapa.
A hipótese central é que o raciocínio intermediário atua como uma memória de trabalho explícita: ao escrever cada etapa, o modelo reduz a carga de inferência sobre tokens distantes, tornando erros de salto lógico muito menos prováveis.
Dois achados importantes reforçam a técnica:
- Escala importa: CoT só emerge de forma confiável em modelos com mais de ~100 bilhões de parâmetros (Wei et al., 2022).
- Zero-Shot CoT funciona: Kojima et al. (2022) descobriram que basta adicionar a frase "Let's think step by step" ao prompt para elicitar raciocínio encadeado — sem nenhum exemplo.
Variantes principais
1. Few-Shot CoT
Exemplos com raciocínio explícito são fornecidos no prompt:
Pergunta: João tem 12 maçãs. Ele deu 1/3 para Maria e comeu 2. Quantas restam?
Raciocínio: João deu 12 ÷ 3 = 4 maçãs para Maria. Restaram 12 - 4 = 8.
Depois ele comeu 2, então 8 - 2 = 6.
Resposta: 6 maçãs.
Pergunta: Um suspeito percorreu 45 km em 3 etapas iguais. Quantos km por etapa?
Raciocínio:
45 ÷ 3 = 15 km. Cada etapa teve 15 km.
Resposta: 15 km por etapa.
2. Zero-Shot CoT
Sem exemplos — apenas uma instrução que ativa o raciocínio:
Pergunta: Um suspeito percorreu 45 km em 3 etapas iguais. Quantos km por etapa?
Vamos pensar passo a passo.
O total percorrido é 45 km dividido em 3 etapas iguais.
45 ÷ 3 = 15 km por etapa.
Resposta: 15 km.
3. Self-Consistency CoT
O modelo gera múltiplas cadeias de raciocínio independentes e a resposta final é determinada por votação majoritária entre elas — reduzindo o impacto de erros em caminhos individuais (Wang et al., 2022).
Exemplos práticos em contexto investigativo
Análise de timeline criminal:
Fatos: O crime ocorreu às 22h. A testemunha A viu o suspeito a 30 km do local às 21h30.
O deslocamento mínimo entre os pontos leva 40 minutos.
Vamos raciocinar passo a passo antes de concluir.
Se o suspeito estava a 30 km às 21h30 e precisa de 40 minutos para chegar,
chegaria no mínimo às 22h10 — após o crime.
Portanto, os fatos contradizem a presença do suspeito no local às 22h.
Vantagens
| Vantagem | Descrição |
|---|---|
| Precisão em tarefas complexas | Reduz drasticamente erros em raciocínio lógico e matemático |
| Auditabilidade | O raciocínio exposto permite identificar onde o modelo errou |
| Sem retreinamento | Funciona apenas com engenharia de prompt |
| Zero-Shot viável | Uma única frase já elicita a cadeia de raciocínio |
Limitações
- Custo em tokens: Raciocínio explícito gera respostas muito mais longas — e mais caras.
- Alucinação encadeada: Um erro early no raciocínio pode se propagar e contaminar a conclusão.
- Dependente de escala: Em modelos menores, CoT pode piorar o desempenho.
- Não substitui verificação humana: Em contextos jurídicos e forenses, o raciocínio do modelo deve sempre ser auditado.
Comparativo de técnicas
| Zero-Shot | Few-Shot | Chain-of-Thought | |
|---|---|---|---|
| Exemplos | Nenhum | 1 a N | Com raciocínio explícito |
| Custo em tokens | Baixo | Médio | Alto |
| Tarefas simples | ✅ | ✅ | ✅ (overkill) |
| Raciocínio multi-etapa | ❌ | ⚠️ | ✅ |
| Auditabilidade | Baixa | Baixa | Alta |
Quando usar?
- A tarefa envolve múltiplas etapas lógicas encadeadas;
- Erros de raciocínio têm alto custo — análise jurídica, investigação, diagnóstico;
- Você precisa auditar o processo, não apenas o resultado;
- O zero-shot e o few-shot já foram tentados e produziram respostas incorretas ou superficiais.
Referências
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arxiv.org/abs/2201.11903
- Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022. arxiv.org/abs/2205.11916
- Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arxiv.org/abs/2203.11171