Chain-of-Thought — EngenhariaDePrompt.ia.br

Resumo em uma frase: Chain-of-Thought Prompting é fazer o modelo mostrar o rascunho — porque a resposta certa raramente nasce do silêncio entre a pergunta e a conclusão.

O que é?

Chain-of-Thought (CoT) Prompting é uma técnica em que o modelo é induzido a externalizar seu raciocínio passo a passo antes de chegar à resposta final. Em vez de produzir apenas o resultado, o modelo "pensa em voz alta" — gerando uma cadeia de raciocínio intermediária que conecta o problema à solução.

A ideia é simples: se um humano resolve um problema difícil mostrando o rascunho, por que o modelo não faria o mesmo?

Por que funciona?

Wei et al. (2022) demonstraram que simplesmente incluir etapas de raciocínio nos exemplos — ou instruir o modelo a raciocinar antes de responder — melhora dramaticamente o desempenho em tarefas que exigem lógica, matemática e inferência multi-etapa.

A hipótese central é que o raciocínio intermediário atua como uma memória de trabalho explícita: ao escrever cada etapa, o modelo reduz a carga de inferência sobre tokens distantes, tornando erros de salto lógico muito menos prováveis.

Dois achados importantes reforçam a técnica:

Escala importa: CoT só emerge de forma confiável em modelos com mais de ~100 bilhões de parâmetros (Wei et al., 2022).
Zero-Shot CoT funciona: Kojima et al. (2022) descobriram que basta adicionar a frase "Let's think step by step" ao prompt para elicitar raciocínio encadeado — sem nenhum exemplo.

Variantes principais

1. Few-Shot CoT

Exemplos com raciocínio explícito são fornecidos no prompt:

Pergunta: João tem 12 maçãs. Ele deu 1/3 para Maria e comeu 2. Quantas restam?

Raciocínio: João deu 12 ÷ 3 = 4 maçãs para Maria. Restaram 12 - 4 = 8.
Depois ele comeu 2, então 8 - 2 = 6.
Resposta: 6 maçãs.

Pergunta: Um suspeito percorreu 45 km em 3 etapas iguais. Quantos km por etapa?
Raciocínio:

45 ÷ 3 = 15 km. Cada etapa teve 15 km.
Resposta: 15 km por etapa.

2. Zero-Shot CoT

Sem exemplos — apenas uma instrução que ativa o raciocínio:

Pergunta: Um suspeito percorreu 45 km em 3 etapas iguais. Quantos km por etapa?

Vamos pensar passo a passo.

O total percorrido é 45 km dividido em 3 etapas iguais.
45 ÷ 3 = 15 km por etapa.
Resposta: 15 km.

3. Self-Consistency CoT

O modelo gera múltiplas cadeias de raciocínio independentes e a resposta final é determinada por votação majoritária entre elas — reduzindo o impacto de erros em caminhos individuais (Wang et al., 2022).

Exemplos práticos em contexto investigativo

Análise de timeline criminal:

Fatos: O crime ocorreu às 22h. A testemunha A viu o suspeito a 30 km do local às 21h30.
O deslocamento mínimo entre os pontos leva 40 minutos.

Vamos raciocinar passo a passo antes de concluir.

Se o suspeito estava a 30 km às 21h30 e precisa de 40 minutos para chegar,
chegaria no mínimo às 22h10 — após o crime.
Portanto, os fatos contradizem a presença do suspeito no local às 22h.

Vantagens

Vantagem	Descrição
Precisão em tarefas complexas	Reduz drasticamente erros em raciocínio lógico e matemático
Auditabilidade	O raciocínio exposto permite identificar onde o modelo errou
Sem retreinamento	Funciona apenas com engenharia de prompt
Zero-Shot viável	Uma única frase já elicita a cadeia de raciocínio

Limitações

Custo em tokens: Raciocínio explícito gera respostas muito mais longas — e mais caras.
Alucinação encadeada: Um erro early no raciocínio pode se propagar e contaminar a conclusão.
Dependente de escala: Em modelos menores, CoT pode piorar o desempenho.
Não substitui verificação humana: Em contextos jurídicos e forenses, o raciocínio do modelo deve sempre ser auditado.

Comparativo de técnicas

	Zero-Shot	Few-Shot	Chain-of-Thought
Exemplos	Nenhum	1 a N	Com raciocínio explícito
Custo em tokens	Baixo	Médio	Alto
Tarefas simples	✅	✅	✅ (overkill)
Raciocínio multi-etapa	❌	⚠️	✅
Auditabilidade	Baixa	Baixa	Alta

Quando usar?

A tarefa envolve múltiplas etapas lógicas encadeadas;
Erros de raciocínio têm alto custo — análise jurídica, investigação, diagnóstico;
Você precisa auditar o processo, não apenas o resultado;
O zero-shot e o few-shot já foram tentados e produziram respostas incorretas ou superficiais.

Referências

Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022. arxiv.org/abs/2201.11903
Kojima, T. et al. (2022). Large Language Models are Zero-Shot Reasoners. NeurIPS 2022. arxiv.org/abs/2205.11916
Wang, X. et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arxiv.org/abs/2203.11171