Tree of Thoughts (ToT) — EngenhariaDePrompt.ia.br

Resumo em uma frase: Tree of Thoughts é o modelo jogando xadrez em vez de dama — explorando galhos, avaliando posições e retrocedendo quando necessário, em vez de avançar cegamente pelo primeiro caminho que aparecer.

O que é?

Tree of Thoughts é um framework de inferência proposto por Yao et al. (Princeton / Google DeepMind, 2023) que representa uma evolução estrutural sobre o Chain-of-Thought. Em vez de seguir um único caminho de raciocínio linear, o ToT permite que o modelo explore múltiplos caminhos de raciocínio diferentes, auto-avalie suas escolhas para decidir o próximo curso de ação, e faça lookahead ou backtracking quando necessário para tomar decisões globalmente melhores.

A metáfora é precisa: enquanto o CoT traça uma linha reta do problema à solução, o ToT desenha uma árvore — ramificando, podando e retrocedendo como um enxadrista que pensa vários lances à frente antes de mover qualquer peça.

Por que funciona?

Os modelos de linguagem são confinados a processos de decisão token a token, da esquerda para a direita, durante a inferência — o que os faz falhar em tarefas que requerem exploração, antecipação estratégica (lookahead), ou onde as decisões iniciais têm papel pivô no resultado final.

Os autores conectam isso à teoria da cognição dual de Kahneman: as escolhas associativas simples em nível de token dos LMs são reminiscentes do "Sistema 1" — e poderiam se beneficiar de um processo de planejamento deliberado "Sistema 2" que (1) mantém e explora alternativas diversas em vez de escolher apenas uma, e (2) avalia o estado atual e antecipa ou retrocede para tomar decisões mais globais.

Os quatro componentes do ToT

1. Pensamentos (Thoughts)

Cada "pensamento" é uma sequência coerente de linguagem que serve como passo intermediário em direção à solução — uma unidade semântica de alto nível que permite ao modelo auto-avaliar o progresso por meio de um processo de raciocínio deliberado.

2. Geração de pensamentos

O modelo gera múltiplos pensamentos candidatos a partir do estado atual — ramificando a árvore.

3. Avaliação de estados

O próprio modelo avalia quais ramos são promissores e quais devem ser descartados — funcionando como seu próprio crítico.

4. Algoritmos de busca

O ToT combina a capacidade de gerar e avaliar pensamentos com algoritmos de busca como BFS (breadth-first search) ou DFS (depth-first search), que permitem exploração sistemática da árvore com antecipação e retrocesso.

Estrutura comparada visualmente

Input/Output Prompting:
Problema ──────────────────────────► Resposta

Chain-of-Thought:
Problema ──► Passo 1 ──► Passo 2 ──► Passo 3 ──► Resposta

Tree of Thoughts:
                    ┌──► Ramo A1 ──► A2 ✗ (descartado)
Problema ──► Nó 1 ──┤
                    └──► Ramo B1 ──► B2 ──► B3 ──► Resposta ✓
                              ↑
                         (backtrack)

Exemplo prático: Game of 24

O Game of 24 consiste em usar quatro números com operações aritméticas para obter exatamente 24. É um problema clássico de busca combinatória.

Com CoT (GPT-4): Taxa de sucesso de apenas 4% — o modelo tenta um caminho e falha sem capacidade de explorar alternativas.

Com ToT (GPT-4):

Números: 4, 9, 10, 13

Ramo A: 13 - 9 = 4 → 4 * 4 = 16 → 16 + 10 = 26 ✗
Ramo B: 10 + 4 = 14 → 14 - 9 = 5 → 5 * 13 = 65 ✗
Ramo C: (13 - 9) * (10 - 4) = 4 * 6 = 24 ✓

No Game of 24, enquanto o GPT-4 com Chain-of-Thought resolveu apenas 4% das tarefas, o método ToT alcançou taxa de sucesso de 74%.

Resultados experimentais

O ToT melhora significativamente as capacidades de resolução de problemas dos modelos em três tarefas que exigem planejamento ou busca não trivial: Game of 24, Escrita Criativa e Mini-Palavras Cruzadas.

Vantagens

Vantagem	Descrição
Exploração sistemática	Considera múltiplos caminhos antes de comprometer com um
Backtracking	Reconhece becos sem saída e retrocede — o CoT não faz isso
Auto-avaliação	O modelo critica seus próprios ramos sem supervisão externa
Generalidade	Suporta diferentes granularidades de pensamento e algoritmos de busca

Limitações

Custo computacional elevado: Explorar N ramos com avaliação em cada nó multiplica drasticamente o número de chamadas ao modelo.
Complexidade de implementação: Requer orquestração externa para gerenciar a árvore, os estados e os algoritmos de busca.
Overkill para tarefas simples: Para problemas lineares, o ToT não traz ganho — e ainda custa mais.
Avaliação pode ser falha: Se o modelo avalia mal quais ramos são promissores, a busca pode explorar direções erradas por muito tempo.

Comparativo de técnicas de raciocínio

	CoT	Self-Consistency	ToT
Caminhos de raciocínio	1 linear	N paralelos	N ramificados
Backtracking	❌	❌	✅
Auto-avaliação de estados	❌	❌	✅
Custo	Baixo	Médio	Alto
Melhor para	Raciocínio sequencial	Confiabilidade	Planejamento e busca

Quando usar?

A tarefa exige planejamento multi-etapa onde decisões iniciais afetam todas as seguintes;
O problema admite múltiplas estratégias de ataque — não há um caminho óbvio;
Erros são reversíveis e o custo de explorar caminhos errados é menor que o custo de falhar;
Você está resolvendo problemas de busca combinatória, como otimização, puzzle, ou análise de cenários;
O custo computacional adicional é justificável pela criticidade da tarefa — diagnósticos, decisões estratégicas, investigação.

Referências

Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS 2023. arxiv.org/abs/2305.10601
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in LLMs. NeurIPS 2022.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.