Tree of Thoughts (ToT)
Resumo em uma frase: Tree of Thoughts é o modelo jogando xadrez em vez de dama — explorando galhos, avaliando posições e retrocedendo quando necessário, em vez de avançar cegamente pelo primeiro caminho que aparecer.
O que é?
Tree of Thoughts é um framework de inferência proposto por Yao et al. (Princeton / Google DeepMind, 2023) que representa uma evolução estrutural sobre o Chain-of-Thought. Em vez de seguir um único caminho de raciocínio linear, o ToT permite que o modelo explore múltiplos caminhos de raciocínio diferentes, auto-avalie suas escolhas para decidir o próximo curso de ação, e faça lookahead ou backtracking quando necessário para tomar decisões globalmente melhores.
A metáfora é precisa: enquanto o CoT traça uma linha reta do problema à solução, o ToT desenha uma árvore — ramificando, podando e retrocedendo como um enxadrista que pensa vários lances à frente antes de mover qualquer peça.
Por que funciona?
Os modelos de linguagem são confinados a processos de decisão token a token, da esquerda para a direita, durante a inferência — o que os faz falhar em tarefas que requerem exploração, antecipação estratégica (lookahead), ou onde as decisões iniciais têm papel pivô no resultado final.
Os autores conectam isso à teoria da cognição dual de Kahneman: as escolhas associativas simples em nível de token dos LMs são reminiscentes do "Sistema 1" — e poderiam se beneficiar de um processo de planejamento deliberado "Sistema 2" que (1) mantém e explora alternativas diversas em vez de escolher apenas uma, e (2) avalia o estado atual e antecipa ou retrocede para tomar decisões mais globais.
Os quatro componentes do ToT
1. Pensamentos (Thoughts)
Cada "pensamento" é uma sequência coerente de linguagem que serve como passo intermediário em direção à solução — uma unidade semântica de alto nível que permite ao modelo auto-avaliar o progresso por meio de um processo de raciocínio deliberado.
2. Geração de pensamentos
O modelo gera múltiplos pensamentos candidatos a partir do estado atual — ramificando a árvore.
3. Avaliação de estados
O próprio modelo avalia quais ramos são promissores e quais devem ser descartados — funcionando como seu próprio crítico.
4. Algoritmos de busca
O ToT combina a capacidade de gerar e avaliar pensamentos com algoritmos de busca como BFS (breadth-first search) ou DFS (depth-first search), que permitem exploração sistemática da árvore com antecipação e retrocesso.
Estrutura comparada visualmente
Input/Output Prompting:
Problema ──────────────────────────► Resposta
Chain-of-Thought:
Problema ──► Passo 1 ──► Passo 2 ──► Passo 3 ──► Resposta
Tree of Thoughts:
┌──► Ramo A1 ──► A2 ✗ (descartado)
Problema ──► Nó 1 ──┤
└──► Ramo B1 ──► B2 ──► B3 ──► Resposta ✓
↑
(backtrack)
Exemplo prático: Game of 24
O Game of 24 consiste em usar quatro números com operações aritméticas para obter exatamente 24. É um problema clássico de busca combinatória.
Com CoT (GPT-4): Taxa de sucesso de apenas 4% — o modelo tenta um caminho e falha sem capacidade de explorar alternativas.
Com ToT (GPT-4):
Números: 4, 9, 10, 13
Ramo A: 13 - 9 = 4 → 4 * 4 = 16 → 16 + 10 = 26 ✗
Ramo B: 10 + 4 = 14 → 14 - 9 = 5 → 5 * 13 = 65 ✗
Ramo C: (13 - 9) * (10 - 4) = 4 * 6 = 24 ✓
No Game of 24, enquanto o GPT-4 com Chain-of-Thought resolveu apenas 4% das tarefas, o método ToT alcançou taxa de sucesso de 74%.
Resultados experimentais
O ToT melhora significativamente as capacidades de resolução de problemas dos modelos em três tarefas que exigem planejamento ou busca não trivial: Game of 24, Escrita Criativa e Mini-Palavras Cruzadas.
Vantagens
| Vantagem | Descrição |
|---|---|
| Exploração sistemática | Considera múltiplos caminhos antes de comprometer com um |
| Backtracking | Reconhece becos sem saída e retrocede — o CoT não faz isso |
| Auto-avaliação | O modelo critica seus próprios ramos sem supervisão externa |
| Generalidade | Suporta diferentes granularidades de pensamento e algoritmos de busca |
Limitações
- Custo computacional elevado: Explorar N ramos com avaliação em cada nó multiplica drasticamente o número de chamadas ao modelo.
- Complexidade de implementação: Requer orquestração externa para gerenciar a árvore, os estados e os algoritmos de busca.
- Overkill para tarefas simples: Para problemas lineares, o ToT não traz ganho — e ainda custa mais.
- Avaliação pode ser falha: Se o modelo avalia mal quais ramos são promissores, a busca pode explorar direções erradas por muito tempo.
Comparativo de técnicas de raciocínio
| CoT | Self-Consistency | ToT | |
|---|---|---|---|
| Caminhos de raciocínio | 1 linear | N paralelos | N ramificados |
| Backtracking | ❌ | ❌ | ✅ |
| Auto-avaliação de estados | ❌ | ❌ | ✅ |
| Custo | Baixo | Médio | Alto |
| Melhor para | Raciocínio sequencial | Confiabilidade | Planejamento e busca |
Quando usar?
- A tarefa exige planejamento multi-etapa onde decisões iniciais afetam todas as seguintes;
- O problema admite múltiplas estratégias de ataque — não há um caminho óbvio;
- Erros são reversíveis e o custo de explorar caminhos errados é menor que o custo de falhar;
- Você está resolvendo problemas de busca combinatória, como otimização, puzzle, ou análise de cenários;
- O custo computacional adicional é justificável pela criticidade da tarefa — diagnósticos, decisões estratégicas, investigação.
Referências
- Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS 2023. arxiv.org/abs/2305.10601
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in LLMs. NeurIPS 2022.
- Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.