Automatic Reasoning and Tool-use (ART)
Resumo em uma frase: ART é o modelo que sabe quando parar de pensar sozinho e buscar ajuda — e aprende a fazer isso automaticamente, sem que ninguém precise ensinar cada caso.
O que é?
ART é um framework proposto por Paranjape et al. (2023) que resolve um problema prático e recorrente: integrar raciocínio encadeado com o uso de ferramentas externas de forma automática — sem precisar escrever demonstrações específicas para cada tarefa nem roteirizar manualmente quando o modelo deve chamar cada ferramenta.
O ART usa LLMs congelados (frozen) para gerar automaticamente etapas intermediárias de raciocínio na forma de um programa. Dado uma nova tarefa, o ART seleciona demonstrações de raciocínio multi-etapa e uso de ferramentas a partir de uma biblioteca de tarefas — e, em tempo de inferência, pausa a geração sempre que ferramentas externas são chamadas, integrando seus resultados antes de retomar.
A palavra-chave é automático: onde o CoT+ferramentas tradicional exige engenharia manual intensiva, o ART generaliza a partir de exemplos existentes para tarefas novas.
O problema que o ART resolve
Antes do ART, combinar raciocínio com ferramentas externas (calculadoras, buscadores, executores de código) exigia dois trabalhos manuais custosos:
Trabalhos anteriores sobre CoT prompting e uso de ferramentas tipicamente requerem demonstrações artesanais específicas para cada tarefa e intercalação cuidadosamente roteirizada entre as gerações do modelo e o uso de ferramentas.
O ART elimina esse gargalo ao aprender quando e como usar cada ferramenta a partir de uma biblioteca de exemplos — e generalizar esse comportamento para tarefas nunca vistas.
Os três componentes centrais
1. Biblioteca de Tarefas (Task Library)
Um repositório de demonstrações de tarefas já resolvidas com raciocínio multi-etapa e uso de ferramentas. Funciona como o "acervo de casos" do sistema — cada entrada mostra como decompor um tipo de problema e quais ferramentas acionar.
2. Biblioteca de Ferramentas (Tool Library)
O catálogo de ferramentas disponíveis: busca na web, execução de código, calculadoras, APIs, consultas a bancos de dados. Cada ferramenta tem uma assinatura clara que o modelo aprende a invocar.
3. Controlador de Pausa e Retomada
O mecanismo que interrompe a geração do modelo no momento exato em que uma ferramenta deve ser chamada, executa a ferramenta, injeta o resultado no contexto e retoma a geração — de forma fluida e transparente.
Como funciona: passo a passo
Nova tarefa recebida
↓
[Task Library] seleciona demonstrações
similares à nova tarefa (few-shot automático)
↓
Modelo inicia geração do raciocínio como programa
↓
┌── Etapa de raciocínio puro → continua geração
│
└── Chamada de ferramenta detectada → PAUSA
↓
Ferramenta executada externamente
↓
Resultado injetado no contexto
↓
Geração RETOMADA
↓
Resposta final gerada com raciocínio + resultados reais
Exemplo prático
Tarefa: Qual é a raiz quadrada de 1764, dividida pela idade atual de Elon Musk?
Sem ART (CoT puro):
Raciocínio: √1764 ≈ 42. Elon Musk nasceu em 1971,
então tem aproximadamente 52 anos. 42 / 52 ≈ 0.807.
Problema: o modelo estima a idade com base no treinamento — pode estar desatualizado ou errado.
Com ART:
Etapa 1: CALCULAR[√1764]
→ [Ferramenta: calculadora] → resultado: 42
Etapa 2: BUSCAR["idade atual Elon Musk"]
→ [Ferramenta: busca web] → resultado: 53 anos (2024)
Etapa 3: CALCULAR[42 / 53]
→ [Ferramenta: calculadora] → resultado: 0.792
Resposta final: 0.792
Cada etapa usa a ferramenta certa no momento certo — sem nenhuma instrução manual sobre quando chamar o quê.
Extensibilidade: o diferencial humano
Um dos pontos mais práticos do ART é que ele aceita intervenção humana de forma localizada:
O ART é extensível — torna fácil para humanos melhorar o desempenho corrigindo erros nas etapas de raciocínio ou incorporando novas ferramentas, simplesmente atualizando as bibliotecas de tarefas e ferramentas.
Isso significa que erros sistemáticos podem ser corrigidos sem retreinar o modelo — basta ajustar um exemplo na biblioteca ou adicionar uma nova ferramenta ao catálogo.
Resultados experimentais
O ART supera substancialmente o few-shot prompting e o CoT automático em tarefas não vistas nos benchmarks BigBench e MMLU — e excede o desempenho de prompts CoT artesanais quando feedback humano é incorporado.
Vantagens
| Vantagem | Descrição |
|---|---|
| Automatização | Elimina a necessidade de escrever demonstrações por tarefa |
| Generalização zero-shot | Aplica o padrão aprendido a tarefas nunca vistas |
| Ferramentas reais | Cálculos, buscas e código executados com precisão real |
| Extensibilidade | Novas ferramentas e correções sem retreinamento |
| Rastreabilidade | Cada etapa do raciocínio e cada chamada de ferramenta são explícitas |
Limitações
- Qualidade da biblioteca: O desempenho depende diretamente da diversidade e qualidade das demonstrações armazenadas — uma biblioteca pobre gera generalizações fracas.
- Latência acumulada: Cada chamada de ferramenta adiciona tempo de resposta — em cadeias longas, o custo total pode ser significativo.
- Gestão de estado: O modelo precisa manter coerência entre as pausas — falhas na injeção do resultado de uma ferramenta podem contaminar etapas seguintes.
- Ferramentas mal definidas: Se a assinatura de uma ferramenta for ambígua, o modelo pode invocá-la com parâmetros errados.
ART vs. técnicas relacionadas
| CoT | RAG | ReAct | ART | |
|---|---|---|---|---|
| Raciocínio encadeado | ✅ | Parcial | ✅ | ✅ |
| Uso de ferramentas | ❌ | ✅ (busca) | ✅ | ✅ (múltiplas) |
| Automação da seleção | ❌ | ❌ | ❌ | ✅ |
| Demonstrações manuais | Por tarefa | Não | Por tarefa | Reutilizadas via biblioteca |
| Extensível por humanos | ❌ | Parcial | ❌ | ✅ |
Quando usar?
- A tarefa exige múltiplas ferramentas externas — cálculo, busca, execução de código — em sequência;
- Você precisa generalizar para tarefas novas sem escrever demonstrações do zero a cada vez;
- A precisão factual é crítica e respostas baseadas em memória paramétrica são insuficientes;
- Você quer um sistema evolutivo — onde erros podem ser corrigidos e novas capacidades adicionadas sem retreinar;
- Está construindo agentes investigativos ou analíticos que precisam combinar raciocínio com consultas a sistemas externos.
Referências
- Paranjape, B. et al. (2023). ART: Automatic multi-step reasoning and tool-use for large language models. arXiv:2303.09014. arxiv.org/abs/2303.09014
- Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in LLMs. NeurIPS 2022.