Automatic Reasoning and Tool-use (ART) — EngenhariaDePrompt.ia.br

Resumo em uma frase: ART é o modelo que sabe quando parar de pensar sozinho e buscar ajuda — e aprende a fazer isso automaticamente, sem que ninguém precise ensinar cada caso.

O que é?

ART é um framework proposto por Paranjape et al. (2023) que resolve um problema prático e recorrente: integrar raciocínio encadeado com o uso de ferramentas externas de forma automática — sem precisar escrever demonstrações específicas para cada tarefa nem roteirizar manualmente quando o modelo deve chamar cada ferramenta.

O ART usa LLMs congelados (frozen) para gerar automaticamente etapas intermediárias de raciocínio na forma de um programa. Dado uma nova tarefa, o ART seleciona demonstrações de raciocínio multi-etapa e uso de ferramentas a partir de uma biblioteca de tarefas — e, em tempo de inferência, pausa a geração sempre que ferramentas externas são chamadas, integrando seus resultados antes de retomar.

A palavra-chave é automático: onde o CoT+ferramentas tradicional exige engenharia manual intensiva, o ART generaliza a partir de exemplos existentes para tarefas novas.

O problema que o ART resolve

Antes do ART, combinar raciocínio com ferramentas externas (calculadoras, buscadores, executores de código) exigia dois trabalhos manuais custosos:

Trabalhos anteriores sobre CoT prompting e uso de ferramentas tipicamente requerem demonstrações artesanais específicas para cada tarefa e intercalação cuidadosamente roteirizada entre as gerações do modelo e o uso de ferramentas.

O ART elimina esse gargalo ao aprender quando e como usar cada ferramenta a partir de uma biblioteca de exemplos — e generalizar esse comportamento para tarefas nunca vistas.

Os três componentes centrais

1. Biblioteca de Tarefas (Task Library)

Um repositório de demonstrações de tarefas já resolvidas com raciocínio multi-etapa e uso de ferramentas. Funciona como o "acervo de casos" do sistema — cada entrada mostra como decompor um tipo de problema e quais ferramentas acionar.

2. Biblioteca de Ferramentas (Tool Library)

O catálogo de ferramentas disponíveis: busca na web, execução de código, calculadoras, APIs, consultas a bancos de dados. Cada ferramenta tem uma assinatura clara que o modelo aprende a invocar.

3. Controlador de Pausa e Retomada

O mecanismo que interrompe a geração do modelo no momento exato em que uma ferramenta deve ser chamada, executa a ferramenta, injeta o resultado no contexto e retoma a geração — de forma fluida e transparente.

Como funciona: passo a passo

Nova tarefa recebida
        ↓
[Task Library] seleciona demonstrações
similares à nova tarefa (few-shot automático)
        ↓
Modelo inicia geração do raciocínio como programa
        ↓
    ┌── Etapa de raciocínio puro → continua geração
    │
    └── Chamada de ferramenta detectada → PAUSA
              ↓
        Ferramenta executada externamente
              ↓
        Resultado injetado no contexto
              ↓
        Geração RETOMADA
        ↓
Resposta final gerada com raciocínio + resultados reais

Exemplo prático

Tarefa: Qual é a raiz quadrada de 1764, dividida pela idade atual de Elon Musk?

Sem ART (CoT puro):

Raciocínio: √1764 ≈ 42. Elon Musk nasceu em 1971,
então tem aproximadamente 52 anos. 42 / 52 ≈ 0.807.

Problema: o modelo estima a idade com base no treinamento — pode estar desatualizado ou errado.

Com ART:

Etapa 1: CALCULAR[√1764]
→ [Ferramenta: calculadora] → resultado: 42

Etapa 2: BUSCAR["idade atual Elon Musk"]
→ [Ferramenta: busca web] → resultado: 53 anos (2024)

Etapa 3: CALCULAR[42 / 53]
→ [Ferramenta: calculadora] → resultado: 0.792

Resposta final: 0.792

Cada etapa usa a ferramenta certa no momento certo — sem nenhuma instrução manual sobre quando chamar o quê.

Extensibilidade: o diferencial humano

Um dos pontos mais práticos do ART é que ele aceita intervenção humana de forma localizada:

O ART é extensível — torna fácil para humanos melhorar o desempenho corrigindo erros nas etapas de raciocínio ou incorporando novas ferramentas, simplesmente atualizando as bibliotecas de tarefas e ferramentas.

Isso significa que erros sistemáticos podem ser corrigidos sem retreinar o modelo — basta ajustar um exemplo na biblioteca ou adicionar uma nova ferramenta ao catálogo.

Resultados experimentais

O ART supera substancialmente o few-shot prompting e o CoT automático em tarefas não vistas nos benchmarks BigBench e MMLU — e excede o desempenho de prompts CoT artesanais quando feedback humano é incorporado.

Vantagens

Vantagem	Descrição
Automatização	Elimina a necessidade de escrever demonstrações por tarefa
Generalização zero-shot	Aplica o padrão aprendido a tarefas nunca vistas
Ferramentas reais	Cálculos, buscas e código executados com precisão real
Extensibilidade	Novas ferramentas e correções sem retreinamento
Rastreabilidade	Cada etapa do raciocínio e cada chamada de ferramenta são explícitas

Limitações

Qualidade da biblioteca: O desempenho depende diretamente da diversidade e qualidade das demonstrações armazenadas — uma biblioteca pobre gera generalizações fracas.
Latência acumulada: Cada chamada de ferramenta adiciona tempo de resposta — em cadeias longas, o custo total pode ser significativo.
Gestão de estado: O modelo precisa manter coerência entre as pausas — falhas na injeção do resultado de uma ferramenta podem contaminar etapas seguintes.
Ferramentas mal definidas: Se a assinatura de uma ferramenta for ambígua, o modelo pode invocá-la com parâmetros errados.

ART vs. técnicas relacionadas

	CoT	RAG	ReAct	ART
Raciocínio encadeado	✅	Parcial	✅	✅
Uso de ferramentas	❌	✅ (busca)	✅	✅ (múltiplas)
Automação da seleção	❌	❌	❌	✅
Demonstrações manuais	Por tarefa	Não	Por tarefa	Reutilizadas via biblioteca
Extensível por humanos	❌	Parcial	❌	✅

Quando usar?

A tarefa exige múltiplas ferramentas externas — cálculo, busca, execução de código — em sequência;
Você precisa generalizar para tarefas novas sem escrever demonstrações do zero a cada vez;
A precisão factual é crítica e respostas baseadas em memória paramétrica são insuficientes;
Você quer um sistema evolutivo — onde erros podem ser corrigidos e novas capacidades adicionadas sem retreinar;
Está construindo agentes investigativos ou analíticos que precisam combinar raciocínio com consultas a sistemas externos.

Referências

Paranjape, B. et al. (2023). ART: Automatic multi-step reasoning and tool-use for large language models. arXiv:2303.09014. arxiv.org/abs/2303.09014
Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in LLMs. NeurIPS 2022.