Guia de Engenharia de Prompt

Amplie seu conhecimento sobre engenharia de prompt para usar no seu dia a dia.

Automatic Reasoning and Tool-use (ART)

Resumo em uma frase: ART é o modelo que sabe quando parar de pensar sozinho e buscar ajuda — e aprende a fazer isso automaticamente, sem que ninguém precise ensinar cada caso.

O que é?

ART é um framework proposto por Paranjape et al. (2023) que resolve um problema prático e recorrente: integrar raciocínio encadeado com o uso de ferramentas externas de forma automática — sem precisar escrever demonstrações específicas para cada tarefa nem roteirizar manualmente quando o modelo deve chamar cada ferramenta.

O ART usa LLMs congelados (frozen) para gerar automaticamente etapas intermediárias de raciocínio na forma de um programa. Dado uma nova tarefa, o ART seleciona demonstrações de raciocínio multi-etapa e uso de ferramentas a partir de uma biblioteca de tarefas — e, em tempo de inferência, pausa a geração sempre que ferramentas externas são chamadas, integrando seus resultados antes de retomar.

A palavra-chave é automático: onde o CoT+ferramentas tradicional exige engenharia manual intensiva, o ART generaliza a partir de exemplos existentes para tarefas novas.


O problema que o ART resolve

Antes do ART, combinar raciocínio com ferramentas externas (calculadoras, buscadores, executores de código) exigia dois trabalhos manuais custosos:

Trabalhos anteriores sobre CoT prompting e uso de ferramentas tipicamente requerem demonstrações artesanais específicas para cada tarefa e intercalação cuidadosamente roteirizada entre as gerações do modelo e o uso de ferramentas.

O ART elimina esse gargalo ao aprender quando e como usar cada ferramenta a partir de uma biblioteca de exemplos — e generalizar esse comportamento para tarefas nunca vistas.


Os três componentes centrais

1. Biblioteca de Tarefas (Task Library)

Um repositório de demonstrações de tarefas já resolvidas com raciocínio multi-etapa e uso de ferramentas. Funciona como o "acervo de casos" do sistema — cada entrada mostra como decompor um tipo de problema e quais ferramentas acionar.

2. Biblioteca de Ferramentas (Tool Library)

O catálogo de ferramentas disponíveis: busca na web, execução de código, calculadoras, APIs, consultas a bancos de dados. Cada ferramenta tem uma assinatura clara que o modelo aprende a invocar.

3. Controlador de Pausa e Retomada

O mecanismo que interrompe a geração do modelo no momento exato em que uma ferramenta deve ser chamada, executa a ferramenta, injeta o resultado no contexto e retoma a geração — de forma fluida e transparente.


Como funciona: passo a passo

Nova tarefa recebida
        ↓
[Task Library] seleciona demonstrações
similares à nova tarefa (few-shot automático)
        ↓
Modelo inicia geração do raciocínio como programa
        ↓
    ┌── Etapa de raciocínio puro → continua geração
    │
    └── Chamada de ferramenta detectada → PAUSA
              ↓
        Ferramenta executada externamente
              ↓
        Resultado injetado no contexto
              ↓
        Geração RETOMADA
        ↓
Resposta final gerada com raciocínio + resultados reais

Exemplo prático

Tarefa: Qual é a raiz quadrada de 1764, dividida pela idade atual de Elon Musk?

Sem ART (CoT puro):

Raciocínio: √1764 ≈ 42. Elon Musk nasceu em 1971,
então tem aproximadamente 52 anos. 42 / 52 ≈ 0.807.

Problema: o modelo estima a idade com base no treinamento — pode estar desatualizado ou errado.

Com ART:

Etapa 1: CALCULAR[√1764]
→ [Ferramenta: calculadora] → resultado: 42

Etapa 2: BUSCAR["idade atual Elon Musk"]
→ [Ferramenta: busca web] → resultado: 53 anos (2024)

Etapa 3: CALCULAR[42 / 53]
→ [Ferramenta: calculadora] → resultado: 0.792

Resposta final: 0.792

Cada etapa usa a ferramenta certa no momento certo — sem nenhuma instrução manual sobre quando chamar o quê.


Extensibilidade: o diferencial humano

Um dos pontos mais práticos do ART é que ele aceita intervenção humana de forma localizada:

O ART é extensível — torna fácil para humanos melhorar o desempenho corrigindo erros nas etapas de raciocínio ou incorporando novas ferramentas, simplesmente atualizando as bibliotecas de tarefas e ferramentas.

Isso significa que erros sistemáticos podem ser corrigidos sem retreinar o modelo — basta ajustar um exemplo na biblioteca ou adicionar uma nova ferramenta ao catálogo.


Resultados experimentais

O ART supera substancialmente o few-shot prompting e o CoT automático em tarefas não vistas nos benchmarks BigBench e MMLU — e excede o desempenho de prompts CoT artesanais quando feedback humano é incorporado.


Vantagens

Vantagem Descrição
Automatização Elimina a necessidade de escrever demonstrações por tarefa
Generalização zero-shot Aplica o padrão aprendido a tarefas nunca vistas
Ferramentas reais Cálculos, buscas e código executados com precisão real
Extensibilidade Novas ferramentas e correções sem retreinamento
Rastreabilidade Cada etapa do raciocínio e cada chamada de ferramenta são explícitas

Limitações

  • Qualidade da biblioteca: O desempenho depende diretamente da diversidade e qualidade das demonstrações armazenadas — uma biblioteca pobre gera generalizações fracas.
  • Latência acumulada: Cada chamada de ferramenta adiciona tempo de resposta — em cadeias longas, o custo total pode ser significativo.
  • Gestão de estado: O modelo precisa manter coerência entre as pausas — falhas na injeção do resultado de uma ferramenta podem contaminar etapas seguintes.
  • Ferramentas mal definidas: Se a assinatura de uma ferramenta for ambígua, o modelo pode invocá-la com parâmetros errados.

ART vs. técnicas relacionadas

CoT RAG ReAct ART
Raciocínio encadeado Parcial
Uso de ferramentas ✅ (busca) ✅ (múltiplas)
Automação da seleção
Demonstrações manuais Por tarefa Não Por tarefa Reutilizadas via biblioteca
Extensível por humanos Parcial

Quando usar?

  1. A tarefa exige múltiplas ferramentas externas — cálculo, busca, execução de código — em sequência;
  2. Você precisa generalizar para tarefas novas sem escrever demonstrações do zero a cada vez;
  3. A precisão factual é crítica e respostas baseadas em memória paramétrica são insuficientes;
  4. Você quer um sistema evolutivo — onde erros podem ser corrigidos e novas capacidades adicionadas sem retreinar;
  5. Está construindo agentes investigativos ou analíticos que precisam combinar raciocínio com consultas a sistemas externos.

Referências

  • Paranjape, B. et al. (2023). ART: Automatic multi-step reasoning and tool-use for large language models. arXiv:2303.09014. arxiv.org/abs/2303.09014
  • Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in LLMs. NeurIPS 2022.