Guia de Engenharia de Prompt

Amplie seu conhecimento sobre engenharia de prompt para usar no seu dia a dia.

Retrieval Augmented Generation (RAG)

Resumo em uma frase: RAG é o modelo fazendo a prova com direito a consulta — e a diferença entre ele e o modelo puro é a mesma que existe entre um delegado que responde de memória e um que abre o inquérito antes de falar.

O que é?

Retrieval Augmented Generation é uma arquitetura proposta pela Meta AI (2020) que resolve um dos problemas mais fundamentais dos LLMs: o conhecimento congelado no tempo. O RAG é um modelo end-to-end diferenciável que combina um componente de recuperação de informação com um gerador seq2seq — permitindo que o modelo consulte documentos externos antes de produzir sua resposta.

A distinção central é simples: modelos convencionais respondem apenas com o que memorizaram durante o treinamento. O RAG responde com o que memorizou mais o que acabou de pesquisar.


O problema que o RAG resolve

Modelos de linguagem armazenam conhecimento em seus parâmetros durante o treinamento — uma forma de memória paramétrica. Isso funciona bem para tarefas de senso comum, mas falha em três cenários críticos:

  • Conhecimento desatualizado: fatos mudam, o modelo não.
  • Domínios especializados: documentos internos, legislações, laudos, prontuários — o modelo nunca viu.
  • Rastreabilidade: é impossível saber de onde veio a informação gerada.

Alterar o que um modelo pré-treinado sabe implica retreinar o modelo inteiro com novos documentos. Com RAG, basta trocar os documentos usados para recuperação de conhecimento — o modelo paramétrico permanece estático.


Como funciona: passo a passo

Pergunta do usuário
        ↓
[Retriever] — busca documentos relevantes
no corpus (Wikipedia, base interna, etc.)
        ↓
Documentos recuperados são concatenados
como contexto junto à pergunta original
        ↓
[Generator] — modelo seq2seq lê
pergunta + contexto e gera a resposta
        ↓
Resposta final fundamentada em fontes

Em vez de passar o input diretamente ao gerador, o RAG usa o input para recuperar um conjunto de documentos relevantes — que são então concatenados como contexto com o input original e fornecidos ao modelo seq2seq que produz a saída.


As duas memórias do RAG

O RAG possui duas fontes de conhecimento: o conhecimento que modelos seq2seq armazenam em seus parâmetros (memória paramétrica) e o conhecimento armazenado no corpus do qual o RAG recupera passagens (memória não-paramétrica). Essas duas fontes se complementam.

Memória Onde vive Atualização
Paramétrica Pesos do modelo Requer retreinamento
Não-paramétrica Corpus / vector DB Troca de documentos

Exemplo prático

Pergunta: Quais são as penas previstas para o crime de receptação qualificada no Código Penal brasileiro?

Sem RAG:
O modelo responde com o que memorizou no treinamento — possivelmente desatualizado ou impreciso em detalhes técnicos.

Com RAG:

1. Retriever busca: "receptação qualificada Código Penal"
   → Recupera: Art. 180, §1º do CP + doutrina recente

2. Generator recebe:
   [Contexto: Art. 180 §1º — "Adquirir, receber, transportar...
   pena de reclusão, 3 a 8 anos..."] + [Pergunta original]

3. Resposta gerada: fundamentada no texto legal recuperado,
   com rastreabilidade à fonte.

Open-book vs. Closed-book

O RAG combina a flexibilidade da abordagem closed-book (só paramétrica) com o desempenho dos métodos open-book (baseados em recuperação) — usando a memória não-paramétrica para "sinalizar" ao modelo seq2seq como gerar respostas corretas.

Closed-book (LLM puro) Open-book (RAG)
Fonte do conhecimento Parâmetros do modelo Parâmetros + corpus externo
Atualização Retreinamento completo Troca de documentos
Rastreabilidade Nenhuma Alta
Domínios especializados Limitado Excelente
Alucinação Alta Reduzida

Resultados e diferenciais

O RAG se destaca especialmente em tarefas de geração de linguagem natural intensivas em conhecimento. As respostas geradas são mais específicas, diversas e factuais do que as de modelos seq2seq comparáveis — porque o RAG é capaz de sintetizar respostas usando partes distintas de informação extraídas de múltiplas fontes.

Um experimento revelador: ao substituir a base Wikipedia original por uma versão mais antiga e perguntar "Quem é o primeiro-ministro da Islândia?", o RAG ajustou suas respostas com base no corpus trocado — mesmo com o conhecimento paramétrico estático. Essa abordagem adaptativa é inestimável em situações onde os fatos evoluem ao longo do tempo.


Vantagens

Vantagem Descrição
Conhecimento atualizado Basta atualizar o corpus, sem retreinar o modelo
Rastreabilidade Cada resposta pode ser vinculada às fontes consultadas
Domínios fechados Funciona com documentos internos, sigilosos, especializados
Redução de alucinação O modelo é ancorado em documentos reais
Escalável O corpus pode crescer indefinidamente sem impacto no modelo

Limitações

  • Qualidade da recuperação é crítica: Se o retriever busca documentos errados, o gerador produz respostas erradas com aparência de confiabilidade — um erro mais perigoso do que a alucinação simples.
  • Latência adicional: A etapa de busca acrescenta tempo de resposta, especialmente em corpora grandes.
  • Chunking e indexação: Documentos precisam ser fragmentados, vetorizados e indexados adequadamente — o que exige infraestrutura e curadoria.
  • Conflito entre memórias: O modelo pode priorizar sua memória paramétrica em vez do documento recuperado — especialmente quando o documento contradiz o treinamento.
  • Custo de infraestrutura: Vector databases, pipelines de ingestão e sistemas de embedding têm custo operacional contínuo.

Arquitetura moderna de RAG

O RAG evoluiu bastante desde 2020. Uma implementação atual típica inclui:

Documentos brutos
      ↓
[Chunking] → fragmentos de ~512 tokens
      ↓
[Embedding Model] → vetores numéricos
      ↓
[Vector Database] → indexação (FAISS, Pinecone, Qdrant...)
      ↓
[Query] → embedding da pergunta → busca por similaridade
      ↓
[Top-K chunks] → contexto para o LLM
      ↓
[LLM Generator] → resposta fundamentada

Quando usar?

  1. O domínio exige conhecimento atualizado ou pós-treinamento — legislação, jurisprudência, notícias;
  2. Você trabalha com documentos internos e sigilosos que não podem estar no treinamento do modelo;
  3. Rastreabilidade é obrigatória — laudos forenses, pareceres jurídicos, relatórios técnicos;
  4. O modelo precisa responder sobre um corpus específico e delimitado — processos, inquéritos, prontuários;
  5. A alucinação é inaceitável e cada afirmação precisa de âncora documental.

Referências

  • Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
  • Meta AI. Retrieval Augmented Generation: Streamlining the creation of intelligent NLP models. ai.meta.com/blog
  • Karpukhin, V. et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering. arxiv.org/abs/2004.04906