Retrieval Augmented Generation (RAG) — EngenhariaDePrompt.ia.br

Resumo em uma frase: RAG é o modelo fazendo a prova com direito a consulta — e a diferença entre ele e o modelo puro é a mesma que existe entre um delegado que responde de memória e um que abre o inquérito antes de falar.

O que é?

Retrieval Augmented Generation é uma arquitetura proposta pela Meta AI (2020) que resolve um dos problemas mais fundamentais dos LLMs: o conhecimento congelado no tempo. O RAG é um modelo end-to-end diferenciável que combina um componente de recuperação de informação com um gerador seq2seq — permitindo que o modelo consulte documentos externos antes de produzir sua resposta.

A distinção central é simples: modelos convencionais respondem apenas com o que memorizaram durante o treinamento. O RAG responde com o que memorizou mais o que acabou de pesquisar.

O problema que o RAG resolve

Modelos de linguagem armazenam conhecimento em seus parâmetros durante o treinamento — uma forma de memória paramétrica. Isso funciona bem para tarefas de senso comum, mas falha em três cenários críticos:

Conhecimento desatualizado: fatos mudam, o modelo não.
Domínios especializados: documentos internos, legislações, laudos, prontuários — o modelo nunca viu.
Rastreabilidade: é impossível saber de onde veio a informação gerada.

Alterar o que um modelo pré-treinado sabe implica retreinar o modelo inteiro com novos documentos. Com RAG, basta trocar os documentos usados para recuperação de conhecimento — o modelo paramétrico permanece estático.

Como funciona: passo a passo

Pergunta do usuário
        ↓
[Retriever] — busca documentos relevantes
no corpus (Wikipedia, base interna, etc.)
        ↓
Documentos recuperados são concatenados
como contexto junto à pergunta original
        ↓
[Generator] — modelo seq2seq lê
pergunta + contexto e gera a resposta
        ↓
Resposta final fundamentada em fontes

Em vez de passar o input diretamente ao gerador, o RAG usa o input para recuperar um conjunto de documentos relevantes — que são então concatenados como contexto com o input original e fornecidos ao modelo seq2seq que produz a saída.

As duas memórias do RAG

O RAG possui duas fontes de conhecimento: o conhecimento que modelos seq2seq armazenam em seus parâmetros (memória paramétrica) e o conhecimento armazenado no corpus do qual o RAG recupera passagens (memória não-paramétrica). Essas duas fontes se complementam.

Memória	Onde vive	Atualização
Paramétrica	Pesos do modelo	Requer retreinamento
Não-paramétrica	Corpus / vector DB	Troca de documentos

Exemplo prático

Pergunta: Quais são as penas previstas para o crime de receptação qualificada no Código Penal brasileiro?

Sem RAG:
O modelo responde com o que memorizou no treinamento — possivelmente desatualizado ou impreciso em detalhes técnicos.

Com RAG:

1. Retriever busca: "receptação qualificada Código Penal"
   → Recupera: Art. 180, §1º do CP + doutrina recente

2. Generator recebe:
   [Contexto: Art. 180 §1º — "Adquirir, receber, transportar...
   pena de reclusão, 3 a 8 anos..."] + [Pergunta original]

3. Resposta gerada: fundamentada no texto legal recuperado,
   com rastreabilidade à fonte.

Open-book vs. Closed-book

O RAG combina a flexibilidade da abordagem closed-book (só paramétrica) com o desempenho dos métodos open-book (baseados em recuperação) — usando a memória não-paramétrica para "sinalizar" ao modelo seq2seq como gerar respostas corretas.

	Closed-book (LLM puro)	Open-book (RAG)
Fonte do conhecimento	Parâmetros do modelo	Parâmetros + corpus externo
Atualização	Retreinamento completo	Troca de documentos
Rastreabilidade	Nenhuma	Alta
Domínios especializados	Limitado	Excelente
Alucinação	Alta	Reduzida

Resultados e diferenciais

O RAG se destaca especialmente em tarefas de geração de linguagem natural intensivas em conhecimento. As respostas geradas são mais específicas, diversas e factuais do que as de modelos seq2seq comparáveis — porque o RAG é capaz de sintetizar respostas usando partes distintas de informação extraídas de múltiplas fontes.

Um experimento revelador: ao substituir a base Wikipedia original por uma versão mais antiga e perguntar "Quem é o primeiro-ministro da Islândia?", o RAG ajustou suas respostas com base no corpus trocado — mesmo com o conhecimento paramétrico estático. Essa abordagem adaptativa é inestimável em situações onde os fatos evoluem ao longo do tempo.

Vantagens

Vantagem	Descrição
Conhecimento atualizado	Basta atualizar o corpus, sem retreinar o modelo
Rastreabilidade	Cada resposta pode ser vinculada às fontes consultadas
Domínios fechados	Funciona com documentos internos, sigilosos, especializados
Redução de alucinação	O modelo é ancorado em documentos reais
Escalável	O corpus pode crescer indefinidamente sem impacto no modelo

Limitações

Qualidade da recuperação é crítica: Se o retriever busca documentos errados, o gerador produz respostas erradas com aparência de confiabilidade — um erro mais perigoso do que a alucinação simples.
Latência adicional: A etapa de busca acrescenta tempo de resposta, especialmente em corpora grandes.
Chunking e indexação: Documentos precisam ser fragmentados, vetorizados e indexados adequadamente — o que exige infraestrutura e curadoria.
Conflito entre memórias: O modelo pode priorizar sua memória paramétrica em vez do documento recuperado — especialmente quando o documento contradiz o treinamento.
Custo de infraestrutura: Vector databases, pipelines de ingestão e sistemas de embedding têm custo operacional contínuo.

Arquitetura moderna de RAG

O RAG evoluiu bastante desde 2020. Uma implementação atual típica inclui:

Documentos brutos
      ↓
[Chunking] → fragmentos de ~512 tokens
      ↓
[Embedding Model] → vetores numéricos
      ↓
[Vector Database] → indexação (FAISS, Pinecone, Qdrant...)
      ↓
[Query] → embedding da pergunta → busca por similaridade
      ↓
[Top-K chunks] → contexto para o LLM
      ↓
[LLM Generator] → resposta fundamentada

Quando usar?

O domínio exige conhecimento atualizado ou pós-treinamento — legislação, jurisprudência, notícias;
Você trabalha com documentos internos e sigilosos que não podem estar no treinamento do modelo;
Rastreabilidade é obrigatória — laudos forenses, pareceres jurídicos, relatórios técnicos;
O modelo precisa responder sobre um corpus específico e delimitado — processos, inquéritos, prontuários;
A alucinação é inaceitável e cada afirmação precisa de âncora documental.

Referências

Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
Meta AI. Retrieval Augmented Generation: Streamlining the creation of intelligent NLP models. ai.meta.com/blog
Karpukhin, V. et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering. arxiv.org/abs/2004.04906