Retrieval Augmented Generation (RAG)
Resumo em uma frase: RAG é o modelo fazendo a prova com direito a consulta — e a diferença entre ele e o modelo puro é a mesma que existe entre um delegado que responde de memória e um que abre o inquérito antes de falar.
O que é?
Retrieval Augmented Generation é uma arquitetura proposta pela Meta AI (2020) que resolve um dos problemas mais fundamentais dos LLMs: o conhecimento congelado no tempo. O RAG é um modelo end-to-end diferenciável que combina um componente de recuperação de informação com um gerador seq2seq — permitindo que o modelo consulte documentos externos antes de produzir sua resposta.
A distinção central é simples: modelos convencionais respondem apenas com o que memorizaram durante o treinamento. O RAG responde com o que memorizou mais o que acabou de pesquisar.
O problema que o RAG resolve
Modelos de linguagem armazenam conhecimento em seus parâmetros durante o treinamento — uma forma de memória paramétrica. Isso funciona bem para tarefas de senso comum, mas falha em três cenários críticos:
- Conhecimento desatualizado: fatos mudam, o modelo não.
- Domínios especializados: documentos internos, legislações, laudos, prontuários — o modelo nunca viu.
- Rastreabilidade: é impossível saber de onde veio a informação gerada.
Alterar o que um modelo pré-treinado sabe implica retreinar o modelo inteiro com novos documentos. Com RAG, basta trocar os documentos usados para recuperação de conhecimento — o modelo paramétrico permanece estático.
Como funciona: passo a passo
Pergunta do usuário
↓
[Retriever] — busca documentos relevantes
no corpus (Wikipedia, base interna, etc.)
↓
Documentos recuperados são concatenados
como contexto junto à pergunta original
↓
[Generator] — modelo seq2seq lê
pergunta + contexto e gera a resposta
↓
Resposta final fundamentada em fontes
Em vez de passar o input diretamente ao gerador, o RAG usa o input para recuperar um conjunto de documentos relevantes — que são então concatenados como contexto com o input original e fornecidos ao modelo seq2seq que produz a saída.
As duas memórias do RAG
O RAG possui duas fontes de conhecimento: o conhecimento que modelos seq2seq armazenam em seus parâmetros (memória paramétrica) e o conhecimento armazenado no corpus do qual o RAG recupera passagens (memória não-paramétrica). Essas duas fontes se complementam.
| Memória | Onde vive | Atualização |
|---|---|---|
| Paramétrica | Pesos do modelo | Requer retreinamento |
| Não-paramétrica | Corpus / vector DB | Troca de documentos |
Exemplo prático
Pergunta: Quais são as penas previstas para o crime de receptação qualificada no Código Penal brasileiro?
Sem RAG:
O modelo responde com o que memorizou no treinamento — possivelmente desatualizado ou impreciso em detalhes técnicos.
Com RAG:
1. Retriever busca: "receptação qualificada Código Penal"
→ Recupera: Art. 180, §1º do CP + doutrina recente
2. Generator recebe:
[Contexto: Art. 180 §1º — "Adquirir, receber, transportar...
pena de reclusão, 3 a 8 anos..."] + [Pergunta original]
3. Resposta gerada: fundamentada no texto legal recuperado,
com rastreabilidade à fonte.
Open-book vs. Closed-book
O RAG combina a flexibilidade da abordagem closed-book (só paramétrica) com o desempenho dos métodos open-book (baseados em recuperação) — usando a memória não-paramétrica para "sinalizar" ao modelo seq2seq como gerar respostas corretas.
| Closed-book (LLM puro) | Open-book (RAG) | |
|---|---|---|
| Fonte do conhecimento | Parâmetros do modelo | Parâmetros + corpus externo |
| Atualização | Retreinamento completo | Troca de documentos |
| Rastreabilidade | Nenhuma | Alta |
| Domínios especializados | Limitado | Excelente |
| Alucinação | Alta | Reduzida |
Resultados e diferenciais
O RAG se destaca especialmente em tarefas de geração de linguagem natural intensivas em conhecimento. As respostas geradas são mais específicas, diversas e factuais do que as de modelos seq2seq comparáveis — porque o RAG é capaz de sintetizar respostas usando partes distintas de informação extraídas de múltiplas fontes.
Um experimento revelador: ao substituir a base Wikipedia original por uma versão mais antiga e perguntar "Quem é o primeiro-ministro da Islândia?", o RAG ajustou suas respostas com base no corpus trocado — mesmo com o conhecimento paramétrico estático. Essa abordagem adaptativa é inestimável em situações onde os fatos evoluem ao longo do tempo.
Vantagens
| Vantagem | Descrição |
|---|---|
| Conhecimento atualizado | Basta atualizar o corpus, sem retreinar o modelo |
| Rastreabilidade | Cada resposta pode ser vinculada às fontes consultadas |
| Domínios fechados | Funciona com documentos internos, sigilosos, especializados |
| Redução de alucinação | O modelo é ancorado em documentos reais |
| Escalável | O corpus pode crescer indefinidamente sem impacto no modelo |
Limitações
- Qualidade da recuperação é crítica: Se o retriever busca documentos errados, o gerador produz respostas erradas com aparência de confiabilidade — um erro mais perigoso do que a alucinação simples.
- Latência adicional: A etapa de busca acrescenta tempo de resposta, especialmente em corpora grandes.
- Chunking e indexação: Documentos precisam ser fragmentados, vetorizados e indexados adequadamente — o que exige infraestrutura e curadoria.
- Conflito entre memórias: O modelo pode priorizar sua memória paramétrica em vez do documento recuperado — especialmente quando o documento contradiz o treinamento.
- Custo de infraestrutura: Vector databases, pipelines de ingestão e sistemas de embedding têm custo operacional contínuo.
Arquitetura moderna de RAG
O RAG evoluiu bastante desde 2020. Uma implementação atual típica inclui:
Documentos brutos
↓
[Chunking] → fragmentos de ~512 tokens
↓
[Embedding Model] → vetores numéricos
↓
[Vector Database] → indexação (FAISS, Pinecone, Qdrant...)
↓
[Query] → embedding da pergunta → busca por similaridade
↓
[Top-K chunks] → contexto para o LLM
↓
[LLM Generator] → resposta fundamentada
Quando usar?
- O domínio exige conhecimento atualizado ou pós-treinamento — legislação, jurisprudência, notícias;
- Você trabalha com documentos internos e sigilosos que não podem estar no treinamento do modelo;
- Rastreabilidade é obrigatória — laudos forenses, pareceres jurídicos, relatórios técnicos;
- O modelo precisa responder sobre um corpus específico e delimitado — processos, inquéritos, prontuários;
- A alucinação é inaceitável e cada afirmação precisa de âncora documental.
Referências
- Lewis, P. et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.
- Meta AI. Retrieval Augmented Generation: Streamlining the creation of intelligent NLP models. ai.meta.com/blog
- Karpukhin, V. et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering. arxiv.org/abs/2004.04906