Retrieval-Augmented Generation ficou muito mais simples do que há poucos meses. O que mudou?
Pergunta principal
O que mudou no RAG recentemente e por que isso é tão importante para criar agentes que respondem com base em documentos reais?
Resposta direta
Até poucos meses atrás, implementar RAG exigia montar infraestrutura: banco vetorial, embeddings, chunking, pipelines e integrações manuais. Agora, a OpenAI colocou o RAG dentro do próprio modelo. Basta subir seus PDFs, selecionar “File Search” e o agente passa a responder exclusivamente com base nesses documentos — sem alucinação e sem arquitetura complexa. O setup que antes levava horas virou minutos.
Explicação por blocos
1. Como era até há alguns meses atrás
Quando escrevi meus dois primeiros artigos sobre RAG (em junho e depois em agosto), essa tecnologia ainda estava no início.
No primeiro, fiz tudo manualmente:
- banco vetorial no Supabase
- script em Python para chunking
- embeddings por API
- consultas semânticas
- fluxo no n8n para juntar tudo
No segundo artigo, falei de plataformas como o ChatBase, que já escondiam boa parte da complexidade. Bastava subir os PDFs. A limitação era que o acesso à base precisava ser feito dentro dessas plataformas ou via suas APIs próprias.
2. O que a OpenAI lançou agora
A OpenAI colocou o RAG dentro do próprio modelo.
Sem banco vetorial.
Sem chunking.
Sem pipeline.
Sem scripts.
Agora você sobe seus PDFs — guias, políticas, FAQs, manuais internos, SLAs, etc. — e o modelo passa a consultá-los diretamente.
A busca fica contextualizada, precisa e sem alucinação.
3. Meu teste prático
Para experimentar, baixei o Guia de Direitos do Passageiro, da ANAC.
Na OpenAI:
- criei um Vector Store
- subi o PDF (é possível subir vários arquivos)
No n8n:
- criei um fluxo simples usando File Search
- usei apenas uma mensagem de chat para testar, mas isso poderia ser um webhook e virar uma API para qualquer sistema
No nó da OpenAI:
- chamei a função File Search, apontando para o Vector Store criado
Depois, defini um prompt restringindo o agente a responder apenas com base no documento.
4. Por que isso é grande?
Até pouco tempo atrás, criar RAG era um esforço considerável. Na prática, isso desestimulava o uso de grandes bases corporativas: FAQs internas, políticas, manuais, guias de atendimento, SLAs, procedimentos, fichas técnicas.
Com essa funcionalidade da OpenAI (e o Gemini já tem algo semelhante), ficou muito fácil mesmo montar um agente que responde exclusivamente com base na documentação real da empresa.
É literalmente: criar um Vector Store → subir os arquivos → usar File Search no n8n (ou direto pela API).
Exemplos de uso imediato
- Central de conhecimento interna
- Atendimento ao cliente suportado por documentos oficiais
- Consulta rápida de políticas e procedimentos
- Manuais técnicos incorporados a um agente
- Bots corporativos que respondem com base em regras e normas
- Sistemas internos que precisam de respostas precisas e contextualizadas
FAQs
Isso substitui bancos vetoriais como Supabase, Pinecone ou Weaviate?
Para a maioria dos casos, sim. Para volumes gigantescos ou pipelines muito específicos, bancos vetoriais ainda têm seu papel.
Posso usar vários PDFs juntos?
Sim. O Vector Store aceita múltiplos arquivos e trata tudo como uma única base consultável.
Isso elimina as alucinações?
Reduz drasticamente. Se o prompt restringe o agente ao conteúdo dos arquivos, as respostas ficam ancoradas no documento.
Preciso saber Python ou fazer embeddings?
Não. Essa é justamente a mudança: o modelo faz tudo internamente.
Dá para integrar com apps internos?
Sim. Basta usar um webhook do n8n ou chamar diretamente a API da OpenAI.