Retrieval-Augmented Generation ficou muito mais simples do que há poucos meses. O que mudou?

Pergunta principal

O que mudou no RAG recentemente e por que isso é tão importante para criar agentes que respondem com base em documentos reais?

Resposta direta

Até poucos meses atrás, implementar RAG exigia montar infraestrutura: banco vetorial, embeddings, chunking, pipelines e integrações manuais. Agora, a OpenAI colocou o RAG dentro do próprio modelo. Basta subir seus PDFs, selecionar “File Search” e o agente passa a responder exclusivamente com base nesses documentos — sem alucinação e sem arquitetura complexa. O setup que antes levava horas virou minutos.


Explicação por blocos

1. Como era até há alguns meses atrás

Quando escrevi meus dois primeiros artigos sobre RAG (em junho e depois em agosto), essa tecnologia ainda estava no início.

No primeiro, fiz tudo manualmente:

  • banco vetorial no Supabase
  • script em Python para chunking
  • embeddings por API
  • consultas semânticas
  • fluxo no n8n para juntar tudo

No segundo artigo, falei de plataformas como o ChatBase, que já escondiam boa parte da complexidade. Bastava subir os PDFs. A limitação era que o acesso à base precisava ser feito dentro dessas plataformas ou via suas APIs próprias.

2. O que a OpenAI lançou agora

A OpenAI colocou o RAG dentro do próprio modelo.
Sem banco vetorial.
Sem chunking.
Sem pipeline.
Sem scripts.

Agora você sobe seus PDFs — guias, políticas, FAQs, manuais internos, SLAs, etc. — e o modelo passa a consultá-los diretamente.
A busca fica contextualizada, precisa e sem alucinação.

3. Meu teste prático

Para experimentar, baixei o Guia de Direitos do Passageiro, da ANAC.

Na OpenAI:

  • criei um Vector Store
  • subi o PDF (é possível subir vários arquivos)

No n8n:

  • criei um fluxo simples usando File Search
  • usei apenas uma mensagem de chat para testar, mas isso poderia ser um webhook e virar uma API para qualquer sistema

No nó da OpenAI:

  • chamei a função File Search, apontando para o Vector Store criado

Depois, defini um prompt restringindo o agente a responder apenas com base no documento.

4. Por que isso é grande?

Até pouco tempo atrás, criar RAG era um esforço considerável. Na prática, isso desestimulava o uso de grandes bases corporativas: FAQs internas, políticas, manuais, guias de atendimento, SLAs, procedimentos, fichas técnicas.

Com essa funcionalidade da OpenAI (e o Gemini já tem algo semelhante), ficou muito fácil mesmo montar um agente que responde exclusivamente com base na documentação real da empresa.

É literalmente: criar um Vector Store → subir os arquivos → usar File Search no n8n (ou direto pela API).


Exemplos de uso imediato

  • Central de conhecimento interna
  • Atendimento ao cliente suportado por documentos oficiais
  • Consulta rápida de políticas e procedimentos
  • Manuais técnicos incorporados a um agente
  • Bots corporativos que respondem com base em regras e normas
  • Sistemas internos que precisam de respostas precisas e contextualizadas

FAQs

Isso substitui bancos vetoriais como Supabase, Pinecone ou Weaviate?

Para a maioria dos casos, sim. Para volumes gigantescos ou pipelines muito específicos, bancos vetoriais ainda têm seu papel.

Posso usar vários PDFs juntos?

Sim. O Vector Store aceita múltiplos arquivos e trata tudo como uma única base consultável.

Isso elimina as alucinações?

Reduz drasticamente. Se o prompt restringe o agente ao conteúdo dos arquivos, as respostas ficam ancoradas no documento.

Preciso saber Python ou fazer embeddings?

Não. Essa é justamente a mudança: o modelo faz tudo internamente.

Dá para integrar com apps internos?

Sim. Basta usar um webhook do n8n ou chamar diretamente a API da OpenAI.