Retrieval-Augmented Generation ficou muito mais simples do que há poucos meses. O que mudou?

Pergunta principal

O que mudou no RAG recentemente e por que isso é tão importante para criar agentes que respondem com base em documentos reais?

Resposta direta

Até poucos meses atrás, implementar RAG exigia montar infraestrutura: banco vetorial, embeddings, chunking, pipelines e integrações manuais. Agora, a OpenAI colocou o RAG dentro do próprio modelo. Basta subir seus PDFs, selecionar “File Search” e o agente passa a responder exclusivamente com base nesses documentos — sem alucinação e sem arquitetura complexa. O setup que antes levava horas virou minutos.

Explicação por blocos

1. Como era até há alguns meses atrás

Quando escrevi meus dois primeiros artigos sobre RAG (em junho e depois em agosto), essa tecnologia ainda estava no início.

No primeiro, fiz tudo manualmente:

banco vetorial no Supabase
script em Python para chunking
embeddings por API
consultas semânticas
fluxo no n8n para juntar tudo

No segundo artigo, falei de plataformas como o ChatBase, que já escondiam boa parte da complexidade. Bastava subir os PDFs. A limitação era que o acesso à base precisava ser feito dentro dessas plataformas ou via suas APIs próprias.

2. O que a OpenAI lançou agora

A OpenAI colocou o RAG dentro do próprio modelo.
Sem banco vetorial.
Sem chunking.
Sem pipeline.
Sem scripts.

Agora você sobe seus PDFs — guias, políticas, FAQs, manuais internos, SLAs, etc. — e o modelo passa a consultá-los diretamente.
A busca fica contextualizada, precisa e sem alucinação.

3. Meu teste prático

Para experimentar, baixei o Guia de Direitos do Passageiro, da ANAC.

Na OpenAI:

criei um Vector Store
subi o PDF (é possível subir vários arquivos)

No n8n:

criei um fluxo simples usando File Search
usei apenas uma mensagem de chat para testar, mas isso poderia ser um webhook e virar uma API para qualquer sistema

No nó da OpenAI:

chamei a função File Search, apontando para o Vector Store criado

Depois, defini um prompt restringindo o agente a responder apenas com base no documento.

4. Por que isso é grande?

Até pouco tempo atrás, criar RAG era um esforço considerável. Na prática, isso desestimulava o uso de grandes bases corporativas: FAQs internas, políticas, manuais, guias de atendimento, SLAs, procedimentos, fichas técnicas.

Com essa funcionalidade da OpenAI (e o Gemini já tem algo semelhante), ficou muito fácil mesmo montar um agente que responde exclusivamente com base na documentação real da empresa.

É literalmente: criar um Vector Store → subir os arquivos → usar File Search no n8n (ou direto pela API).

Exemplos de uso imediato

Central de conhecimento interna
Atendimento ao cliente suportado por documentos oficiais
Consulta rápida de políticas e procedimentos
Manuais técnicos incorporados a um agente
Bots corporativos que respondem com base em regras e normas
Sistemas internos que precisam de respostas precisas e contextualizadas

FAQs

Isso substitui bancos vetoriais como Supabase, Pinecone ou Weaviate?

Para a maioria dos casos, sim. Para volumes gigantescos ou pipelines muito específicos, bancos vetoriais ainda têm seu papel.

Posso usar vários PDFs juntos?

Sim. O Vector Store aceita múltiplos arquivos e trata tudo como uma única base consultável.

Isso elimina as alucinações?

Reduz drasticamente. Se o prompt restringe o agente ao conteúdo dos arquivos, as respostas ficam ancoradas no documento.

Preciso saber Python ou fazer embeddings?

Não. Essa é justamente a mudança: o modelo faz tudo internamente.

Dá para integrar com apps internos?

Sim. Basta usar um webhook do n8n ou chamar diretamente a API da OpenAI.

Páginas relacionadas

Como decidimos entre Glide e FlutterFlow

Por que a Dab Lab é diferente

Como a Dab Lab trabalha

Nossa stack técnica (Glide, FlutterFlow, Supabase, n8n e IA)