O que é RAG? Como a IA responde com base nos seus documentos

RAG (Retrieval-Augmented Generation) é uma técnica de inteligência artificial que combina a pesquisa de informação relevante numa base de dados com a capacidade de geração de texto de um modelo de linguagem. Em termos práticos, RAG permite que uma IA responda a perguntas com base nos documentos, dados e conhecimento específico da empresa, em vez de depender apenas do que o modelo aprendeu durante o treino.

Os modelos de linguagem como o GPT-4 são poderosos, mas têm uma limitação fundamental: só sabem o que estava nos dados de treino. Não conhecem os procedimentos internos da sua empresa, os contratos dos seus clientes ou as especificações dos seus produtos. RAG resolve este problema ao dar à IA acesso controlado à informação da empresa no momento da resposta.

O que é RAG

RAG funciona em duas fases sequenciais:

  1. Retrieval (Pesquisa): quando o utilizador faz uma pergunta, o sistema pesquisa na base de conhecimento da empresa os documentos mais relevantes para aquela pergunta.
  2. Augmented Generation (Geração Aumentada): os documentos relevantes são fornecidos ao modelo de linguagem como contexto, e o modelo gera uma resposta baseada nessa informação.

O resultado é uma resposta que combina a fluência natural do modelo de linguagem com a precisão factual dos dados da empresa.

Porque é que RAG é importante para empresas

Sem RAGCom RAG
A IA responde com conhecimento genéricoA IA responde com dados específicos da empresa
Pode inventar informação (alucinações)Respostas fundamentadas em documentos reais
Não conhece procedimentos internosAcede a políticas, manuais e procedimentos
Dados desactualizados (data de treino)Dados actualizados em tempo real
Sem rastreabilidade das fontesCada resposta cita a fonte documental

Como funciona passo a passo

  1. Ingestão de documentos. Os documentos da empresa (PDFs, Word, wikis, emails, bases de dados) são processados e divididos em segmentos (chunks).
  2. Criação de embeddings. Cada segmento é convertido numa representação numérica (vector embedding) que captura o significado semântico do conteúdo.
  3. Armazenamento vectorial. Os embeddings são armazenados numa base de dados vectorial optimizada para pesquisa por similaridade.
  4. Pergunta do utilizador. A pergunta é convertida num embedding e comparada com os embeddings da base.
  5. Pesquisa semântica. Os segmentos mais relevantes (tipicamente 3 a 10) são recuperados.
  6. Geração da resposta. O modelo de linguagem recebe a pergunta e os segmentos relevantes como contexto, e gera a resposta.

A pesquisa é semântica e não por palavras-chave. Isto significa que a pergunta "qual é o prazo de pagamento para clientes novos?" encontra informação relevante mesmo que o documento original use termos como "condições de pagamento para novas contas" ou "termos de crédito para primeiras encomendas".

Aplicações empresariais

RAG vs fine-tuning: qual a diferença

CritérioRAGFine-tuning
O que mudaContexto fornecido ao modeloO próprio modelo é re-treinado
Actualização de dadosImediata (adicionar documentos)Requer novo treino (horas/dias)
CustoBaixo a médioAlto (computação GPU)
RastreabilidadeFontes citáveisSem rastreabilidade de fontes
Risco de alucinaçõesBaixo (limitado pelo contexto)Médio (modelo pode generalizar)
Caso idealPerguntas sobre documentos e dadosAlterar o estilo/comportamento do modelo

Para a maioria das aplicações empresariais, RAG é a abordagem recomendada. O fine-tuning é reservado para casos em que se pretende alterar fundamentalmente o comportamento do modelo (ex: adaptar a uma linguagem técnica muito específica).

Como implementar RAG na sua empresa

  1. Compilar a base de conhecimento. Reunir os documentos que o sistema deve consultar. Não é necessário ter tudo desde o início. Começar com 50 a 100 documentos relevantes.
  2. Escolher a infraestrutura. Serviços como o Azure AI Search combinam pesquisa vectorial com pesquisa textual para melhores resultados.
  3. Definir o caso de uso. Começar com um caso específico (ex: FAQ de produto) antes de expandir.
  4. Testar com utilizadores reais. Medir a precisão das respostas e iterar na preparação dos documentos.
  5. Expandir progressivamente. Adicionar mais documentos, mais integrações e mais casos de uso.

Na Engibots, ajudamos empresas a implementar sistemas RAG que permitem utilizar IA com base nos seus dados e documentos específicos, com rastreabilidade e controlo sobre a informação acessível.