Integre RAG ao WhatsApp com n8n

O que é e por que usar

Integrar RAG (Retrieval-Augmented Generation) ao WhatsApp permite que assistentes conversacionais respondam perguntas com base em uma base de conhecimento específica, sem depender de treinamento adicional de modelos de linguagem. Em vez disso, o sistema busca documentos relevantes em tempo real e os utiliza como contexto para gerar respostas precisas.

Na prática, isso significa que você pode criar um bot no WhatsApp que responde dúvidas sobre manuais de produtos, políticas internas, documentação técnica ou FAQs sem precisar reescrever todo o conhecimento no prompt. O n8n atua como orquestrador: recebe a mensagem, consulta um banco vetorial (como Qdrant ou Pinecone), envia o contexto para uma LLM (como OpenAI) e retorna a resposta via API do WhatsApp Business.

O resultado é um sistema escalável, onde atualizar a base de conhecimento é tão simples quanto adicionar novos documentos ao banco vetorial. Diferente de fine-tuning, o RAG não exige re-treino do modelo e mantém a flexibilidade de fontes de dados dinâmicas.

Pré-requisitos

Antes de começar, você precisará dos seguintes itens configurados e funcionando:

Conta no n8n – pode ser self-hosted (Docker) ou cloud (n8n.io). Versão mínima recomendada: 0.230+.
API do WhatsApp Business – acesso via Meta Cloud API ou provedor como Twilio, com número de telefone verificado.
Banco vetorial – Qdrant (recomendado para self-hosted) ou Pinecone (cloud).
Modelo de embedding – OpenAI Embeddings (text-embedding-3-small) ou modelo local via Ollama.
LLM para geração – OpenAI GPT-4o-mini ou Claude 3 Haiku (custo-benefício).
Base de conhecimento – documentos em PDF, Markdown ou TXT que serão chunked e indexados.
Conhecimentos básicos – familiaridade com nós HTTP Request, Webhook e Function do n8n.

Exemplo Prático: Bot de suporte técnico para documentação de produto

Cenário concreto: Imagine que sua empresa tem um manual de 200 páginas para um produto SaaS. Clientes enviam dúvidas no WhatsApp sobre funcionalidades, preços e solução de problemas. Sem automação, sua equipe de suporte gasta em média 8 minutos por atendimento para pesquisar no manual e redigir respostas.

O que será automatizado: Um fluxo no n8n que recebe a mensagem do WhatsApp, extrai o texto, busca os 3 chunks mais similares no banco vetorial (Qdrant), monta um prompt com o contexto e envia para OpenAI. A resposta gerada é retornada ao WhatsApp em menos de 3 segundos.

Resultado esperado: Redução de 80% no tempo médio de resposta para perguntas frequentes. Clientes recebem respostas precisas, com citações indiretas da documentação, 24 horas por dia. A equipe de suporte pode focar em casos complexos.

A person holding a smartphone displaying text messages on a blue surface with flowers.

Configuração Passo a Passo

1. Estruturar a base de conhecimento

Converta seus documentos em chunks de 500-1000 caracteres. Use o nó Read Binary Files para carregar PDFs e o nó Function para dividir em chunks. Exemplo de código para chunking:

// Node Function: Chunking
const text = $input.item.json.text;
const chunkSize = 800;
const overlap = 100;
const chunks = [];

for (let i = 0; i < text.length; i += chunkSize - overlap) { chunks.push(text.substring(i, i + chunkSize)); } return chunks.map((chunk, index) => ({
  json: { chunk, source: $input.item.json.filename, chunkIndex: index }
}));

2. Criar embeddings e indexar no Qdrant

Use o nó OpenAI (Embeddings) para gerar vetores de 1536 dimensões. Configure o nó Qdrant para inserir os pontos:

Operation: Upsert
Collection Name: knowledge_base
ID: {{ $json.source }}-{{ $json.chunkIndex }}
Vector: {{ $json.data }}
Payload: { “text”: “{{ $json.chunk }}”, “source”: “{{ $json.source }}” }

Execute este fluxo uma vez para indexar toda a base. Atualizações futuras podem ser feitas incrementalmente.

3. Webhook para receber mensagens do WhatsApp

Crie um fluxo com nó Webhook configurado para POST. No Meta Cloud API, aponte o webhook para https://seudominio.com/webhook/whatsapp. Verifique o token no campo Response do webhook.

No nó Function seguinte, extraia o texto da mensagem:

// Node Function: Extract Message
const entry = $input.item.json.entry[0];
const change = entry.changes[0];
const message = change.value.messages[0];

return {
  json: {
    from: message.from,
    text: message.text.body,
    messageId: message.id
  }
};

4. Buscar contexto relevante no Qdrant

Use o nó OpenAI Embeddings para vetorizar o texto da pergunta. Conecte ao nó Qdrant com operação Search:

Collection: knowledge_base
Vector: {{ $json.data }}
Limit: 3
Filter: (opcional) para restringir a seções específicas

O retorno incluirá os payloads com os chunks mais similares.

5. Montar prompt e gerar resposta com LLM

No nó OpenAI (Chat Model), configure o prompt do sistema e a mensagem do usuário. Exemplo de template:

// System prompt
"Você é um assistente de suporte técnico. Use APENAS o contexto abaixo para responder. Se não souber, diga que não encontrou a informação. Contexto:\n{{ $json.context }}"

// User message
"{{ $json.question }}"

O campo $json.context deve ser concatenado a partir dos chunks retornados pelo Qdrant. Use um nó Function para isso:

// Node Function: Build Context
const results = $input.item.json.results;
const context = results.map(r => r.payload.text).join('\n---\n');

return {
  json: {
    context: context,
    question: $input.item.json.question,
    from: $input.item.json.from
  }
};

6. Enviar resposta de volta ao WhatsApp

Use o nó HTTP Request para POST na API do WhatsApp Business:

// URL
https://graph.facebook.com/v18.0/{{ $env.PHONE_NUMBER_ID }}/messages

// Headers
Authorization: Bearer {{ $env.WHATSAPP_TOKEN }}
Content-Type: application/json

// Body
{
  "messaging_product": "whatsapp",
  "to": "{{ $json.from }}",
  "type": "text",
  "text": { "body": "{{ $json.response }}" }
}

Configure as credenciais como variáveis de ambiente no n8n para segurança.

Dicas e Variações

Cache de embeddings: Para evitar chamadas repetidas à OpenAI, armazene o embedding da pergunta em um banco Redis com TTL de 5 minutos. Se a mesma pergunta chegar, use o embedding em cache.
Fallback para busca difusa: Se o Qdrant retornar similaridade abaixo de 0.75, use um nó IF para redirecionar para uma busca textual com Elasticsearch ou até mesmo um “Não encontrei, vou transferir para um humano”.
Multimodal: Para documentos com imagens (como manuais com diagramas), use um modelo multimodal (GPT-4 Vision) para descrever a imagem e indexar a descrição no banco vetorial.
Logs e monitoria: Adicione um nó Google Sheets ou PostgreSQL para registrar cada pergunta, contexto usado e resposta. Isso ajuda a identificar lacunas na base de conhecimento.
Atualização automática: Crie um segundo fluxo que escuta um webhook do seu CMS. Quando um documento for atualizado, re-indexe apenas os chunks modificados usando o ID do documento.

Erros Comuns e Como Evitá-los

Chunks muito grandes ou pequenos: Chunks com menos de 100 caracteres perdem contexto; acima de 2000 caracteres aumentam o custo da LLM e podem exceder o limite de tokens. Mantenha entre 500-1000 caracteres.
Esquecer de tratar erros da API do WhatsApp: A Meta Cloud API retorna erros 400 para números inválidos ou mensagens duplicadas. Use o nó Error Trigger no n8n para capturar e registrar esses erros em um arquivo de log.
Vazar informações sensíveis no prompt: No prompt do sistema, instrua explicitamente o modelo a NÃO repetir informações de autenticação ou dados pessoais. Adicione um nó Function para sanitizar o contexto removendo padrões como “senha:”, “token:” antes de enviar para a LLM.
Custo descontrolado com OpenAI: Sempre defina max_tokens entre 300-500 para respostas curtas. Use o modelo GPT-4o-mini que custa $0.15/1M tokens de entrada vs $2.50 do GPT-4. Para embeddings, text-embedding-3-small custa $0.02/1M tokens.
Ignorar rate limits do WhatsApp: A API do WhatsApp Business permite 80 requisições por segundo por número de telefone. Use o nó Wait com 200ms entre mensagens se o volume for alto, ou implemente um semáforo com Redis.

Próximos Passos

Agora que você tem o fluxo básico funcionando, aqui estão três ações concretas para levar sua integração ao próximo nível:

Implemente um mecanismo de feedback: Após cada resposta, envie uma mensagem de follow-up perguntando “Esta resposta foi útil? (Sim/Não)”. Armazene os feedbacks negativos em uma tabela para revisão manual e ajuste dos chunks.
Crie um dashboard de monitoria: Use o nó InfluxDB ou Prometheus para métricas como: tempo médio de resposta, taxa de acerto (feedback positivo), e chunks mais consultados. Isso orienta onde melhorar a base.
Expanda para múltiplos canais: Replique o mesmo fluxo para Telegram, Messenger e Slack. A lógica de RAG permanece idêntica; apenas mude o nó de entrada/saída. O n8n permite reutilizar sub-fluxos via Execute Workflow.

Com essa arquitetura, você não apenas automatiza respostas no WhatsApp, mas constrói um sistema de conhecimento vivo que se adapta e melhora continuamente. O próximo passo é conectar seu CRM para personalizar as respostas com base no histórico do cliente.

Gostou do conteúdo? Inscreva-se para receber as novidades: