¿Qué es RAG?
RAG (Retrieval-Augmented Generation) es la técnica que permite a un LLM responder usando información que no está en su entrenamiento. En vez de "fine-tunear" el modelo con tus datos (caro, lento), buscás los fragmentos relevantes en una base de conocimiento y se los das como contexto al modelo en cada consulta.
Resultado: respuestas exactas, actualizadas y con citas verificables. Sin alucinaciones, sin reentrenar nada.
Cuándo conviene usar RAG
- Asistentes de soporte sobre documentación interna o pública.
- Búsqueda inteligente en bases de conocimiento, wikis, manuales.
- Análisis legal sobre contratos y normativas.
- Soporte técnico con histórico de tickets y soluciones.
- Onboarding y capacitación interna conversacional.
- Búsqueda en catálogos de productos por descripción semántica.
- Investigación sobre repositorios grandes de documentos.
Componentes técnicos
- Ingesta: carga de PDFs, Notion, Google Drive, sitios web, Confluence, GitHub.
- Chunking: partición inteligente que respeta secciones y semántica.
- Embeddings: OpenAI text-embedding-3, Voyage, Cohere, modelos open source.
- Vector DB: pgvector (Postgres), Pinecone, Qdrant, Weaviate, Chroma.
- Hybrid search: combinación de búsqueda vectorial + keyword (BM25).
- Reranking: Cohere Rerank, Voyage Rerank para mejorar relevancia.
- Generación: Claude, GPT-4.1/5 o modelos open source con el contexto.
- Citation: respuestas con referencias al documento fuente.
Búsqueda semántica vs búsqueda tradicional
La búsqueda por keywords matchea palabras exactas. La semántica entiende significado: "cómo cancelo la suscripción" encuentra un doc titulado "Política de bajas y reembolsos" aunque no comparten ninguna palabra. Esto se traduce directamente en menos clicks y más respuestas correctas.
Mejores prácticas que aplicamos
- Eval set desde el día 1: medimos recall y precisión con casos reales.
- Metadata filtering: resultados filtrados por usuario, fecha, categoría.
- Indexación incremental: sólo se reprocesa lo que cambió.
- Costos optimizados: embeddings cacheados, modelos chicos para queries simples.
- Privacidad: indexación on-premise o en VPC privada cuando hay datos sensibles.
- Permisos heredados: respetamos ACL de la fuente original.
Errores comunes que evitamos
- Chunking ingenuo (cortar a 500 caracteres ciegamente) que rompe el contexto.
- Sólo búsqueda vectorial sin keyword (falla con códigos de producto, IDs, nombres exactos).
- No reranking (resultados rankeados sólo por similaridad coseno son ruidosos).
- Falta de eval (no podés mejorar lo que no medís).
- Indexación sin metadatos (no podés filtrar por usuario o fecha).
Tecnologías que usamos
- pgvector: ideal cuando ya usás Postgres y querés simpleza operativa.
- Qdrant / Pinecone: cuando necesitás escala y filtros avanzados.
- LlamaIndex / LangChain: orquestación cuando suma.
- OpenAI / Anthropic / Voyage: embeddings de calidad frontier.
¿Tenés documentos y querés un asistente IA sobre ellos?
Te armamos un PoC con tus datos reales en 1-2 semanas. Vas a ver calidad antes de invertir en producción.