¿Qué es RAG?

RAG (Retrieval-Augmented Generation) es la técnica que permite a un LLM responder usando información que no está en su entrenamiento. En vez de "fine-tunear" el modelo con tus datos (caro, lento), buscás los fragmentos relevantes en una base de conocimiento y se los das como contexto al modelo en cada consulta.

Resultado: respuestas exactas, actualizadas y con citas verificables. Sin alucinaciones, sin reentrenar nada.

Cuándo conviene usar RAG

Asistentes de soporte sobre documentación interna o pública.
Búsqueda inteligente en bases de conocimiento, wikis, manuales.
Análisis legal sobre contratos y normativas.
Soporte técnico con histórico de tickets y soluciones.
Onboarding y capacitación interna conversacional.
Búsqueda en catálogos de productos por descripción semántica.
Investigación sobre repositorios grandes de documentos.

Componentes técnicos

Ingesta: carga de PDFs, Notion, Google Drive, sitios web, Confluence, GitHub.
Chunking: partición inteligente que respeta secciones y semántica.
Embeddings: OpenAI text-embedding-3, Voyage, Cohere, modelos open source.
Vector DB: pgvector (Postgres), Pinecone, Qdrant, Weaviate, Chroma.
Hybrid search: combinación de búsqueda vectorial + keyword (BM25).
Reranking: Cohere Rerank, Voyage Rerank para mejorar relevancia.
Generación: Claude, GPT-4.1/5 o modelos open source con el contexto.
Citation: respuestas con referencias al documento fuente.

Búsqueda semántica vs búsqueda tradicional

La búsqueda por keywords matchea palabras exactas. La semántica entiende significado: "cómo cancelo la suscripción" encuentra un doc titulado "Política de bajas y reembolsos" aunque no comparten ninguna palabra. Esto se traduce directamente en menos clicks y más respuestas correctas.

Mejores prácticas que aplicamos

Eval set desde el día 1: medimos recall y precisión con casos reales.
Metadata filtering: resultados filtrados por usuario, fecha, categoría.
Indexación incremental: sólo se reprocesa lo que cambió.
Costos optimizados: embeddings cacheados, modelos chicos para queries simples.
Privacidad: indexación on-premise o en VPC privada cuando hay datos sensibles.
Permisos heredados: respetamos ACL de la fuente original.

Errores comunes que evitamos

Chunking ingenuo (cortar a 500 caracteres ciegamente) que rompe el contexto.
Sólo búsqueda vectorial sin keyword (falla con códigos de producto, IDs, nombres exactos).
No reranking (resultados rankeados sólo por similaridad coseno son ruidosos).
Falta de eval (no podés mejorar lo que no medís).
Indexación sin metadatos (no podés filtrar por usuario o fecha).

Tecnologías que usamos

pgvector: ideal cuando ya usás Postgres y querés simpleza operativa.
Qdrant / Pinecone: cuando necesitás escala y filtros avanzados.
LlamaIndex / LangChain: orquestación cuando suma.
OpenAI / Anthropic / Voyage: embeddings de calidad frontier.

¿Tenés documentos y querés un asistente IA sobre ellos?

Te armamos un PoC con tus datos reales en 1-2 semanas. Vas a ver calidad antes de invertir en producción.

RAG y Búsqueda Semántica