RAG y Búsqueda Semántica

La IA habla con tus datos. Respuestas precisas con citas, sobre tu documentación, catálogo o base de conocimiento.

Ver más

¿Qué es RAG?

RAG (Retrieval-Augmented Generation) es la técnica que permite a un LLM responder usando información que no está en su entrenamiento. En vez de "fine-tunear" el modelo con tus datos (caro, lento), buscás los fragmentos relevantes en una base de conocimiento y se los das como contexto al modelo en cada consulta.

Resultado: respuestas exactas, actualizadas y con citas verificables. Sin alucinaciones, sin reentrenar nada.

Cuándo conviene usar RAG

  • Asistentes de soporte sobre documentación interna o pública.
  • Búsqueda inteligente en bases de conocimiento, wikis, manuales.
  • Análisis legal sobre contratos y normativas.
  • Soporte técnico con histórico de tickets y soluciones.
  • Onboarding y capacitación interna conversacional.
  • Búsqueda en catálogos de productos por descripción semántica.
  • Investigación sobre repositorios grandes de documentos.

Componentes técnicos

  • Ingesta: carga de PDFs, Notion, Google Drive, sitios web, Confluence, GitHub.
  • Chunking: partición inteligente que respeta secciones y semántica.
  • Embeddings: OpenAI text-embedding-3, Voyage, Cohere, modelos open source.
  • Vector DB: pgvector (Postgres), Pinecone, Qdrant, Weaviate, Chroma.
  • Hybrid search: combinación de búsqueda vectorial + keyword (BM25).
  • Reranking: Cohere Rerank, Voyage Rerank para mejorar relevancia.
  • Generación: Claude, GPT-4.1/5 o modelos open source con el contexto.
  • Citation: respuestas con referencias al documento fuente.

Búsqueda semántica vs búsqueda tradicional

La búsqueda por keywords matchea palabras exactas. La semántica entiende significado: "cómo cancelo la suscripción" encuentra un doc titulado "Política de bajas y reembolsos" aunque no comparten ninguna palabra. Esto se traduce directamente en menos clicks y más respuestas correctas.

Mejores prácticas que aplicamos

  • Eval set desde el día 1: medimos recall y precisión con casos reales.
  • Metadata filtering: resultados filtrados por usuario, fecha, categoría.
  • Indexación incremental: sólo se reprocesa lo que cambió.
  • Costos optimizados: embeddings cacheados, modelos chicos para queries simples.
  • Privacidad: indexación on-premise o en VPC privada cuando hay datos sensibles.
  • Permisos heredados: respetamos ACL de la fuente original.

Errores comunes que evitamos

  • Chunking ingenuo (cortar a 500 caracteres ciegamente) que rompe el contexto.
  • Sólo búsqueda vectorial sin keyword (falla con códigos de producto, IDs, nombres exactos).
  • No reranking (resultados rankeados sólo por similaridad coseno son ruidosos).
  • Falta de eval (no podés mejorar lo que no medís).
  • Indexación sin metadatos (no podés filtrar por usuario o fecha).

Tecnologías que usamos

  • pgvector: ideal cuando ya usás Postgres y querés simpleza operativa.
  • Qdrant / Pinecone: cuando necesitás escala y filtros avanzados.
  • LlamaIndex / LangChain: orquestación cuando suma.
  • OpenAI / Anthropic / Voyage: embeddings de calidad frontier.

¿Tenés documentos y querés un asistente IA sobre ellos?

Te armamos un PoC con tus datos reales en 1-2 semanas. Vas a ver calidad antes de invertir en producción.