Noesis
Blog

Cómo convertir documentos empresariales en conocimiento conversacional

26 June4 min read

Hace unos meses me encontré con una paradoja curiosa. Los modelos de lenguaje actuales son capaces de explicar conceptos complejos, escribir código e incluso ayudar a resolver problemas técnicos con una sorprendente precisión. Sin embargo, si les preguntas por un documento interno de una empresa, un manual privado o un protocolo específico, no saben absolutamente nada.

Y tiene sentido: ese conocimiento no forma parte de su entrenamiento. Pensé entonces en algo muy habitual en cualquier organización: una empresa acumula cientos de documentos.

  • Procedimientos
  • Contratos
  • Protocolos
  • Informes
  • Normativas
  • Manuales internos

Toda esa información existe, pero acceder a ella de forma rápida suele ser difícil. Me hice una pregunta:

¿Y si pudiésemos hablar con esos documentos como hablamos con una persona?

No buscando palabras clave. No navegando por carpetas. Simplemente preguntando: "¿Cuál es el procedimiento para X?" y obteniendo una respuesta clara, basada en la documentación interna. Ahí empezó el proyecto.

Diagrama de un sistema RAG que convierte documentos empresariales en respuestas con fuentes.
Un sistema RAG transforma documentos internos en una interfaz conversacional con recuperación, contexto y trazabilidad.

Qué es realmente un sistema RAG#

La forma más sencilla de entender un sistema RAG es imaginar una biblioteca.

Un modelo de lenguaje tradicional sería como una persona muy inteligente que responde únicamente desde su memoria. A veces acierta, a veces no, y además no puede acceder a información privada o específica de una empresa. Un sistema RAG funciona de otra forma.

Antes de responder, busca información relevante en una colección de documentos. Recupera los fragmentos más útiles y se los proporciona al modelo para que genere la respuesta.

Es decir: no responde solo desde su memoria. Responde apoyándose en evidencia. Y esto cambia completamente su utilidad en entornos empresariales.

Cómo construí el sistema#

El objetivo era claro: permitir que un usuario suba documentos PDF y pueda hacer preguntas sobre ellos en lenguaje natural.

El flujo del sistema fue el siguiente:

  1. Extracción del contenido de los PDFs
  2. División del texto en fragmentos o chunking
  3. Generación de embeddings para cada fragmento
  4. Almacenamiento en una base de datos vectorial
  5. Búsqueda semántica de los fragmentos relevantes
  6. Envío del contexto al modelo de lenguaje
  7. Generación de la respuesta con referencias a la fuente
Arquitectura del sistema
Documentos PDF
  |
  v
Extracción y limpieza
  |
  v
Chunking
  |
  v
Embeddings
  |
  v
Base de datos vectorial
  |
  v
Búsqueda semántica
  |
  v
LLM + contexto recuperado
  |
  v
Respuesta con fuentes citadas

Ejemplo práctico#

Supongamos que una empresa tiene varios documentos internos:

  • Manual de procedimientos
  • Política de devoluciones
  • Normativa interna

Un usuario puede preguntar:

¿Cuántos días de antelación se necesita para solicitar una devolución?

El sistema busca la información relevante en los documentos y responde:

Lo importante aquí no es solo la respuesta, sino la trazabilidad: poder verificar de dónde proviene la información.

Lo que aprendí durante el desarrollo#

Antes de construirlo pensaba que un sistema RAG era simplemente conectar herramientas. Pero en la práctica descubrí que el verdadero trabajo está en las decisiones de diseño:

  • El tamaño de los fragmentos afecta directamente a la calidad de la respuesta.
  • Fragmentos demasiado pequeños pierden contexto.
  • Fragmentos demasiado grandes introducen ruido.
  • La cantidad de información recuperada cambia la precisión del modelo.

En realidad, la calidad del sistema no depende solo del modelo, sino de cómo se estructura y recupera el conocimiento.

Una reflexión personal#

Durante mi formación como psicólogo aprendí algo que me parece relevante aquí: gran parte de la inteligencia humana no depende solo de almacenar información, sino de saber recuperarla en el momento adecuado.

Algo similar ocurre en las organizaciones. El conocimiento ya existe. El reto es hacerlo accesible. Y ahí es donde creo que sistemas como RAG empiezan a tener un papel importante: no sustituyen el conocimiento, lo hacen utilizable.

Conclusión#

La inteligencia artificial no es solo una herramienta para generar texto. También puede convertirse en una interfaz para el conocimiento de una organización.

Quizá el mayor cambio no sea tecnológico, sino conceptual: pasamos de buscar información a conversar con ella.

Noesis Footer Grid