RAG en local: pregúntale a tus propios documentos

Imagina que tienes cien PDFs de contratos, facturas y manuales guardados en el NAS. Necesitas saber si alguno de tus contratos incluye una cláusula de renovación automática. Con un modelo de IA estándar, tendrías que pegar el contenido de cada documento manualmente. Con RAG, le preguntas directamente y el modelo te dice en cuál está y qué dice exactamente.

RAG son las siglas de Retrieval-Augmented Generation — generación aumentada por recuperación. Es la técnica que permite que un modelo de lenguaje responda preguntas sobre documentos que no formaban parte de su entrenamiento, buscando primero en esos documentos y usando lo que encuentra como contexto para la respuesta.

La diferencia entre un modelo de IA y un modelo con RAG es la diferencia entre preguntarle a alguien que sabe mucho en general y preguntarle a alguien que acaba de leer exactamente los documentos que tú le has dado.

Cómo funciona RAG por dentro

El proceso tiene dos fases: indexación y consulta. Entenderlo ayuda a saber qué esperar y por qué a veces el modelo no encuentra algo que crees que debería encontrar.

Fase 1

Tus documentos se dividen en fragmentos y se convierten en vectores numéricos

→

Fase 2

Tu pregunta también se convierte en un vector y se buscan los fragmentos más similares

→

Fase 3
El modelo recibe tu pregunta + los fragmentos relevantes y genera la respuesta

Lo importante es que el modelo nunca "lee" todos tus documentos cada vez que preguntas algo — eso sería demasiado lento. Solo recibe los fragmentos más relevantes para tu pregunta concreta. Por eso a veces puede no encontrar algo si el fragmento relevante quedó mal dividido o si la pregunta está formulada de forma muy diferente a como aparece en el documento.

La opción más fácil: RAG directo en Open WebUI

Si ya tienes Open WebUI instalado del artículo anterior, tienes RAG básico sin instalar nada más. Open WebUI permite subir documentos directamente en el chat y hacer preguntas sobre ellos.

Sube un documento en el chat

En la interfaz de Open WebUI, junto al campo de texto hay un icono de clip. Haz clic, selecciona un PDF o archivo de texto, y Open WebUI lo indexa automáticamente. Puedes subir varios documentos a la vez.

Haz preguntas sobre el documento

Una vez subido, el modelo tiene acceso al contenido. Pregunta directamente: "¿Cuáles son las condiciones de renovación?" o "Resume las obligaciones del apartado 3". El modelo busca en el documento y responde citando la fuente.

Crea una colección para documentos recurrentes

En Open WebUI puedes crear colecciones — grupos de documentos que quedan indexados de forma permanente. Así no tienes que volver a subir los mismos archivos cada vez. Ve a Workspace → Knowledge y crea una colección con los documentos que consultas habitualmente.

Para un setup más serio: Anything LLM

Open WebUI cubre bien el caso de uso ocasional. Si quieres una solución dedicada con más control — carpetas vigiladas que se indexan automáticamente, múltiples bases de conocimiento, gestión de usuarios — Anything LLM es la opción más completa del ecosistema local.

Se instala con Docker y se conecta a Ollama exactamente igual que Open WebUI:

Instalar Anything LLM con Docker
docker run -d \
  -p 3001:3001 \
  -v anything-llm:/app/server/storage \
  --add-host=host.docker.internal:host-gateway \
  mintplexlabs/anythingllm

Abre http://IP-del-NAS:3001 y en la configuración inicial selecciona Ollama como proveedor de LLM — introduce la URL http://host.docker.internal:11434 y elige el modelo que quieras usar.

La función que cambia el día a día: carpetas vigiladas

Anything LLM puede vigilar una carpeta de tu NAS y reindexar automáticamente cuando añades o modificas archivos. Configúralo en Settings → Document Settings → Watched Folders y apunta a la carpeta de Nextcloud, a una carpeta de facturas o a donde tengas tus documentos. A partir de ese momento, cualquier archivo nuevo que caigas ahí queda disponible para consulta sin que tengas que hacer nada.

⚠️

Qué tipos de archivo funcionan bien

PDFs con texto seleccionable, archivos .txt, .md y .docx funcionan perfectamente. Los PDFs escaneados (imágenes dentro de un PDF) no se pueden indexar sin OCR previo — el modelo no puede "ver" las imágenes, solo leer texto. Si tienes documentos escaneados, necesitarás pasarlos por una herramienta de OCR antes de indexarlos.

Qué modelo usar para RAG

Para RAG el modelo más importante no es el LLM — es el modelo de embeddings, que es el que convierte los fragmentos de texto en vectores para la búsqueda. Open WebUI y Anything LLM usan por defecto modelos de embeddings propios que funcionan bien sin configuración adicional.

Para el LLM que genera las respuestas, los modelos que mejor funcionan en RAG con hardware modesto son los mismos que en uso general — llama3.1:8b o mistral:7b. La clave es que el modelo sea bueno siguiendo instrucciones, no que tenga un contexto enorme, porque los fragmentos relevantes ya llegan filtrados.

Casos de uso reales

Base de conocimiento personal. Todas tus notas de Obsidian o Notion exportadas como markdown, indexadas en una colección. Preguntas "¿qué decidí sobre X el año pasado?" y el modelo busca en tus propias notas.
Archivo de contratos. Todos tus contratos de trabajo, alquiler o servicios en una colección. Preguntas "¿cuándo vence mi contrato de suministro?" sin tener que abrirlos uno a uno.
Manuales técnicos. Los PDFs de tus dispositivos indexados. "¿Cómo reseteo el router al estado de fábrica?" y el modelo busca en el manual exacto del modelo que tienes.
Facturas y contabilidad. Facturas del año exportadas como PDF. "¿Cuánto gasté en material de oficina en el primer trimestre?" sin abrir ninguna hoja de cálculo.

El punto fuerte de RAG local no es que el modelo sea mejor que ChatGPT. Es que puede responder sobre información que ChatGPT nunca ha visto y que tú nunca querrías enviarle.

Lo esencial para empezar

Si ya tienes Open WebUI, tienes RAG básico — sube documentos en el chat y pregunta directamente.
Para un setup más serio, Anything LLM añade colecciones permanentes y carpetas vigiladas.
Anything LLM se instala con Docker y se conecta a Ollama en un par de minutos.
Los PDFs escaneados no funcionan sin OCR previo — solo los que tienen texto seleccionable.
Las carpetas vigiladas son la función más útil: indexación automática sin intervención manual.
Para el modelo, llama3.1:8b o mistral:7b dan buenos resultados en RAG con hardware modesto.