Imagina que llevas meses usando ChatGPT para redactar correos, resumir documentos o buscar ideas. Funciona bien, pero en algún momento te das cuenta de que todo lo que escribes — cada pregunta, cada borrador, cada dato interno de tu empresa — pasa por los servidores de OpenAI. Y no tienes ningún control sobre qué hacen con eso.

La alternativa obvia es montar tu propio modelo. Pero la mayoría de tutoriales te llevan directamente a hablar de GPUs de 24 GB de VRAM y configuraciones que cuestan más de 2.000 €. Si no tienes ese hardware, da la sensación de que la IA local no es para ti.

No es verdad. Con Ollama y modelos pequeños puedes tener un asistente de IA funcionando en tu NAS o en cualquier ordenador moderno, sin tarjeta gráfica dedicada, con resultados suficientemente buenos para el uso diario.

La diferencia entre un modelo de 70B parámetros y uno de 7B no es que uno sea inútil y el otro no. Es que uno necesita hardware de servidor y el otro funciona en el ordenador que ya tienes.

Qué es Ollama y por qué es el punto de entrada más fácil

Ollama es una aplicación que gestiona modelos de lenguaje locales. Piensa en ella como el Docker de los LLMs: descarga modelos, los ejecuta en segundo plano y los expone a través de una API estándar. Una vez instalado, añadir un modelo nuevo es tan simple como ollama pull nombre-del-modelo.

Lo que hace especial a Ollama frente a otras soluciones es que funciona bien en CPU. La mayoría de frameworks de IA local están optimizados para GPU y en CPU van lentos o directamente no funcionan. Ollama usa llama.cpp por debajo, que está específicamente optimizado para inferencia en CPU y aprovecha bien la memoria RAM.

💡
CPU vs GPU para modelos pequeños

Con una GPU potente, los modelos responden en décimas de segundo. Con CPU, los modelos pequeños (3B-8B parámetros) responden a una velocidad razonable para uso conversacional — entre 5 y 20 tokens por segundo dependiendo del hardware. No es instantáneo, pero es perfectamente usable.

Qué hardware necesitas realmente

La variable que más importa para Ollama en CPU no es el procesador — es la RAM. Los modelos se cargan enteros en memoria y si no caben, el sistema empieza a usar disco como swap, lo que lo hace inutilizable.

RAM disponible Modelo recomendado Parámetros Velocidad aprox. (CPU) Para qué sirve bien
4 GB llama3.2:3b 3B ~5 tok/s Resúmenes cortos, preguntas simples
8 GB llama3.1:8b 8B ~10 tok/s Uso general, redacción, código básico
16 GB mistral:7b / gemma2:9b 7–9B ~15 tok/s Uso diario completo, análisis de documentos
32 GB+ llama3.1:70b (quantizado) 70B Q4 ~3 tok/s Tareas complejas, razonamiento, código avanzado

Para el NAS, el escenario más realista es 8–16 GB de RAM con un modelo de 7–8B parámetros. No vas a tener la misma capacidad que GPT-4, pero para resumir documentos, responder preguntas sobre tu propia información o redactar textos, funciona perfectamente.

Instalar Ollama y levantar tu primer modelo

01
Instala Ollama
En Linux (incluido el sistema de tu NAS si tiene acceso SSH), un solo comando lo instala todo:
curl -fsSL https://ollama.com/install.sh | sh
En Mac y Windows hay instalador gráfico en ollama.com. En Synology con Docker, usa la imagen oficial ollama/ollama.
02
Descarga tu primer modelo
Para empezar, llama3.2 de 3B es el más ligero y rápido. Si tienes 8 GB o más, llama3.1:8b da resultados notablemente mejores:
# Modelo ligero (recomendado para probar) ollama pull llama3.2:3b # Modelo para uso diario (necesita ~8 GB RAM) ollama pull llama3.1:8b
La descarga tarda varios minutos — llama3.1:8b pesa unos 4,7 GB.
03
Habla con él desde el terminal
Una vez descargado, arranca una sesión de chat directamente:
ollama run llama3.1:8b
Escribe tu pregunta y pulsa Enter. Para salir, /bye.
04
Añade una interfaz visual con Open WebUI
El terminal funciona, pero para uso diario es más cómodo tener una interfaz web similar a ChatGPT. Open WebUI es la opción más usada y se instala con Docker:
docker run -d \ -p 3000:8080 \ -v open-webui:/app/backend/data \ --add-host=host.docker.internal:host-gateway \ ghcr.io/open-webui/open-webui:main
Después abre http://localhost:3000 y ya tienes una interfaz completa que se conecta a Ollama automáticamente.

Qué modelos merece la pena probar

Hay decenas de modelos disponibles en Ollama. Para uso general en hardware modesto, estos son los que mejor funcionan:

  • llama3.1:8b — El más equilibrado para uso diario. Meta lo entrena bien y es el que mejores resultados da en español a este tamaño.
  • mistral:7b — Muy bueno para seguir instrucciones precisas y redacción estructurada. Algo mejor que Llama en tareas de formato.
  • gemma2:9b — El modelo de Google, sorprendentemente bueno para razonamiento y análisis. Necesita un poco más de RAM.
  • qwen2.5:7b — Destaca en código y en idiomas distintos al inglés. Si escribes mucho en español, vale la pena probarlo.
  • phi3.5:3.8b — El más ligero con buena calidad. Para hardware con 4–6 GB de RAM disponibles, es la mejor opción.

Una nota sobre el español

Todos estos modelos entienden y responden en español, pero están entrenados principalmente en inglés. Si necesitas que el modelo responda siempre en español, díselo explícitamente en el primer mensaje o configura un system prompt. Sin esa instrucción, algunos tienden a cambiar al inglés en respuestas largas.

Para qué sirve y para qué no

Con un modelo de 7–8B en CPU, estas tareas funcionan bien en el uso diario:

  • Resumir documentos largos (pega el texto y pide un resumen)
  • Redactar y mejorar textos en español
  • Responder preguntas sobre documentos propios
  • Generar código en Python, JavaScript o bash para tareas simples
  • Explicar conceptos técnicos con tus propias palabras

Donde un modelo pequeño en CPU no llega:

  • Razonamiento matemático complejo
  • Código en proyectos grandes con muchos archivos de contexto
  • Respuestas que requieren conocimiento muy actualizado (el modelo no tiene acceso a internet)
  • Tareas donde la velocidad es crítica — si necesitas respuestas en décimas de segundo, necesitas GPU

La pregunta no es si un modelo local es tan bueno como GPT-4. La pregunta es si es suficientemente bueno para lo que tú necesitas, con la ventaja de que ninguna de tus conversaciones sale de tu red.

El siguiente paso: conectar Ollama con tus propios documentos

Ollama por sí solo responde con el conocimiento que tiene del entrenamiento. Pero hay una técnica llamada RAG (Retrieval-Augmented Generation) que permite que el modelo responda preguntas sobre tus propios documentos — PDFs, notas, bases de conocimiento internas.

Con Open WebUI puedes subir documentos directamente y hacer preguntas sobre ellos sin configuración adicional. Para setups más avanzados, herramientas como Anything LLM o n8n permiten construir flujos completos donde el modelo accede a carpetas de tu NAS en tiempo real.

Pero eso ya es otro artículo.

Lo esencial para empezar

  • Con 8 GB de RAM ya tienes suficiente para un modelo útil en el día a día.
  • Instala Ollama con el script oficial — un comando y listo en Linux.
  • Empieza con llama3.1:8b. Es el mejor equilibrio entre calidad y requisitos de hardware.
  • Añade Open WebUI para tener una interfaz cómoda sin tocar más configuración.
  • Dile explícitamente que responda en español si lo necesitas — no lo hace siempre por defecto.
  • Para documentos propios, Open WebUI ya incluye RAG básico sin instalar nada más.