Art3

Imagina que llevas meses usando ChatGPT para redactar correos, resumir documentos o buscar ideas. Funciona bien, pero en algún momento te das cuenta de que todo lo que escribes — cada pregunta, cada borrador, cada dato interno de tu empresa — pasa por los servidores de OpenAI. Y no tienes ningún control sobre qué hacen con eso.

La alternativa obvia es montar tu propio modelo. Pero la mayoría de tutoriales te llevan directamente a hablar de GPUs de 24 GB de VRAM y configuraciones que cuestan más de 2.000 €. Si no tienes ese hardware, da la sensación de que la IA local no es para ti.

No es verdad. Con Ollama y modelos pequeños puedes tener un asistente de IA funcionando en tu NAS o en cualquier ordenador moderno, sin tarjeta gráfica dedicada, con resultados suficientemente buenos para el uso diario.

La diferencia entre un modelo de 70B parámetros y uno de 7B no es que uno sea inútil y el otro no. Es que uno necesita hardware de servidor y el otro funciona en el ordenador que ya tienes.

Qué es Ollama y por qué es el punto de entrada más fácil

Ollama es una aplicación que gestiona modelos de lenguaje locales. Piensa en ella como el Docker de los LLMs: descarga modelos, los ejecuta en segundo plano y los expone a través de una API estándar. Una vez instalado, añadir un modelo nuevo es tan simple como ollama pull nombre-del-modelo.

Lo que hace especial a Ollama frente a otras soluciones es que funciona bien en CPU. La mayoría de frameworks de IA local están optimizados para GPU y en CPU van lentos o directamente no funcionan. Ollama usa llama.cpp por debajo, que está específicamente optimizado para inferencia en CPU y aprovecha bien la memoria RAM.

💡

CPU vs GPU para modelos pequeños

Con una GPU potente, los modelos responden en décimas de segundo. Con CPU, los modelos pequeños (3B-8B parámetros) responden a una velocidad razonable para uso conversacional — entre 5 y 20 tokens por segundo dependiendo del hardware. No es instantáneo, pero es perfectamente usable.

Qué hardware necesitas realmente

La variable que más importa para Ollama en CPU no es el procesador — es la RAM. Los modelos se cargan enteros en memoria y si no caben, el sistema empieza a usar disco como swap, lo que lo hace inutilizable.

RAM disponible	Modelo recomendado	Parámetros	Velocidad aprox. (CPU)	Para qué sirve bien
4 GB	llama3.2:3b	3B	~5 tok/s	Resúmenes cortos, preguntas simples
8 GB	llama3.1:8b	8B	~10 tok/s	Uso general, redacción, código básico
16 GB	mistral:7b / gemma2:9b	7–9B	~15 tok/s	Uso diario completo, análisis de documentos
32 GB+	llama3.1:70b (quantizado)	70B Q4	~3 tok/s	Tareas complejas, razonamiento, código avanzado

Para el NAS, el escenario más realista es 8–16 GB de RAM con un modelo de 7–8B parámetros. No vas a tener la misma capacidad que GPT-4, pero para resumir documentos, responder preguntas sobre tu propia información o redactar textos, funciona perfectamente.

Instalar Ollama y levantar tu primer modelo

Instala Ollama

En Linux (incluido el sistema de tu NAS si tiene acceso SSH), un solo comando lo instala todo:

curl -fsSL https://ollama.com/install.sh | sh

En Mac y Windows hay instalador gráfico en ollama.com. En Synology con Docker, usa la imagen oficial ollama/ollama.

Descarga tu primer modelo

Para empezar, llama3.2 de 3B es el más ligero y rápido. Si tienes 8 GB o más, llama3.1:8b da resultados notablemente mejores:

              # Modelo ligero (recomendado para probar)
ollama pull llama3.2:3b

# Modelo para uso diario (necesita ~8 GB RAM)
ollama pull llama3.1:8b
            

La descarga tarda varios minutos — llama3.1:8b pesa unos 4,7 GB.

Habla con él desde el terminal

Una vez descargado, arranca una sesión de chat directamente:

ollama run llama3.1:8b

Escribe tu pregunta y pulsa Enter. Para salir, /bye.

Añade una interfaz visual con Open WebUI

El terminal funciona, pero para uso diario es más cómodo tener una interfaz web similar a ChatGPT. Open WebUI es la opción más usada y se instala con Docker:

              docker run -d \
  -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  ghcr.io/open-webui/open-webui:main
            

Después abre http://localhost:3000 y ya tienes una interfaz completa que se conecta a Ollama automáticamente.

Qué modelos merece la pena probar

Hay decenas de modelos disponibles en Ollama. Para uso general en hardware modesto, estos son los que mejor funcionan:

llama3.1:8b — El más equilibrado para uso diario. Meta lo entrena bien y es el que mejores resultados da en español a este tamaño.
mistral:7b — Muy bueno para seguir instrucciones precisas y redacción estructurada. Algo mejor que Llama en tareas de formato.
gemma2:9b — El modelo de Google, sorprendentemente bueno para razonamiento y análisis. Necesita un poco más de RAM.
qwen2.5:7b — Destaca en código y en idiomas distintos al inglés. Si escribes mucho en español, vale la pena probarlo.
phi3.5:3.8b — El más ligero con buena calidad. Para hardware con 4–6 GB de RAM disponibles, es la mejor opción.

Una nota sobre el español

Todos estos modelos entienden y responden en español, pero están entrenados principalmente en inglés. Si necesitas que el modelo responda siempre en español, díselo explícitamente en el primer mensaje o configura un system prompt. Sin esa instrucción, algunos tienden a cambiar al inglés en respuestas largas.

Para qué sirve y para qué no

Con un modelo de 7–8B en CPU, estas tareas funcionan bien en el uso diario:

Resumir documentos largos (pega el texto y pide un resumen)
Redactar y mejorar textos en español
Responder preguntas sobre documentos propios
Generar código en Python, JavaScript o bash para tareas simples
Explicar conceptos técnicos con tus propias palabras

Donde un modelo pequeño en CPU no llega:

Razonamiento matemático complejo
Código en proyectos grandes con muchos archivos de contexto
Respuestas que requieren conocimiento muy actualizado (el modelo no tiene acceso a internet)
Tareas donde la velocidad es crítica — si necesitas respuestas en décimas de segundo, necesitas GPU

La pregunta no es si un modelo local es tan bueno como GPT-4. La pregunta es si es suficientemente bueno para lo que tú necesitas, con la ventaja de que ninguna de tus conversaciones sale de tu red.

El siguiente paso: conectar Ollama con tus propios documentos

Ollama por sí solo responde con el conocimiento que tiene del entrenamiento. Pero hay una técnica llamada RAG (Retrieval-Augmented Generation) que permite que el modelo responda preguntas sobre tus propios documentos — PDFs, notas, bases de conocimiento internas.

Con Open WebUI puedes subir documentos directamente y hacer preguntas sobre ellos sin configuración adicional. Para setups más avanzados, herramientas como Anything LLM o n8n permiten construir flujos completos donde el modelo accede a carpetas de tu NAS en tiempo real.

Pero eso ya es otro artículo.

Lo esencial para empezar

Con 8 GB de RAM ya tienes suficiente para un modelo útil en el día a día.
Instala Ollama con el script oficial — un comando y listo en Linux.
Empieza con llama3.1:8b. Es el mejor equilibrio entre calidad y requisitos de hardware.
Añade Open WebUI para tener una interfaz cómoda sin tocar más configuración.
Dile explícitamente que responda en español si lo necesitas — no lo hace siempre por defecto.
Para documentos propios, Open WebUI ya incluye RAG básico sin instalar nada más.