IA local con Ollama: primeros pasos sin tarjeta gráfica potente
La mayoría de guías de IA local asumen que tienes una RTX 4090. Esta no. Modelos pequeños, hardware normal, privacidad total — y funciona.
Imagina que llevas meses usando ChatGPT para redactar correos, resumir documentos o buscar ideas. Funciona bien, pero en algún momento te das cuenta de que todo lo que escribes — cada pregunta, cada borrador, cada dato interno de tu empresa — pasa por los servidores de OpenAI. Y no tienes ningún control sobre qué hacen con eso.
La alternativa obvia es montar tu propio modelo. Pero la mayoría de tutoriales te llevan directamente a hablar de GPUs de 24 GB de VRAM y configuraciones que cuestan más de 2.000 €. Si no tienes ese hardware, da la sensación de que la IA local no es para ti.
No es verdad. Con Ollama y modelos pequeños puedes tener un asistente de IA funcionando en tu NAS o en cualquier ordenador moderno, sin tarjeta gráfica dedicada, con resultados suficientemente buenos para el uso diario.
La diferencia entre un modelo de 70B parámetros y uno de 7B no es que uno sea inútil y el otro no. Es que uno necesita hardware de servidor y el otro funciona en el ordenador que ya tienes.
Qué es Ollama y por qué es el punto de entrada más fácil
Ollama es una aplicación que gestiona modelos de lenguaje locales. Piensa en ella como el Docker de los LLMs: descarga modelos, los ejecuta en segundo plano y los expone a través de una API estándar. Una vez instalado, añadir un modelo nuevo es tan simple como ollama pull nombre-del-modelo.
Lo que hace especial a Ollama frente a otras soluciones es que funciona bien en CPU. La mayoría de frameworks de IA local están optimizados para GPU y en CPU van lentos o directamente no funcionan. Ollama usa llama.cpp por debajo, que está específicamente optimizado para inferencia en CPU y aprovecha bien la memoria RAM.
Con una GPU potente, los modelos responden en décimas de segundo. Con CPU, los modelos pequeños (3B-8B parámetros) responden a una velocidad razonable para uso conversacional — entre 5 y 20 tokens por segundo dependiendo del hardware. No es instantáneo, pero es perfectamente usable.
Qué hardware necesitas realmente
La variable que más importa para Ollama en CPU no es el procesador — es la RAM. Los modelos se cargan enteros en memoria y si no caben, el sistema empieza a usar disco como swap, lo que lo hace inutilizable.
| RAM disponible | Modelo recomendado | Parámetros | Velocidad aprox. (CPU) | Para qué sirve bien |
|---|---|---|---|---|
| 4 GB | llama3.2:3b | 3B | ~5 tok/s | Resúmenes cortos, preguntas simples |
| 8 GB | llama3.1:8b | 8B | ~10 tok/s | Uso general, redacción, código básico |
| 16 GB | mistral:7b / gemma2:9b | 7–9B | ~15 tok/s | Uso diario completo, análisis de documentos |
| 32 GB+ | llama3.1:70b (quantizado) | 70B Q4 | ~3 tok/s | Tareas complejas, razonamiento, código avanzado |
Para el NAS, el escenario más realista es 8–16 GB de RAM con un modelo de 7–8B parámetros. No vas a tener la misma capacidad que GPT-4, pero para resumir documentos, responder preguntas sobre tu propia información o redactar textos, funciona perfectamente.
Instalar Ollama y levantar tu primer modelo
curl -fsSL https://ollama.com/install.sh | sh
ollama/ollama.
# Modelo ligero (recomendado para probar)
ollama pull llama3.2:3b
# Modelo para uso diario (necesita ~8 GB RAM)
ollama pull llama3.1:8b
ollama run llama3.1:8b
/bye.
docker run -d \
-p 3000:8080 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
ghcr.io/open-webui/open-webui:main
http://localhost:3000 y ya tienes una interfaz completa que se conecta a Ollama automáticamente.
Qué modelos merece la pena probar
Hay decenas de modelos disponibles en Ollama. Para uso general en hardware modesto, estos son los que mejor funcionan:
- llama3.1:8b — El más equilibrado para uso diario. Meta lo entrena bien y es el que mejores resultados da en español a este tamaño.
- mistral:7b — Muy bueno para seguir instrucciones precisas y redacción estructurada. Algo mejor que Llama en tareas de formato.
- gemma2:9b — El modelo de Google, sorprendentemente bueno para razonamiento y análisis. Necesita un poco más de RAM.
- qwen2.5:7b — Destaca en código y en idiomas distintos al inglés. Si escribes mucho en español, vale la pena probarlo.
- phi3.5:3.8b — El más ligero con buena calidad. Para hardware con 4–6 GB de RAM disponibles, es la mejor opción.
Una nota sobre el español
Todos estos modelos entienden y responden en español, pero están entrenados principalmente en inglés. Si necesitas que el modelo responda siempre en español, díselo explícitamente en el primer mensaje o configura un system prompt. Sin esa instrucción, algunos tienden a cambiar al inglés en respuestas largas.
Para qué sirve y para qué no
Con un modelo de 7–8B en CPU, estas tareas funcionan bien en el uso diario:
- Resumir documentos largos (pega el texto y pide un resumen)
- Redactar y mejorar textos en español
- Responder preguntas sobre documentos propios
- Generar código en Python, JavaScript o bash para tareas simples
- Explicar conceptos técnicos con tus propias palabras
Donde un modelo pequeño en CPU no llega:
- Razonamiento matemático complejo
- Código en proyectos grandes con muchos archivos de contexto
- Respuestas que requieren conocimiento muy actualizado (el modelo no tiene acceso a internet)
- Tareas donde la velocidad es crítica — si necesitas respuestas en décimas de segundo, necesitas GPU
La pregunta no es si un modelo local es tan bueno como GPT-4. La pregunta es si es suficientemente bueno para lo que tú necesitas, con la ventaja de que ninguna de tus conversaciones sale de tu red.
El siguiente paso: conectar Ollama con tus documentos
Ollama por sí solo responde con el conocimiento que tiene del entrenamiento. Pero hay una técnica llamada RAG (Retrieval-Augmented Generation) que permite que el modelo responda preguntas sobre tus propios documentos — PDFs, notas, bases de conocimiento internas.
Con Open WebUI puedes subir documentos directamente y hacer preguntas sobre ellos sin configuración adicional. Para setups más avanzados, herramientas como Anything LLM o n8n permiten construir flujos completos donde el modelo accede a carpetas de tu NAS en tiempo real.
Pero eso ya es otro artículo.
Lo esencial para empezar
- Con 8 GB de RAM ya tienes suficiente para un modelo útil en el día a día.
- Instala Ollama con el script oficial — un comando y listo en Linux.
- Empieza con llama3.1:8b. Es el mejor equilibrio entre calidad y requisitos de hardware.
- Añade Open WebUI para tener una interfaz cómoda sin tocar más configuración.
- Dile explícitamente que responda en español si lo necesitas — no lo hace siempre por defecto.
- Para documentos propios, Open WebUI ya incluye RAG básico sin instalar nada más.