La inteligencia artificial local ya no es exclusiva de equipos con GPUs potentes. Hoy en día, es totalmente posible ejecutar LLM locales en Fedora utilizando únicamente CPU, gracias a herramientas como Ollama y modelos optimizados de bajo consumo como Gemma 3, Qwen 2.5 o Llama 3.2**.
Si buscas una solución privada, offline, rápida y totalmente integrada con Linux, esta guía te mostrará cómo convertir una máquina Fedora en un entorno capaz de ejecutar modelos de lenguaje modernos sin depender de servicios externos ni APIs de pago.
Además, aprenderás a:
- Instalar Ollama correctamente en Fedora
- Ejecutar modelos de IA locales usando CPU
- Optimizar el rendimiento de inferencia
- Utilizar la API compatible con OpenAI
- Exponer Ollama en red local de forma segura
- Resolver problemas comunes
- Configurar un entorno eficiente para asistentes IA privados
Todo ello manteniendo una instalación limpia, estable y optimizada para sistemas Fedora 44, Fedora 43 y Fedora 42.
¿Por qué ejecutar modelos LLM locales en Fedora?
La ejecución local de modelos de lenguaje se ha convertido en una de las tendencias más importantes dentro del mundo Linux y la inteligencia artificial. La principal ventaja es clara: la privacidad total.
Cuando ejecutas un LLM localmente:
- Tus datos no salen del equipo
- No dependes de APIs externas
- No existen límites por uso
- Puedes trabajar completamente offline
- El control del sistema es absoluto
Con modelos modernos optimizados para CPU, incluso una máquina virtual Fedora con pocos recursos puede ofrecer una experiencia sorprendentemente fluida.
Por ejemplo, una VM Fedora 44 con:
- 2 vCPU
- 4 GB RAM
Puede alcanzar entre 12 y 25 tokens por segundo, suficiente para:
- Asistentes de programación offline
- Resumen de textos
- Automatización mediante shell
- Herramientas de productividad local
- IA integrada en scripts y terminal
¿Cómo instalar Ollama en Fedora 44, 43 y 42?
El método oficial de instalación de Ollama es extremadamente sencillo y compatible con las versiones recientes de Fedora.
El instalador detecta automáticamente:
- Arquitectura CPU
- Compatibilidad del sistema
- Tipo de librerías
- Configuración adecuada de systemd
La instalación completa se realiza con un único comando:
curl -fsSL https://ollama.com/install.sh | sh
Una vez finalizado el proceso, Ollama:
- Instala el binario en:
/usr/local/bin/ollama
- Crea un usuario dedicado llamado:
ollama
- Configura automáticamente un servicio systemd
- Activa el daemon escuchando en:
127.0.0.1:11434
¿Cómo comprobar que Ollama funciona correctamente?
Después de instalar Ollama, es importante verificar tanto la versión como el estado del servicio.
Ejecuta:
ollama --version
Y después:
systemctl status ollama --no-pager | head -8
La salida correcta debería mostrar algo similar a:
Active: active (running)
Además del número de versión instalado.
El consumo inicial de memoria suele ser muy bajo, alrededor de:
40 MB - 50 MB RAM
hasta que se carga un modelo de lenguaje.
Los mejores modelos LLM para CPU en Fedora
Elegir un modelo adecuado es fundamental cuando se trabaja únicamente con CPU. La recomendación general es utilizar modelos entre:
- 1B y 3B parámetros
- Cuantización Q4
- Bajo consumo de RAM
- Alta velocidad de inferencia
Los modelos más recomendados actualmente son:
| Modelo | Tamaño | RAM Recomendada | Uso Ideal |
|---|---|---|---|
| gemma3:1b | 815 MB | 2 GB | Máxima velocidad |
| qwen2.5:1.5b | 986 MB | 2 GB | Programación y multilenguaje |
| llama3.2:3b | 2 GB | 4 GB | Mejor calidad de respuesta |
Descargar modelos en Ollama
Puedes descargar modelos fácilmente usando ollama pull.
Ejemplo:
ollama pull qwen2.5:1.5b
También puedes descargar varios:
ollama pull gemma3:1b
ollama pull llama3.2:3b
Para listar todos los modelos instalados:
ollama list
Los modelos se almacenan localmente en:
/usr/share/ollama/.ollama/models/
¿Qué modelos evitar usando solo CPU?
Uno de los errores más comunes es intentar ejecutar modelos demasiado grandes en hardware limitado.
En CPU:
- Evita modelos superiores a 4B
- No uses modelos de 70B
- No esperes rendimiento multiusuario
- No utilices embeddings masivos
De lo contrario, la velocidad caerá a niveles inutilizables.
Benchmark real de rendimiento en Fedora 44
Si quieres medir el rendimiento real de inferencia puedes utilizar:
ollama run qwen2.5:1.5b --verbose
Ejemplo:
echo "Explica qué hace SELinux en una sola frase." | ollama run qwen2.5:1.5b --verbose
El parámetro --verbose muestra métricas clave como:
- Tiempo de carga
- Tokens generados
- Velocidad de inferencia
- Tiempo de evaluación
Resultados reales de rendimiento
Pruebas realizadas en:
- Fedora 44
- 2 vCPU
- 4 GB RAM
Resultados:
| Modelo | Tokens/s | Tiempo de carga | Resultado |
|---|---|---|---|
| Gemma 3 1B | 25.52 | 2.3 s | El más rápido |
| Qwen 2.5 1.5B | 23.23 | 0.1 s | Mejor equilibrio |
| Llama 3.2 3B | 11.96 | 6.1 s | Mejor calidad |
¿Cómo funciona la memoria caliente en Ollama?
Por defecto, Ollama mantiene los modelos cargados en RAM durante:
5 minutos
Esto significa que las siguientes consultas serán mucho más rápidas porque el modelo ya está en memoria.
La diferencia entre:
- carga en frío
- carga caliente
puede ser enorme en CPU.
¿Cómo usar la API HTTP de Ollama?
Ollama incluye:
- API nativa
- API compatible con OpenAI
Esto permite integrar fácilmente:
- Editores
- Scripts
- IDEs
- Automatizaciones
- Aplicaciones propias
Llamada nativa a la API de Ollama
Ejemplo:
curl -s http://localhost:11434/api/chat -d '{
"model": "qwen2.5:1.5b",
"messages": [{"role": "user", "content": "What is 2+2?"}],
"stream": false
}'
La respuesta devuelve:
- contenido generado
- métricas
- duración
- conteo de tokens
API compatible con OpenAI
También puedes usar el endpoint:
/v1/chat/completions
Ejemplo:
curl -s http://localhost:11434/v1/chat/completions
Esto permite usar Ollama con:
- Continue.dev
- JetBrains AI
- Neovim
- Clientes OpenAI
- Herramientas propias
Solo necesitas cambiar la URL base.
Exponer Ollama en la red local de forma segura
Por defecto, Ollama escucha únicamente en localhost.
Para habilitar acceso LAN:
sudo systemctl edit ollama.service
Añade:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"
Después:
sudo systemctl daemon-reload
sudo systemctl restart ollama
Y abre el puerto:
sudo firewall-cmd --permanent --zone=trusted --add-port=11434/tcp
sudo firewall-cmd --reload
Nunca expongas Ollama directamente a Internet
Esto es extremadamente importante.
Ollama:
- NO incluye autenticación
- NO tiene control de acceso
- NO está pensado para exposición pública
Si necesitas acceso remoto:
- utiliza nginx
- añade autenticación
- usa VPN
- implementa proxy inverso
Nunca abras directamente:
11434/tcp
a Internet.
Optimizar Ollama para inferencia en CPU
Existen varias variables de entorno recomendadas para mejorar el rendimiento.
Añade al override systemd:
[Service]
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=15m"
**¿Qué hace cada uno de estos parámetros?
OLLAMA_NUM_PARALLEL=1
Procesa una solicitud a la vez.
En CPU esto suele ser más rápido y estable.
OLLAMA_MAX_LOADED_MODELS=1
Mantiene un único modelo en RAM.
Ideal para equipos con poca memoria.
OLLAMA_KEEP_ALIVE=15m
Mantiene el modelo caliente durante 15 minutos.
Reduce muchísimo los tiempos de carga.
¿Cuándo NO usar LLM locales en CPU?
Aunque el rendimiento es sorprendentemente bueno, existen límites.
La CPU NO es ideal para:
- Modelos gigantes
- Procesamiento masivo
- Multiusuario concurrente
- Voz en tiempo real
- Vídeo IA
- Inferencia ultra rápida
Para esos casos necesitas:
- GPU dedicada
- CUDA
- ROCm
- Infraestructura especializada
Problemas comunes y soluciones en Ollama
Error DNS al descargar modelos
Error típico:
lookup registry.ollama.ai
Comprueba DNS:
nslookup registry.ollama.ai
Reinicios constantes del servicio
Normalmente ocurre por falta de espacio.
Verifica:
df -h /usr/share/ollama/
Respuesta lenta en cada ejecución
El modelo se descarga de memoria.
Solución:
OLLAMA_KEEP_ALIVE=15m
o hacer warmup:
echo "warmup" | ollama run qwen2.5:1.5b
Errores por memoria insuficiente
Si Llama 3.2 3B falla:
- usa 4 GB RAM
- cambia a Gemma 3
- cambia a Qwen 2.5
Respuestas repetitivas o incoherentes
Ajusta temperatura y repetición:
"options": {
"temperature": 0.3,
"repeat_penalty": 1.1
}
Temperaturas bajas:
- más precisión
- menos creatividad
Temperaturas altas:
- más creatividad
- más aleatoriedad
Conclusión
La combinación de:
- Fedora Linux
- Ollama
- Modelos LLM optimizados para CPU
Permite construir un entorno de inteligencia artificial completamente privado, rápido y gratuito.
Aunque no sustituye a modelos gigantes en tareas complejas, sí es una solución perfecta para:
- productividad
- asistentes personales
- automatización
- desarrollo
- programación
- IA offline
Además, gracias a:
- systemd
- API compatible con OpenAI
- integración sencilla
- bajo consumo
Fedora se convierte en una de las mejores plataformas Linux para ejecutar modelos LLM locales en CPU.
