Cómo ejecutar LLM locales en Fedora 44, 43 y 42 con Ollama usando solo CPU | Tutoriales Fedora

La inteligencia artificial local ya no es exclusiva de equipos con GPUs potentes. Hoy en día, es totalmente posible ejecutar LLM locales en Fedora utilizando únicamente CPU, gracias a herramientas como Ollama y modelos optimizados de bajo consumo como Gemma 3, Qwen 2.5 o Llama 3.2**.

Si buscas una solución privada, offline, rápida y totalmente integrada con Linux, esta guía te mostrará cómo convertir una máquina Fedora en un entorno capaz de ejecutar modelos de lenguaje modernos sin depender de servicios externos ni APIs de pago.

Además, aprenderás a:

Instalar Ollama correctamente en Fedora
Ejecutar modelos de IA locales usando CPU
Optimizar el rendimiento de inferencia
Utilizar la API compatible con OpenAI
Exponer Ollama en red local de forma segura
Resolver problemas comunes
Configurar un entorno eficiente para asistentes IA privados

Todo ello manteniendo una instalación limpia, estable y optimizada para sistemas Fedora 44, Fedora 43 y Fedora 42.

Saber Más..

¿Por qué ejecutar modelos LLM locales en Fedora?

La ejecución local de modelos de lenguaje se ha convertido en una de las tendencias más importantes dentro del mundo Linux y la inteligencia artificial. La principal ventaja es clara: la privacidad total.

Cuando ejecutas un LLM localmente:

Tus datos no salen del equipo
No dependes de APIs externas
No existen límites por uso
Puedes trabajar completamente offline
El control del sistema es absoluto

Con modelos modernos optimizados para CPU, incluso una máquina virtual Fedora con pocos recursos puede ofrecer una experiencia sorprendentemente fluida.

Por ejemplo, una VM Fedora 44 con:

2 vCPU
4 GB RAM

Puede alcanzar entre 12 y 25 tokens por segundo, suficiente para:

Asistentes de programación offline
Resumen de textos
Automatización mediante shell
Herramientas de productividad local
IA integrada en scripts y terminal

¿Cómo instalar Ollama en Fedora 44, 43 y 42?

El método oficial de instalación de Ollama es extremadamente sencillo y compatible con las versiones recientes de Fedora.

El instalador detecta automáticamente:

Arquitectura CPU
Compatibilidad del sistema
Tipo de librerías
Configuración adecuada de systemd

La instalación completa se realiza con un único comando:

curl -fsSL https://ollama.com/install.sh | sh

Una vez finalizado el proceso, Ollama:

Instala el binario en:

/usr/local/bin/ollama

Crea un usuario dedicado llamado:

ollama

Configura automáticamente un servicio systemd
Activa el daemon escuchando en:

127.0.0.1:11434

¿Cómo comprobar que Ollama funciona correctamente?

Después de instalar Ollama, es importante verificar tanto la versión como el estado del servicio.

Ejecuta:

ollama --version

Y después:

systemctl status ollama --no-pager | head -8

La salida correcta debería mostrar algo similar a:

Active: active (running)

Además del número de versión instalado.

El consumo inicial de memoria suele ser muy bajo, alrededor de:

40 MB - 50 MB RAM

hasta que se carga un modelo de lenguaje.

Los mejores modelos LLM para CPU en Fedora

Elegir un modelo adecuado es fundamental cuando se trabaja únicamente con CPU. La recomendación general es utilizar modelos entre:

1B y 3B parámetros
Cuantización Q4
Bajo consumo de RAM
Alta velocidad de inferencia

Los modelos más recomendados actualmente son:

Modelo	Tamaño	RAM Recomendada	Uso Ideal
gemma3:1b	815 MB	2 GB	Máxima velocidad
qwen2.5:1.5b	986 MB	2 GB	Programación y multilenguaje
llama3.2:3b	2 GB	4 GB	Mejor calidad de respuesta

Descargar modelos en Ollama

Puedes descargar modelos fácilmente usando ollama pull.

Ejemplo:

ollama pull qwen2.5:1.5b

También puedes descargar varios:

ollama pull gemma3:1b
ollama pull llama3.2:3b

Para listar todos los modelos instalados:

ollama list

Los modelos se almacenan localmente en:

/usr/share/ollama/.ollama/models/

¿Qué modelos evitar usando solo CPU?

Uno de los errores más comunes es intentar ejecutar modelos demasiado grandes en hardware limitado.

En CPU:

Evita modelos superiores a 4B
No uses modelos de 70B
No esperes rendimiento multiusuario
No utilices embeddings masivos

De lo contrario, la velocidad caerá a niveles inutilizables.

Benchmark real de rendimiento en Fedora 44

Si quieres medir el rendimiento real de inferencia puedes utilizar:

ollama run qwen2.5:1.5b --verbose

Ejemplo:

echo "Explica qué hace SELinux en una sola frase." | ollama run qwen2.5:1.5b --verbose

El parámetro --verbose muestra métricas clave como:

Tiempo de carga
Tokens generados
Velocidad de inferencia
Tiempo de evaluación

Resultados reales de rendimiento

Pruebas realizadas en:

Fedora 44
2 vCPU
4 GB RAM

Resultados:

Modelo	Tokens/s	Tiempo de carga	Resultado
Gemma 3 1B	25.52	2.3 s	El más rápido
Qwen 2.5 1.5B	23.23	0.1 s	Mejor equilibrio
Llama 3.2 3B	11.96	6.1 s	Mejor calidad

¿Cómo funciona la memoria caliente en Ollama?

Por defecto, Ollama mantiene los modelos cargados en RAM durante:

5 minutos

Esto significa que las siguientes consultas serán mucho más rápidas porque el modelo ya está en memoria.

La diferencia entre:

carga en frío
carga caliente

puede ser enorme en CPU.

¿Cómo usar la API HTTP de Ollama?

Ollama incluye:

API nativa
API compatible con OpenAI

Esto permite integrar fácilmente:

Editores
Scripts
IDEs
Automatizaciones
Aplicaciones propias

Llamada nativa a la API de Ollama

Ejemplo:

curl -s http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:1.5b",
  "messages": [{"role": "user", "content": "What is 2+2?"}],
  "stream": false
}'

La respuesta devuelve:

contenido generado
métricas
duración
conteo de tokens

API compatible con OpenAI

También puedes usar el endpoint:

/v1/chat/completions

Ejemplo:

curl -s http://localhost:11434/v1/chat/completions

Esto permite usar Ollama con:

Continue.dev
JetBrains AI
Neovim
Clientes OpenAI
Herramientas propias

Solo necesitas cambiar la URL base.

Exponer Ollama en la red local de forma segura

Por defecto, Ollama escucha únicamente en localhost.

Para habilitar acceso LAN:

sudo systemctl edit ollama.service

Añade:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"

Después:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Y abre el puerto:

sudo firewall-cmd --permanent --zone=trusted --add-port=11434/tcp
sudo firewall-cmd --reload

Nunca expongas Ollama directamente a Internet

Esto es extremadamente importante.

Ollama:

NO incluye autenticación
NO tiene control de acceso
NO está pensado para exposición pública

Si necesitas acceso remoto:

utiliza nginx
añade autenticación
usa VPN
implementa proxy inverso

Nunca abras directamente:

11434/tcp

a Internet.

Optimizar Ollama para inferencia en CPU

Existen varias variables de entorno recomendadas para mejorar el rendimiento.

Añade al override systemd:

[Service]
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=15m"

**¿Qué hace cada uno de estos parámetros?

`OLLAMA_NUM_PARALLEL=1`

Procesa una solicitud a la vez.

En CPU esto suele ser más rápido y estable.

`OLLAMA_MAX_LOADED_MODELS=1`

Mantiene un único modelo en RAM.

Ideal para equipos con poca memoria.

`OLLAMA_KEEP_ALIVE=15m`

Mantiene el modelo caliente durante 15 minutos.

Reduce muchísimo los tiempos de carga.

¿Cuándo NO usar LLM locales en CPU?

Aunque el rendimiento es sorprendentemente bueno, existen límites.

La CPU NO es ideal para:

Modelos gigantes
Procesamiento masivo
Multiusuario concurrente
Voz en tiempo real
Vídeo IA
Inferencia ultra rápida

Para esos casos necesitas:

GPU dedicada
CUDA
ROCm
Infraestructura especializada

Problemas comunes y soluciones en Ollama

Error DNS al descargar modelos

Error típico:

lookup registry.ollama.ai

Comprueba DNS:

nslookup registry.ollama.ai

Reinicios constantes del servicio

Normalmente ocurre por falta de espacio.

Verifica:

df -h /usr/share/ollama/

Respuesta lenta en cada ejecución

El modelo se descarga de memoria.

Solución:

OLLAMA_KEEP_ALIVE=15m

o hacer warmup:

echo "warmup" | ollama run qwen2.5:1.5b

Errores por memoria insuficiente

Si Llama 3.2 3B falla:

usa 4 GB RAM
cambia a Gemma 3
cambia a Qwen 2.5

Respuestas repetitivas o incoherentes

Ajusta temperatura y repetición:

"options": {
  "temperature": 0.3,
  "repeat_penalty": 1.1
}

Temperaturas bajas:

más precisión
menos creatividad

Temperaturas altas:

más creatividad
más aleatoriedad

Conclusión

La combinación de:

Fedora Linux
Ollama
Modelos LLM optimizados para CPU

Permite construir un entorno de inteligencia artificial completamente privado, rápido y gratuito.

Aunque no sustituye a modelos gigantes en tareas complejas, sí es una solución perfecta para:

productividad
asistentes personales
automatización
desarrollo
programación
IA offline

Además, gracias a:

systemd
API compatible con OpenAI
integración sencilla
bajo consumo

Fedora se convierte en una de las mejores plataformas Linux para ejecutar modelos LLM locales en CPU.

Vistas: 305

¿Cómo ejecutar LLM locales en Fedora 44, 43 y 42 con Ollama usando solo CPU?

¿Por qué ejecutar modelos LLM locales en Fedora?

¿Cómo instalar Ollama en Fedora 44, 43 y 42?

¿Cómo comprobar que Ollama funciona correctamente?

Los mejores modelos LLM para CPU en Fedora

Descargar modelos en Ollama

¿Qué modelos evitar usando solo CPU?

Benchmark real de rendimiento en Fedora 44

Resultados reales de rendimiento

¿Cómo funciona la memoria caliente en Ollama?

¿Cómo usar la API HTTP de Ollama?

Llamada nativa a la API de Ollama

API compatible con OpenAI

Exponer Ollama en la red local de forma segura

Nunca expongas Ollama directamente a Internet

Optimizar Ollama para inferencia en CPU

`OLLAMA_NUM_PARALLEL=1`

`OLLAMA_MAX_LOADED_MODELS=1`

`OLLAMA_KEEP_ALIVE=15m`

¿Cuándo NO usar LLM locales en CPU?

Problemas comunes y soluciones en Ollama

Error DNS al descargar modelos

Reinicios constantes del servicio

Respuesta lenta en cada ejecución

Errores por memoria insuficiente

Respuestas repetitivas o incoherentes

Conclusión

🚀 Tecnología, IA y Desarrollo

🎮 Hardware, Gaming y Cultura