¿Cómo ejecutar LLM locales en Fedora 44, 43 y 42 con Ollama usando solo CPU?

Tutoriales Fedora en CIBERED

La inteligencia artificial local ya no es exclusiva de equipos con GPUs potentes. Hoy en día, es totalmente posible ejecutar LLM locales en Fedora utilizando únicamente CPU, gracias a herramientas como Ollama y modelos optimizados de bajo consumo como Gemma 3, Qwen 2.5 o Llama 3.2**.

Si buscas una solución privada, offline, rápida y totalmente integrada con Linux, esta guía te mostrará cómo convertir una máquina Fedora en un entorno capaz de ejecutar modelos de lenguaje modernos sin depender de servicios externos ni APIs de pago.

Además, aprenderás a:

  • Instalar Ollama correctamente en Fedora
  • Ejecutar modelos de IA locales usando CPU
  • Optimizar el rendimiento de inferencia
  • Utilizar la API compatible con OpenAI
  • Exponer Ollama en red local de forma segura
  • Resolver problemas comunes
  • Configurar un entorno eficiente para asistentes IA privados

Todo ello manteniendo una instalación limpia, estable y optimizada para sistemas Fedora 44, Fedora 43 y Fedora 42.

¿Por qué ejecutar modelos LLM locales en Fedora?

La ejecución local de modelos de lenguaje se ha convertido en una de las tendencias más importantes dentro del mundo Linux y la inteligencia artificial. La principal ventaja es clara: la privacidad total.

Cuando ejecutas un LLM localmente:

  • Tus datos no salen del equipo
  • No dependes de APIs externas
  • No existen límites por uso
  • Puedes trabajar completamente offline
  • El control del sistema es absoluto

Con modelos modernos optimizados para CPU, incluso una máquina virtual Fedora con pocos recursos puede ofrecer una experiencia sorprendentemente fluida.

Por ejemplo, una VM Fedora 44 con:

  • 2 vCPU
  • 4 GB RAM

Puede alcanzar entre 12 y 25 tokens por segundo, suficiente para:

  • Asistentes de programación offline
  • Resumen de textos
  • Automatización mediante shell
  • Herramientas de productividad local
  • IA integrada en scripts y terminal

¿Cómo instalar Ollama en Fedora 44, 43 y 42?

El método oficial de instalación de Ollama es extremadamente sencillo y compatible con las versiones recientes de Fedora.

El instalador detecta automáticamente:

  • Arquitectura CPU
  • Compatibilidad del sistema
  • Tipo de librerías
  • Configuración adecuada de systemd

La instalación completa se realiza con un único comando:

curl -fsSL https://ollama.com/install.sh | sh

Una vez finalizado el proceso, Ollama:

  • Instala el binario en:
/usr/local/bin/ollama
  • Crea un usuario dedicado llamado:
ollama
  • Configura automáticamente un servicio systemd
  • Activa el daemon escuchando en:
127.0.0.1:11434

¿Cómo comprobar que Ollama funciona correctamente?

Después de instalar Ollama, es importante verificar tanto la versión como el estado del servicio.

Ejecuta:

ollama --version

Y después:

systemctl status ollama --no-pager | head -8

La salida correcta debería mostrar algo similar a:

Active: active (running)

Además del número de versión instalado.

El consumo inicial de memoria suele ser muy bajo, alrededor de:

40 MB - 50 MB RAM

hasta que se carga un modelo de lenguaje.

Los mejores modelos LLM para CPU en Fedora

Elegir un modelo adecuado es fundamental cuando se trabaja únicamente con CPU. La recomendación general es utilizar modelos entre:

  • 1B y 3B parámetros
  • Cuantización Q4
  • Bajo consumo de RAM
  • Alta velocidad de inferencia

Los modelos más recomendados actualmente son:

ModeloTamañoRAM RecomendadaUso Ideal
gemma3:1b815 MB2 GBMáxima velocidad
qwen2.5:1.5b986 MB2 GBProgramación y multilenguaje
llama3.2:3b2 GB4 GBMejor calidad de respuesta

Descargar modelos en Ollama

Puedes descargar modelos fácilmente usando ollama pull.

Ejemplo:

ollama pull qwen2.5:1.5b

También puedes descargar varios:

ollama pull gemma3:1b
ollama pull llama3.2:3b

Para listar todos los modelos instalados:

ollama list

Los modelos se almacenan localmente en:

/usr/share/ollama/.ollama/models/

¿Qué modelos evitar usando solo CPU?

Uno de los errores más comunes es intentar ejecutar modelos demasiado grandes en hardware limitado.

En CPU:

  • Evita modelos superiores a 4B
  • No uses modelos de 70B
  • No esperes rendimiento multiusuario
  • No utilices embeddings masivos

De lo contrario, la velocidad caerá a niveles inutilizables.

Benchmark real de rendimiento en Fedora 44

Si quieres medir el rendimiento real de inferencia puedes utilizar:

ollama run qwen2.5:1.5b --verbose

Ejemplo:

echo "Explica qué hace SELinux en una sola frase." | ollama run qwen2.5:1.5b --verbose

El parámetro --verbose muestra métricas clave como:

  • Tiempo de carga
  • Tokens generados
  • Velocidad de inferencia
  • Tiempo de evaluación

Resultados reales de rendimiento

Pruebas realizadas en:

  • Fedora 44
  • 2 vCPU
  • 4 GB RAM

Resultados:

ModeloTokens/sTiempo de cargaResultado
Gemma 3 1B25.522.3 sEl más rápido
Qwen 2.5 1.5B23.230.1 sMejor equilibrio
Llama 3.2 3B11.966.1 sMejor calidad

¿Cómo funciona la memoria caliente en Ollama?

Por defecto, Ollama mantiene los modelos cargados en RAM durante:

5 minutos

Esto significa que las siguientes consultas serán mucho más rápidas porque el modelo ya está en memoria.

La diferencia entre:

  • carga en frío
  • carga caliente

puede ser enorme en CPU.

¿Cómo usar la API HTTP de Ollama?

Ollama incluye:

  • API nativa
  • API compatible con OpenAI

Esto permite integrar fácilmente:

  • Editores
  • Scripts
  • IDEs
  • Automatizaciones
  • Aplicaciones propias

Llamada nativa a la API de Ollama

Ejemplo:

curl -s http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:1.5b",
  "messages": [{"role": "user", "content": "What is 2+2?"}],
  "stream": false
}'

La respuesta devuelve:

  • contenido generado
  • métricas
  • duración
  • conteo de tokens

API compatible con OpenAI

También puedes usar el endpoint:

/v1/chat/completions

Ejemplo:

curl -s http://localhost:11434/v1/chat/completions

Esto permite usar Ollama con:

  • Continue.dev
  • JetBrains AI
  • Neovim
  • Clientes OpenAI
  • Herramientas propias

Solo necesitas cambiar la URL base.

Exponer Ollama en la red local de forma segura

Por defecto, Ollama escucha únicamente en localhost.

Para habilitar acceso LAN:

sudo systemctl edit ollama.service

Añade:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_ORIGINS=*"

Después:

sudo systemctl daemon-reload
sudo systemctl restart ollama

Y abre el puerto:

sudo firewall-cmd --permanent --zone=trusted --add-port=11434/tcp
sudo firewall-cmd --reload

Nunca expongas Ollama directamente a Internet

Esto es extremadamente importante.

Ollama:

  • NO incluye autenticación
  • NO tiene control de acceso
  • NO está pensado para exposición pública

Si necesitas acceso remoto:

  • utiliza nginx
  • añade autenticación
  • usa VPN
  • implementa proxy inverso

Nunca abras directamente:

11434/tcp

a Internet.


Optimizar Ollama para inferencia en CPU

Existen varias variables de entorno recomendadas para mejorar el rendimiento.

Añade al override systemd:

[Service]
Environment="OLLAMA_NUM_PARALLEL=1"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=15m"

**¿Qué hace cada uno de estos parámetros?

OLLAMA_NUM_PARALLEL=1

Procesa una solicitud a la vez.

En CPU esto suele ser más rápido y estable.

OLLAMA_MAX_LOADED_MODELS=1

Mantiene un único modelo en RAM.

Ideal para equipos con poca memoria.

OLLAMA_KEEP_ALIVE=15m

Mantiene el modelo caliente durante 15 minutos.

Reduce muchísimo los tiempos de carga.


¿Cuándo NO usar LLM locales en CPU?

Aunque el rendimiento es sorprendentemente bueno, existen límites.

La CPU NO es ideal para:

  • Modelos gigantes
  • Procesamiento masivo
  • Multiusuario concurrente
  • Voz en tiempo real
  • Vídeo IA
  • Inferencia ultra rápida

Para esos casos necesitas:

  • GPU dedicada
  • CUDA
  • ROCm
  • Infraestructura especializada

Problemas comunes y soluciones en Ollama

Error DNS al descargar modelos

Error típico:

lookup registry.ollama.ai

Comprueba DNS:

nslookup registry.ollama.ai

Reinicios constantes del servicio

Normalmente ocurre por falta de espacio.

Verifica:

df -h /usr/share/ollama/

Respuesta lenta en cada ejecución

El modelo se descarga de memoria.

Solución:

OLLAMA_KEEP_ALIVE=15m

o hacer warmup:

echo "warmup" | ollama run qwen2.5:1.5b

Errores por memoria insuficiente

Si Llama 3.2 3B falla:

  • usa 4 GB RAM
  • cambia a Gemma 3
  • cambia a Qwen 2.5

Respuestas repetitivas o incoherentes

Ajusta temperatura y repetición:

"options": {
  "temperature": 0.3,
  "repeat_penalty": 1.1
}

Temperaturas bajas:

  • más precisión
  • menos creatividad

Temperaturas altas:

  • más creatividad
  • más aleatoriedad

Conclusión

La combinación de:

  • Fedora Linux
  • Ollama
  • Modelos LLM optimizados para CPU

Permite construir un entorno de inteligencia artificial completamente privado, rápido y gratuito.

Aunque no sustituye a modelos gigantes en tareas complejas, sí es una solución perfecta para:

  • productividad
  • asistentes personales
  • automatización
  • desarrollo
  • programación
  • IA offline

Además, gracias a:

  • systemd
  • API compatible con OpenAI
  • integración sencilla
  • bajo consumo

Fedora se convierte en una de las mejores plataformas Linux para ejecutar modelos LLM locales en CPU.

Vistas: 3