Ollama 0.11.9 mejora el rendimiento de CPU y GPU para LLMs

La plataforma de código abierto Ollama, diseñada para ejecutar modelos de lenguaje grandes (LLMs) en múltiples sistemas operativos y hardware, lanza su versión 0.11.9 con mejoras de rendimiento tanto en CPU como en GPU.

Novedades principales de Ollama 0.11.9

  • Optimización de GPU y CPU: La actualización permite preparar el siguiente lote de cálculos mientras la GPU trabaja, reduciendo los tiempos de espera y aumentando la eficiencia.
  • Mejora en velocidad de tokens: Según pruebas, se logra un 2-3% más rápido en Metal y aproximadamente 7% más rápido en NVIDIA RTX 4090, lo que supone un incremento notable en rendimiento para GPUs de alta gama.
  • Correcciones de errores: Soluciona problemas con GPUs AMD no reconocidas y errores que podían causar fallos en instalaciones de Mac y Linux.

Detalles técnicos

La optimización fue desarrollada por Daniel Hiltgen de VMware quien explicó que el bucle principal del runner de Ollama ahora ejecuta tareas intensivas de GPU en un goroutine, permitiendo construir el siguiente lote de manera asíncrona.

Esto mantiene la GPU ocupada de manera más continua y evita pausas innecesarias entre lotes.

Disponibilidad


Conclusión

Con Ollama 0.11.9, ejecutar LLMs en CPUs y GPUs modernas será más rápido y eficiente, ofreciendo un rendimiento sostenido especialmente en GPUs NVIDIA de alta gama como la RTX 4090.

Además, las correcciones de compatibilidad amplían la estabilidad del software en distintas plataformas.

Vistas: 1