La plataforma de código abierto Ollama, diseñada para ejecutar modelos de lenguaje grandes (LLMs) en múltiples sistemas operativos y hardware, lanza su versión 0.11.9 con mejoras de rendimiento tanto en CPU como en GPU.
Novedades principales de Ollama 0.11.9
- Optimización de GPU y CPU: La actualización permite preparar el siguiente lote de cálculos mientras la GPU trabaja, reduciendo los tiempos de espera y aumentando la eficiencia.
- Mejora en velocidad de tokens: Según pruebas, se logra un 2-3% más rápido en Metal y aproximadamente 7% más rápido en NVIDIA RTX 4090, lo que supone un incremento notable en rendimiento para GPUs de alta gama.
- Correcciones de errores: Soluciona problemas con GPUs AMD no reconocidas y errores que podían causar fallos en instalaciones de Mac y Linux.
Detalles técnicos
La optimización fue desarrollada por Daniel Hiltgen de VMware quien explicó que el bucle principal del runner de Ollama ahora ejecuta tareas intensivas de GPU en un goroutine, permitiendo construir el siguiente lote de manera asíncrona.
Esto mantiene la GPU ocupada de manera más continua y evita pausas innecesarias entre lotes.
Disponibilidad
- La versión 0.11.9-rc0 ya está disponible para pruebas.
- Los usuarios pueden descargar la actualización desde el repositorio oficial de GitHub de Ollama.
Conclusión
Con Ollama 0.11.9, ejecutar LLMs en CPUs y GPUs modernas será más rápido y eficiente, ofreciendo un rendimiento sostenido especialmente en GPUs NVIDIA de alta gama como la RTX 4090.
Además, las correcciones de compatibilidad amplían la estabilidad del software en distintas plataformas.