PyTorch 2.8 ya está disponible con grandes mejoras en el rendimiento de CPUs Intel para inferencia LLM | Ecosistema DEV

El popular framework de machine learning PyTorch acaba de lanzar su versión 2.8, una actualización clave que trae mejoras de rendimiento, nuevas optimizaciones para CPUs Intel y soporte experimental en GPUs.

Rendimiento mejorado en CPUs Intel para LLMs cuantizados

Uno de los mayores cambios de PyTorch 2.8 es la optimización del rendimiento en inferencia de modelos de lenguaje grande (LLM) sobre CPUs Intel, gracias al trabajo de ingeniería de la propia Intel.

Se soportan modos de cuantización como A16W8, DA8W8 y A16W4.
El equipo de Intel afirma que, con esta mejora, el rendimiento en CPUs x86_64 puede igualar o incluso superar en algunos casos a frameworks especializados como vLLM, siempre que se ejecute en modo offline sobre un solo dispositivo.
Esto significa que los usuarios de PyTorch ahora pueden ejecutar inferencia de LLMs cuantizados sin depender de librerías externas y con un rendimiento competitivo.

Mejoras con kernels AMX en Xeon

PyTorch 2.8 también incorpora avances con micro-kernels basados en AMX, lo que permite un salto de rendimiento en operaciones INT4:

Antes, el kernel AMX se usaba solo con tensores de entrada donde M ≥ 16.
Ahora, tras pruebas en Intel Xeon 6ª generación, se demostró que para valores 4 < M < 16 se logra hasta un 20% menos de latencia en modelos como Llama-3.1-8B corriendo sobre 32 núcleos con M = 8.
Resultado: más eficiencia en cargas reales de inferencia.

Otras novedades en PyTorch 2.8

Además de las mejoras en CPU, esta versión introduce varias funciones experimentales:

Soporte para Intel XCCL GPU distributed back-end → enfocado en entrenamiento distribuido en GPUs discretas Intel.
Soporte SYCL en la API de extensiones C++ de PyTorch.
A16W4 support para dispositivos XPU.
Nuevas variantes experimentales de wheels para instalación más flexible.
Diversas correcciones y mejoras en estabilidad y rendimiento.

Conclusión

Con PyTorch 2.8, Intel da un paso importante para competir en el terreno de inferencia de LLMs en CPUs, ofreciendo mejoras tangibles de rendimiento que pueden hacer más accesible el despliegue de IA sin depender únicamente de GPUs.

Vistas: 1

Rendimiento mejorado en CPUs Intel para LLMs cuantizados

Mejoras con kernels AMX en Xeon

Otras novedades en PyTorch 2.8

Conclusión

🔥 LO MÁS VISTO DE ESTA CATEGORÍA