China parece estar encontrando maneras innovadoras de escalar su industria de inteligencia artificial sin depender de hardware de última generación.
El proyecto más reciente de DeepSeek, FlashMLA, está llevando las capacidades de las GPUs Hopper H800 de NVIDIA a nuevas alturas, logrando un impresionante aumento de 8 veces en TFLOPS.
FlashMLA: Potenciando la IA de China Usando Hardware «Recortado»
DeepSeek ha demostrado que, con la optimización del software, es posible exprimir el máximo rendimiento de hardware que, de otro modo, podría haberse considerado limitado.

En su última semana de OpenSource, la empresa reveló FlashMLA, un «núcleo de decodificación» diseñado para las GPUs Hopper de NVIDIA.
Desempeño Excepcional: 580 TFLOPS con las H800 de NVIDIA
DeepSeek ha logrado alcanzar los 580 TFLOPS en multiplicación de matrices BF16 en las Hopper H800, lo que equivale a aproximadamente ocho veces más que el rendimiento estándar de la industria.
Además, FlashMLA optimiza el uso de la memoria, logrando un ancho de banda de memoria de hasta 3000 GB/s, casi el doble de lo que la H800 teóricamente puede ofrecer.
¿Cómo Funciona FlashMLA? Mejoras que No Necesitan Hardware Nuevo
El secreto detrás de este impresionante rendimiento no está en modificaciones de hardware, sino en líneas de código.
FlashMLA implementa un «compresor de claves de baja clasificación» que factoriza los datos en partes más pequeñas, lo que permite un procesamiento más rápido y una reducción en el consumo de memoria de hasta un 40%-60%.
Sistema de Paginación Dinámica: Asignación Eficiente de Memoria
FlashMLA también introduce un sistema de paginación basado en bloques, que asigna la memoria de manera dinámica, dependiendo de la intensidad de la tarea. Esto permite a los modelos procesar secuencias de longitud variable de manera más eficaz, lo que se traduce en mejor rendimiento.
La Diversidad de la Computación IA: Más Allá de los Aceleradores de Última Generación
Este desarrollo de DeepSeek demuestra que el mundo de la computación de inteligencia artificial no depende únicamente de un solo factor como el hardware de vanguardia.
En cambio, el software también juega un papel crucial en la mejora de la eficiencia y el rendimiento. Por ahora, FlashMLA está diseñado específicamente para las GPUs Hopper de NVIDIA, y será interesante ver qué tan bien funciona con la H100 utilizando esta herramienta.
Artículos Relacionados
Descubre más desde CIBERED
Suscríbete y recibe las últimas entradas en tu correo electrónico.
