Este año, el Centro Nacional de Supercomputación de Wuxi, China, lanzó una potente supercomputadora basada en los avanzados procesadores Sunway SW26010-Pro de 384 núcleos del país.
En comparación con su predecesor, el modelo Sunway SW26010 de 256 núcleos sin el prefijo “Pro”, el rendimiento se cuadruplicó, según el recurso Chips and cheese.
Por primera vez, el procesador Sunway SW26010-Pro y las supercomputadoras basadas en él se dieron a conocer en 2021, pero recién este año el desarrollador demostró públicamente este chip en la conferencia SC23 sobre informática de alto rendimiento y habló sobre su arquitectura.
El rendimiento máximo FP64 de cada Sunway SW26010-Pro es de 13,8 teraflops; a modo de comparación, el AMD EPYC 9654 de 96 núcleos tiene alrededor de 5,4 teraflops.
Sunway SW26010-Pro se basa en una arquitectura RISC patentada completamente nueva: incluye seis grupos centrales (CG) y una unidad de procesamiento de protocolos (PPU).
Cada clúster CG combina 64 núcleos de elementos de procesamiento informático (CPE) con un motor vectorial de 512 bits, caché de datos ultrarrápida de 256 KB e instrucciones de 16 KB; un elemento de procesamiento de gestión (MPE): núcleo superescalar desordenado con un motor vectorial, caché L1 de 32 KB para datos e instrucciones, caché L2 de 512 KB; así como una interfaz de memoria DDR4-3200 de 128 bits.
MPE y CPE emplean un protocolo basado en directorio para asegurar un intercambio de datos consistente y reducir la transferencia de datos entre núcleos, manteniendo una comunicación precisa.
Esto es crucial para aplicaciones con acceso esporádico a datos compartidos. Cada procesador de 6 clústeres tiene 390 núcleos en total: 384 de cómputo y 6 de control.
El Sunway SW26010-Pro se destaca por su mayor velocidad (2,25 GHz para CPE y 2,10 GHz para MPE, en comparación con los 1,45 GHz del modelo anterior) y una arquitectura RISC de 64 bits completamente rediseñada, cuadruplicando la productividad de FP64.
Se mejoró el ancho de banda de memoria al cambiar a controladores DDR4, pasando de 8 GB de DDR3 por clúster CPE a 16 GB de DDR4. La memoria total admitida se eleva de 32 GB en el SW26010 a 96 GB en el SW26010 Profesional.
Sin embargo, según Tom’s Hardware, ambas versiones del procesador presentan debilidades en la caché y la RAM. A pesar de intentar abordar la caché en el modelo SW26010-Pro aumentando la memoria de ultra alta velocidad de 64 a 256 KB, la falta de L2 adecuada sigue siendo insuficiente.
El subsistema de memoria DDR4-3200 de doble canal apenas cubre las necesidades de los 64 núcleos, cada uno con una FPU vectorial de 512 bits, ofreciendo un rendimiento de hasta 16 flops FP64 por ciclo.
La optimización de software costosa puede compensar parcialmente el problema de la caché, pero dada la limitada velocidad de RAM, la eficacia final del procesador actualizado para las tareas de las supercomputadoras exaescala sigue siendo incierta.