Hace ya algunos meses que comenzaron a surgir rumores de que China había sido capaz de conseguir desarrollar computación a exaescala en dos sistemas separados. Hasta ahora había pocos detalles al respecto, pero ya podemos conocer más gracias a la publicación de un artículo con diversos detalles sobre su arquitectura. Se sabe además que uno de estos dos sistemas, el sistema Sunway «Oceanlite», está desarrollado al completo a partir de componentes chinos, desde su CPU hasta sus conexiones de red.
El artículo desvela información sobre la memoria y la computación de estos sistemas, entre otros aspectos. También muestra su capacidad, a través de los resultados del uso de una carga de trabajo de Inteligencia Artificial para un modelo de lenguaje preentrenado que se expande por el sistema, y que cuenta con 14,5 billones de parámetros, con un rendimiento aproximado de más de un exaflop.
Otro de los detalles conocidos sobre este sistema es que tiene unos 96.000 nodos, y está basado en las unidades de computación Sunway SW26010-PRO, que cuentan con múltiples núcleos con aceleradores personalizados integrados, además de con una configuración de memoria personalizada y con tejido de red desarrollado en China.
Eso sí, aunque los resultados de haber conseguido la computación a exaescala en el caso mencionado están verificados, es importante señalar que esta carga de trabajo a lo que se conoce como «escala cerebral» no está ejecutándose en sí misma a una capacidad exaescalar completa. Esto se debe a que en general, en medidas de rendimiento de supercomputación, el estándar está en el punto flotante de 64 bits (FP64), pero este trabajo en concreto tiene su base en una precisión mixta. El nuevo sistema Sunway puede gestionar punto flotante de 64 y 16 bits (FP16), y también lo que se conoce como formato de punto flotante cerebral de 16 bits (BF16), y puede cambiar entre ellos durante un entrenamiento para conseguir la máxima eficiencia posible.
Pero aunque la precisión mixta no consiga hacer que la tarea mencionada en el artículo sea una carga de trabajo exaescalar continua en términos convencionales, sí que muestra evidencia de que en China han conseguido un diseño conjunto entre software y hardware bastante notable. Especialmente en relación con lo que el sector de la supercomputación cree en general que debe suceder en cuanto a la integración del machine learning y la Inteligencia Artificial con el modelado y la simulación tradicionales.
El equipo autor del artículo ofrece detalles precisos, a nivel de nodo y de chip, para ajustar sistemas de computación de alto rendimiento para la Inteligencia Artificial. Entre los detalles que ofrecen hay varios relacionadas con optimizaciones de operaciones de entrada y salida, memoria y programación. También una estrategia de paralelización que mezcla modelos paralelos y luego se centra en el tiempo de computación y el uso de memoria, para reducirlos. También han desarrollado un balanceador de cargas único, y cuentan con estrategia para el uso de la precisión mixta de manera eficiente.
Según sus autores, entre los que hay empleados de Alibaba y académicos de las principales universidades chinas, los sistemas desarrollados «son una demostración sin precedentes de diseño conjunto entre algoritmos y sistema en la convergencia entre la Inteligencia Artificial y la computación de alto rendimiento«. El modelo y el conjunto de optimización, conocido como BaGuaLu, «permite una escalabilidad y un rendimiento aceptables con modelos extremadamente grandes, gracias a la combinación de optimizaciones concretas de hardware con estrategias paralelas híbridas y entrenamiento de precisión mixta«. Al parecer, con las capacidades actuales, se puede llegar a entrenar un modelo con 174 billones de parámetros.
Comments