Es un hecho que mantener un PC en plena forma requiere una vigilancia constante. Ahora imagina mantener un superordenador con millones de piezas funcionando sin problemas. Esa es la tarea a la que se enfrenta actualmente Justin Whitt, Director del Programa del Laboratorio Nacional de Oak Ridge (ORNL). En una entrevista reciente, habló de algunos de los problemas que el laboratorio ha tenido con su nuevo superordenador Frontier. Esta monstruosa máquina es el primer ordenador de exaescala del mundo. Debutó en junio en el puesto número 1 de la lista TOP500 de los ordenadores más potentes del mundo. Ha descrito algunos de los problemas iniciales de Frontier, diciendo que actualmente experimenta fallos del sistema cada pocas horas.
Frontier ha estado en construcción durante tres años, con un costo de 600 millones de dólares. Funciona con la arquitectura HPE Cray EX235a con procesadores AMD EPYC 64C. Cuenta con 74 gabinetes con más de 9.400 nodos alimentados por AMD para un total de 606.208 núcleos de CPU. Sus 37.888 GPUs AMD Radeon Instinct MI250X le dan también 8.335.360 núcleos de GPU. Utiliza más de 90 millas de cableado para conectar todo.
Aunque el mantenimiento de un sistema como éste parece oneroso, ése es el trabajo de Whitt, y dice que ha sido un viaje interesante hasta ahora. Describió los problemas a los que se enfrenta el equipo en una entrevista con InsideHPC: «Estamos trabajando en los problemas del hardware y asegurándonos de que entendemos (cuáles son) porque vas a tener fallos a esta escala». Resumió la situación diciendo: «El tiempo medio entre fallos en un sistema de este tamaño es de horas, no de días».
Whitt no quiso entrar en detalles sobre qué hardware estaba experimentando problemas. InsideHPC dice que anteriormente era el tejido HPE Slingshot, un conmutador de alta velocidad de 64 puertos que conecta los blades dentro del sistema. Al parecer, esos problemas se resolvieron, ya que el sistema pudo ejecutar el benchmark High-Performance Linpack. Al parecer, algunos de los problemas están relacionados con los aceleradores de GPU AMD Instinct. «Los problemas abarcan muchas categorías diferentes, las GPU son sólo una», dijo Whitt. Dijo que los problemas se reparten de forma bastante uniforme entre los distintos equipos de Frontier. Además, los problemas parecen surgir cuando el ordenador ejecuta cargas de trabajo muy exigentes, según el informe. Whitt afirma que la ejecución de un benchmark es una caja de Pandora diferente a la ejecución de aplicaciones científicas.
En cualquier caso, no se espera que el sistema esté plenamente operativo para tareas científicas hasta enero de 2023. Esto significa que Whitt y su equipo aún tienen tiempo para solucionar los problemas. Aun así, parece que el equipo tiene mucho trabajo por delante. Whitt dijo que pasar un solo día sin un fallo «sería extraordinario». Luego dijo que el objetivo de tiempo de actividad «sigue siendo de horas», lo que aparentemente es más largo que su actual tasa de fallos. Aunque parezca una situación difícil, Frontier tiene 60 millones de piezas, así que no es de extrañar que haya algunos «contratiempos», según Whitt. A pesar de estos problemas y de los retrasos en la cadena de suministro relacionados con la COVID-19, Whitt afirma que la empresa sigue en camino para la fecha de lanzamiento, cuando Frontier empezará su trabajo real de ejecutar programas de usuario y no sólo pruebas de benchmark.
Fuente WEB | Editado por CambioDigital Online