En las décadas transcurridas desde que Seymour Cray desarrolló el que se considera el primer superordenador del mundo, el CDC 6600, se ha desatado una carrera armamentística en la comunidad de la computación de alto rendimiento (HPC). El objetivo: mejorar el rendimiento, por cualquier medio y a cualquier precio.
Impulsado por los avances en los campos de la computación, el almacenamiento, las redes y el software, el rendimiento de los principales sistemas se ha multiplicado por un billón desde la presentación del CDC 6600 en 1964, pasando de los millones de operaciones en coma flotante por segundo (megaFLOPS) a los quintillones (exaFLOPS).
El actual poseedor de la corona, un colosal superordenador con sede en EE.UU. llamado Frontier, es capaz de alcanzar 1,102 exaFLOPS según la referencia High Performance Linpack (HPL). Pero se sospecha que hay máquinas aún más potentes en funcionamiento en otros lugares, a puerta cerrada.
Se espera que la llegada de los llamados superordenadores de exaescala beneficie a prácticamente todos los sectores -desde la ciencia a la ciberseguridad, pasando por la sanidad o las finanzas- y siente las bases para nuevos y poderosos modelos de IA que, de otro modo, habrían tardado años en entrenarse.
Sin embargo, un aumento de velocidad de esta magnitud ha tenido un costo: el consumo de energía. A pleno rendimiento, Frontier consume hasta 40MW de energía, más o menos lo mismo que 40 millones de ordenadores de sobremesa.
La supercomputación siempre ha consistido en superar los límites de lo posible. Pero a medida que la necesidad de minimizar las emisiones se hace más evidente y los precios de la energía siguen subiendo, la industria de la HPC tendrá que reevaluar si su principio rector original sigue mereciendo la pena.
Rendimiento frente a eficiencia
Una organización que está a la vanguardia de esta cuestión es la Universidad de Cambridge, que, en colaboración con Dell Technologies, ha desarrollado varios superordenadores en los que la eficiencia energética es una de las prioridades del diseño.
El Wilkes3, por ejemplo, sólo ocupa el puesto 100 en la tabla de rendimiento general, pero se sitúa en el tercer puesto del Green500, una clasificación de sistemas HPC basada en el rendimiento por vatio de energía consumida.
En una entrevista, el Dr. Paul Calleja, Director de los Servicios de Computación de Investigación de la Universidad de Cambridge, explicó que la institución está mucho más preocupada por construir máquinas altamente productivas y eficientes que extremadamente potentes.
«No nos interesan mucho los sistemas grandes, porque son soluciones puntuales muy específicas. Pero las tecnologías que se despliegan en ellos son mucho más aplicables y permitirán que sistemas un orden de magnitud más lentos funcionen de forma mucho más eficiente en cuanto a costes y energía», dice el Dr. Calleja.
«Al hacerlo, se democratiza el acceso a la informática para muchas más personas. Nos interesa utilizar las tecnologías diseñadas para esos grandes sistemas de época para crear superordenadores mucho más sostenibles, para un público más amplio.»
En los próximos años, el Dr. Calleja también predice una presión cada vez mayor por la eficiencia energética en el sector de la computación de alto rendimiento y en la comunidad de centros de datos en general, donde el consumo de energía representa más del 90% de los costos, según nos dicen.
Las recientes fluctuaciones del precio de la energía relacionadas con la guerra de Ucrania también habrán encarecido drásticamente el funcionamiento de los superordenadores, especialmente en el contexto de la computación a exaescala, lo que ilustra aún más la importancia del rendimiento por vatio.
En el contexto de Wilkes3, la universidad descubrió que había una serie de optimizaciones que ayudaban a mejorar el nivel de eficiencia. Por ejemplo, al reducir la velocidad de reloj a la que funcionaban algunos componentes, en función de la carga de trabajo, el equipo pudo lograr reducciones del consumo energético del orden del 20-30%.
«Dentro de una familia arquitectónica concreta, la velocidad de reloj tiene una relación lineal con el rendimiento, pero una relación al cuadrado con el consumo de energía. Eso es lo peor», explicó el Dr. Calleja.
«Reducir la velocidad de reloj reduce el consumo de energía a un ritmo mucho más rápido que el rendimiento, pero también prolonga el tiempo que se tarda en completar un trabajo. Así que lo que deberíamos mirar no es el consumo de energía durante una ejecución, sino realmente la energía consumida por trabajo. Hay un punto óptimo».
El software es el rey
Más allá del ajuste de las configuraciones de hardware para cargas de trabajo específicas, también hay una serie de optimizaciones que deben realizarse en otros ámbitos, en el contexto del almacenamiento y la red, y en disciplinas relacionadas como la refrigeración y el diseño de los bastidores.
Sin embargo, al preguntarle dónde le gustaría que se destinaran los recursos en la búsqueda de una mayor eficiencia energética, el Dr. Calleja explicó que la atención debería centrarse en el software, en primer lugar.
«El hardware no es el problema, sino la eficiencia de las aplicaciones. Este va a ser el principal cuello de botella de cara al futuro», afirma. «Los sistemas de exaescala actuales se basan en arquitecturas de GPU y el número de aplicaciones que pueden ejecutarse eficientemente a escala en sistemas de GPU es pequeño».
«Para aprovechar realmente la tecnología actual, tenemos que centrarnos mucho en el desarrollo de aplicaciones. El ciclo de vida del desarrollo se prolonga durante décadas; el software que se utiliza hoy en día se desarrolló hace 20 o 30 años y es difícil cuando tienes un código tan longevo que necesita ser rearchivado».
El problema, sin embargo, es que la industria de la HPC no ha adquirido el hábito de pensar en el software primero. Históricamente, se ha prestado mucha más atención al hardware, porque, en palabras del Dr. Calleja, «es fácil; basta con comprar un chip más rápido. No hay que pensar de forma inteligente».
«Mientras tuvimos la Ley de Moore, con una duplicación del rendimiento del procesador cada dieciocho meses, no había que hacer nada [a nivel de software] para aumentar el rendimiento. Pero esos días han pasado. Ahora, si queremos avances, tenemos que volver a diseñar el software».
CPU con los contactos hacia arriba colocada en la placa base del PC. el chip se resalta con luz azul
El Dr. Calleja se reservó algunos elogios para Intel, en este sentido. A medida que el espacio de hardware para servidores se diversifica desde la perspectiva de los proveedores (en la mayoría de los aspectos, un desarrollo positivo), la compatibilidad de las aplicaciones tiene el potencial de convertirse en un problema, pero Intel está trabajando en una solución.
«Un factor diferenciador que veo en Intel es que invierte muchísimo [tanto en fondos como en tiempo] en el ecosistema oneAPI, para desarrollar la portabilidad del código entre los tipos de silicio. Son este tipo de cadenas de herramientas las que necesitamos para que las aplicaciones del futuro puedan aprovechar el silicio emergente», señala.
Por otra parte, el Dr. Calleja pidió que se preste más atención a la «necesidad científica». Con demasiada frecuencia, las cosas «se equivocan en la traducción», creando un desajuste entre las arquitecturas de hardware y software y las necesidades reales del usuario final.
Un enfoque más enérgico de la colaboración entre industrias, afirma, crearía un «círculo virtuoso» formado por usuarios, proveedores de servicios y vendedores, lo que se traducirá en beneficios tanto desde el punto de vista del rendimiento como de la eficiencia.
Un futuro a zettascale
Como es habitual, con la caída del hito simbólico de la exaescala, la atención se dirigirá ahora al siguiente: la zettascale.
«Zettascale no es más que la siguiente bandera en el suelo», dijo el Dr. Calleja, «un tótem que pone de relieve las tecnologías necesarias para alcanzar el siguiente hito en los avances informáticos, que hoy son inalcanzables».
«Los sistemas más rápidos del mundo son extremadamente caros para lo que se obtiene de ellos, en términos de rendimiento científico. Pero son importantes, porque demuestran el arte de lo posible y hacen avanzar a la industria».
Que los sistemas capaces de alcanzar un rendimiento de zettaFLOPS, mil veces más potentes que los actuales, puedan desarrollarse de forma que se ajusten a los objetivos de sostenibilidad dependerá de la capacidad de invención de la industria.
No existe una relación binaria entre el rendimiento y la eficiencia energética, sino que será necesaria una buena dosis de artesanía en cada subdisciplina para conseguir el aumento de rendimiento necesario dentro de una envolvente energética adecuada.
En teoría, existe una relación dorada entre el rendimiento y el consumo de energía, por la que se puede decir que los beneficios que aporta la HPC a la sociedad justifican el gasto en emisiones de carbono.
La cifra exacta seguirá siendo difícil de alcanzar en la práctica, por supuesto, pero la búsqueda de la idea es, por definición, un paso en la dirección correcta.
Fuente WEB | Editado por CambioDigital OnLine