Tras años de preparación, 2022 puso de manifiesto el asombroso potencial de la IA generativa cuando modelos como DALL-E y GPT-3 de OpenAI LLC arrasaron en todo el mundo. Microsoft Corp., Amazon.com Inc. y Google LLC llevan años entrenando modelos de aprendizaje automático, pero la introducción de grandes modelos de lenguaje basados en transformadores o LLM que podían «aprender» supuso un tremendo salto adelante en cuanto a utilidad.
Sin embargo, esta explosión de IA generativa tiene un problema: Cada vez que DALL-E crea una imagen o GPT-3 predice la siguiente palabra, se requieren múltiples cálculos de inferencia que suman una importante demanda eléctrica. Las arquitecturas actuales de unidades de procesamiento gráfico y unidades centrales de procesamiento no pueden funcionar con la eficiencia suficiente para satisfacer la demanda que se avecina, lo que supone un gran problema para los hiperescaladores.
Los centros de datos se convertirán en los mayores consumidores de energía del mundo, pasando del 3% del uso total de electricidad en 2017 al 4,5% en 2025. China predice que sus centros de datos consumirán más de 400.000 millones de kWh de electricidad en 2030, el 4% del consumo eléctrico total del país.
Los proveedores de servicios en la nube reconocen la enorme cantidad de electricidad que consumen y han puesto en marcha medidas de eficiencia, como ubicar los centros de datos en países árticos para aprovechar la refrigeración natural y las energías renovables. Sin embargo, no será suficiente para la explosión de la IA: El Laboratorio Nacional Lawrence Berkeley descubrió que el aumento de la eficiencia ha mantenido esta tendencia bajo control durante los últimos 20 años, pero «las tendencias modeladas indican que las medidas de eficiencia del pasado pueden no ser suficientes para la demanda de centros de datos del futuro».
El movimiento de datos es el asesino
El problema de la eficiencia tiene su origen en cómo funcionan las CPU y las GPU, especialmente para ejecutar un modelo de inferencia de IA frente al entrenamiento del modelo. Seguro que ha oído hablar de «ir más allá de la Ley de Moore» y de las limitaciones físicas de empaquetar más transistores en troqueles de mayor tamaño. Los chiplets están ayudando a resolver estos problemas, pero las soluciones actuales tienen un punto débil cuando se trata de la inferencia de IA: La entrada y salida de datos de la memoria de acceso aleatorio provoca ralentizaciones considerables.
Tradicionalmente, ha sido más barato fabricar procesadores y chips de memoria por separado y, durante muchos años, la velocidad de reloj de los procesadores ha sido el factor clave del rendimiento. Hoy es la interconexión entre chips lo que frena las cosas. «Cuando la memoria y el procesamiento están separados, el enlace de comunicación que conecta ambos dominios se convierte en el principal cuello de botella del sistema», explica Jeff Shainline, del NIST. El profesor Jack Dongarra, del Laboratorio Nacional Oak Ridge, dijo sucintamente que «cuando miramos el rendimiento actual de nuestras máquinas, el movimiento de datos es lo que mata».
Inferencia de IA frente a entrenamiento de IA
Un sistema de IA utiliza diferentes tipos de cálculos cuando entrena un modelo de IA en comparación con cuando lo utiliza para hacer predicciones. El entrenamiento de IA carga un modelo basado en transformadores con decenas de miles de imágenes o muestras de texto como referencia y, a continuación, empieza a trabajar. Los miles de núcleos de una GPU son muy eficaces para digerir grandes conjuntos de datos ricos, como imágenes o vídeo, y si necesitas resultados más rápidos, puedes alquilar tantas GPU en la nube como puedas permitirte.
La inferencia de la IA requiere menos energía inicial para realizar un cálculo, pero el enorme número de cálculos y predicciones necesarios para decidir cuál debe ser la siguiente palabra en un autocompletado a través de cientos de millones de usuarios consume mucha más energía que el entrenamiento a largo plazo. Facebook AI observa billones de inferencias al día en sus centros de datos, y esta cifra se ha más que duplicado en los últimos tres años. Facebook AI también descubrió que ejecutar inferencias en un LLM para la traducción de idiomas puede consumir entre dos y tres veces más energía que el entrenamiento inicial.
Explosión de la demanda
El año pasado vimos cómo ChatGPT arrasaba en el sector, y GPT-4 será aún más impresionante. Si conseguimos adoptar un enfoque más eficiente desde el punto de vista energético, podremos ampliar la inferencia a una gama más amplia de dispositivos y crear nuevas formas de hacer informática.
Hybrid Loop de Microsoft está diseñado para crear experiencias de IA que aprovechen dinámicamente tanto la nube como los dispositivos periféricos. Esto permite a los desarrolladores tomar decisiones vinculantes tardías sobre la ejecución de la inferencia en la nube de Azure o en el ordenador cliente local o dispositivo móvil. Esto maximiza la eficiencia mientras que los usuarios tienen la misma experiencia independientemente de dónde se produzca la inferencia. De forma similar, Facebook introdujo AutoScale para ayudar a decidir de forma eficiente en tiempo de ejecución dónde computar la inferencia.
Nuevos enfoques de la eficiencia
Si queremos abrir estas posibilidades, tenemos que superar las barreras que frenan la IA en la actualidad. Existen varios enfoques prometedores.
El muestreo y la canalización pueden ayudar a acelerar el aprendizaje profundo recortando la cantidad de datos procesados. SALIENT (por SAmpling, sLIcing, and data movemeNT) fue desarrollado por investigadores del Instituto Tecnológico de Massachusetts e IBM Corp. para hacer frente a los principales cuellos de botella. Este enfoque puede reducir drásticamente los requisitos para ejecutar redes neuronales en grandes conjuntos de datos que pueden contener 100 millones de nodos y 1.000 millones de aristas. Pero también limita la exactitud y la precisión, lo que puede estar bien para seleccionar el siguiente post social que se va a mostrar, pero no si se trata de identificar condiciones inseguras en un lugar de trabajo casi en tiempo real.
Apple Inc., Nvidia Corp., Intel Corp. y Advanced Micro Devices Inc. han anunciado procesadores con motores dedicados a la IA incorporados o situados junto a los procesadores tradicionales. Amazon Web Services Inc. incluso está creando el nuevo procesador Inferentia2. Pero estas soluciones siguen utilizando la arquitectura von Neumann tradicional de procesadores, SRAM integrada y memoria DRAM externa, que requieren electricidad para mover los datos dentro y fuera de la memoria.
Hay otro método para derribar el «muro de la memoria» que los investigadores han identificado: acercar la computación a la RAM.
La computación en memoria mejora la latencia y reduce la energía
El muro de memoria se refiere a las barreras físicas que limitan la velocidad a la que los datos pueden entrar y salir de la memoria. Es una limitación fundamental de las arquitecturas tradicionales. La computación en memoria o IMC resuelve este problema ejecutando cálculos matriciales de IA directamente en el módulo de memoria, lo que evita la sobrecarga de enviar datos a través del bus de memoria.
La IMC funciona bien para la inferencia de IA porque implica un conjunto de datos de pesos relativamente estático (pero grande) al que se accede una y otra vez. Siempre es necesario transferir algunos datos de entrada y salida, pero IMC elimina la mayor parte del gasto de transferencia de energía y la latencia del movimiento de datos al mantenerlos en la misma unidad física, donde pueden utilizarse y reutilizarse eficazmente para múltiples cálculos.
Este enfoque favorece la escalabilidad porque funciona bien con diseños de chiplets. Con los chiplets, la tecnología de inferencia de IA puede escalarse desde el escritorio de un desarrollador para pruebas, antes de desplegarse a producción en el centro de datos. Un centro de datos puede utilizar una matriz de tarjetas o un dispositivo de gran tamaño con muchos procesadores de chiplets para ejecutar eficientemente modelos de IA de nivel empresarial.
Con el tiempo, predecimos que IMC se convertirá en la arquitectura dominante para los casos de uso de inferencia de IA. Tiene mucho sentido cuando se dispone de conjuntos de datos masivos y billones de cálculos. No hay que malgastar energía transportando datos a través del muro de memoria, y el enfoque se amplía fácilmente para satisfacer demandas a largo plazo.
Nos encontramos en un punto de inflexión apasionante, con avances en IA generativa, reconocimiento de imágenes y análisis de datos que se unen para descubrir nuevas conexiones y usos únicos del aprendizaje automático. Pero primero tenemos que construir una solución tecnológica que pueda satisfacer esta necesidad, porque ahora mismo, a menos que podamos crear opciones más sostenibles, Gartner predice que para 2025 «la IA consumirá más energía que la mano de obra humana».
Ideemos un enfoque mejor antes de que esto ocurra.
Fuente WEB | Editado por CambioDigital