Meta Platforms Inc. ha presentado hoy un par de clusters de unidades de procesamiento gráfico de enorme potencia que, según afirma, se utilizarán para entrenar modelos de inteligencia artificial generativa de última generación, incluido el próximo Llama 3.
Los ingenieros de Meta Kevin Lee, Adi Gangidi y Mathew Oldham explican en un blog que los dos clústeres de 24.576 GPU para centros de datos se construyeron para soportar modelos de IA generativa mucho más grandes y complejos que los que ha lanzado anteriormente, como Llama 2, un popular algoritmo de código abierto que compite con ChatGPT de OpenAI y Gemini de Google LLC. Según los ingenieros, también contribuirán a la investigación y el desarrollo de la IA en el futuro.
Cada clúster contiene miles de las GPU H100 más potentes de Nvidia Corp. y son mucho más grandes que los grandes clústeres anteriores de la compañía, que contenían unas 16.000 GPU Nvidia A100.
Al parecer, la compañía ha estado muy ocupada comprando miles de los últimos chips de Nvidia, y un informe de Omdia afirmaba recientemente que la empresa se ha convertido en uno de los mayores clientes del fabricante de chips. Ahora sabemos por qué.
Meta afirma que utilizará los nuevos clústeres para perfeccionar sus sistemas de inteligencia artificial y entrenar otros nuevos y más potentes, como Llama 3, el sucesor previsto de Llama 2. Es la primera vez que Meta confirma que está trabajando en Llama 3, aunque ya se sospechaba. Los ingenieros afirman que el desarrollo de Llama 3 está actualmente «en curso» y no revelan cuándo podría anunciarse.
Introducing our two new 24k GPU clusters! These clusters will support our current and next-gen AI models, including Llama 3, and help us push the boundaries of AI research.https://t.co/0A86BbuRLd
— Engineering at Meta (@fb_engineering) March 12, 2024
A largo plazo, Meta aspira a crear sistemas de inteligencia artificial general o AGI que sean mucho más parecidos a los humanos en términos de creatividad que los modelos de IA generativa existentes. En la entrada del blog se afirma que los nuevos clústeres ayudarán a ampliar estas ambiciones. Además, Meta ha revelado que está trabajando en la evolución de su marco de IA PyTorch, preparándolo para soportar un número mucho mayor de GPU.
Analizando sus funciones
Aunque los dos clusters tienen exactamente el mismo número de GPU interconectadas a 400 gigabytes por segundo, presentan arquitecturas diferentes. Uno de ellos dispone de acceso remoto directo a memoria o RDMA sobre una estructura de red Ethernet convergente basada en el Arista 7800 de Arista Networks Inc. con switches de rack Wedge400 y Minipack2 OCP. El otro está construido con la tecnología de red propia de Nvidia, denominada Quantum2 InfiniBand.
Ambos clusters se construyeron utilizando la plataforma de hardware de GPU abierta de Meta, denominada Grand Teton, diseñada para soportar cargas de trabajo de IA a gran escala. Se dice que Grand Teton ofrece cuatro veces más ancho de banda de host a GPU que su predecesora, la plataforma Zion-EX, el doble de ancho de banda de computación y red de datos y el doble de potencia.
Meta afirma que los clústeres incorporan su última arquitectura de infraestructura de rack y alimentación Open Rack, diseñada para ofrecer mayor flexibilidad a los diseños de centros de datos. Según los ingenieros, Open Rack v3 permite instalar los estantes de alimentación en cualquier lugar dentro del rack, en lugar de atornillarlos a la barra colectora, lo que permite configuraciones más flexibles.
Además, el número de servidores por rack es personalizable, lo que permite un equilibrio más eficiente en términos de capacidad de rendimiento por servidor. A su vez, esto ha permitido reducir en cierta medida el número total de bastidores, afirma Meta.
En cuanto al almacenamiento, los clústeres utilizan una interfaz de programación de aplicaciones Filesystem in Userspace basada en Linux, respaldada por la plataforma de almacenamiento distribuido Tectonic de Meta. Meta también se asoció con una startup llamada Hammerspace Inc. para crear un nuevo sistema de archivos de red paralelo para los clústeres.
Por último, los ingenieros explicaron que los clusters se basan en la plataforma de servidores YV3 Sierra Point y cuentan con sus unidades de estado sólido E1.S más avanzadas. El equipo señaló que personalizaron la topología de red y la arquitectura de enrutamiento del clúster e implantaron la biblioteca de comunicaciones colectivas de Nvidia, que contiene rutinas de comunicación optimizadas para sus GPU.
Más GPU en el futuro
Meta menciona en la entrada del blog que sigue plenamente comprometida con la innovación abierta en su pila de hardware de IA. Los ingenieros recuerdan que la compañía es miembro de la recientemente anunciada AI Alliance, cuyo objetivo es crear un ecosistema abierto que aumente la transparencia y la confianza en el desarrollo de la IA y garantice que todo el mundo pueda beneficiarse de sus innovaciones.
«Al mirar hacia el futuro, reconocemos que lo que funcionó ayer u hoy puede no ser suficiente para las necesidades del mañana», escribieron los ingenieros. «Es por eso que estamos constantemente evaluando y mejorando cada aspecto de nuestra infraestructura, desde las capas físicas y virtuales hasta la capa de software y más allá».
Meta también reveló que seguirá comprando más GPU H100 de Nvidia y pretende tener más de 350.000 para finales de año. Estas GPU se utilizarán para seguir desarrollando su infraestructura de IA, y es probable que no tardemos en ver la aparición de clusters de GPU aún más potentes.
Fuente WEB | Editado por CambioDigital OnLine