Google Cloud presentó VMs A4X las nuevas máquinas virtuales impulsadas por NVIDIA GB200

Ya disponibles en vista previa

0
14

La próxima frontera de la IA radica en los modelos de razonamiento que piensan críticamente y aprenden durante la inferencia para resolver problemas complejos. Para entrenar y servir esta nueva clase de modelos, se requiere una infraestructura con el rendimiento y la eficiencia necesarios para manejar conjuntos de datos masivos y ventanas de contexto, así como para ofrecer respuestas rápidas y fiables. Para continuar superando los límites, se necesita un sistema construido para manejar requisitos aún desconocidos.

Google Cloud anunció la disponibilidadl, vista previa de las VMs A4X, impulsadas por NVIDIA GB200 NVL72, un sistema que consta de 72 GPUs NVIDIA Blackwell y 36 CPUs NVIDIA Grace basadas en Arm conectadas a través de NVIDIA NVLink de quinta generación. Con este sistema integrado, las VMs A4X abordan directamente las importantes demandas de computación y memoria de los modelos de razonamiento que utilizan la cadena de pensamiento, desbloqueando nuevos niveles de rendimiento y precisión de la IA.

Google Cloud es el primer y único proveedor de nube que ofrece tanto VMs A4 impulsadas por GPUs NVIDIA B200 como VMs A4X impulsadas por NVIDIA GB200 NVL72.

Características y capacidades clave de A4X
Las VMs A4X se construyen sobre varias innovaciones clave para habilitar la próxima frontera de la IA:

  • NVIDIA GB200 NVL72: Esta configuración permite que 72 GPUs Blackwell funcionen como una sola unidad de computación unificada, con memoria compartida y comunicaciones de alto ancho de banda. Por ejemplo, esta arquitectura unificada ayuda a lograr respuestas de baja latencia para el razonamiento multimodal a través de solicitudes de inferencia concurrentes.
  • CPUs NVIDIA Grace: Estos chips Arm personalizados vienen con conexiones NVLink chip-a-chip (C2C) a las GPUs Blackwell que permiten el checkpointing, la descarga y la rematerialización eficientes del estado del modelo y del optimizador que se requieren para entrenar y servir los modelos más grandes.
  • Rendimiento de entrenamiento mejorado: Con más de 1 exaflop por sistema GB200 NVL72, A4X ofrece un aumento de 4 veces en el rendimiento de entrenamiento de LLM en comparación con las VMs A3 impulsadas por GPUs NVIDIA H100.
  • Escalabilidad y paralelización: Las VMs A4X facilitan el despliegue de modelos a través de decenas de miles de GPUs Blackwell utilizando las últimas estrategias de sharding y pipelining para maximizar la utilización de la GPU. La red de alto rendimiento de Google Cloud basada en RDMA sobre Converged Ethernet (RoCE) combina racks NVL72 en clústeres únicos, alineados con rieles y sin bloqueo de decenas de miles de GPUs. Esto no se trata solo de tamaño; se trata de escalar eficientemente los modelos más complejos.
  • Optimizado para el razonamiento y la inferencia: La arquitectura A4X con su dominio NVLink de 72 GPUs está diseñada específicamente para la inferencia de baja latencia, especialmente para los modelos de razonamiento que emplean técnicas de cadena de pensamiento. La capacidad de compartir memoria y carga de trabajo entre las 72 GPUs (incluido el KVCache para modelos de contexto largo) proporciona baja latencia, mientras que el gran dominio NVLink también conduce a una mejor escala de tamaño de lote y un menor TCO, para que se puedan servir más solicitudes de usuario concurrentes.

La ventaja de Google Cloud
Las VMs A4X son parte de la arquitectura de supercomputación, AI Hypercomputer, y se benefician del centro de datos, la infraestructura y la experiencia en software de Google Cloud. Con el poder de AI Hypercomputer, los clientes de A4X pueden aprovechar:

  • Hypercompute Cluster: Hypercompute Cluster permite desplegar y administrar grandes clústeres de VMs A4X con computación, almacenamiento y redes como una sola unidad. Esto facilita la gestión de la complejidad al tiempo que ofrece un rendimiento y una resiliencia excepcionalmente altos para grandes cargas de trabajo distribuidas. Específicamente para A4X, el algoritmo de programación consciente de la topología de Hypercompute Cluster es consciente de los dominios NVL72 y garantiza que las cargas de trabajo puedan aprovechar el ancho de banda alto de NVLink. También proporciona observabilidad a través de las GPUs, la red NVLink y la estructura de redes del centro de datos, incluida la creación de perfiles NCCL, para ayudar a los equipos de infraestructura a detectar y resolver problemas rápidamente.
  • Estructura de red de alto rendimiento: La VM A4X incluye el adaptador de red Titanium ML basado en tarjetas de interfaz de red (NICs) NVIDIA ConnectX-7. El adaptador Titanium ML ofrece la agilidad y la seguridad de Google Cloud sin comprometer el rendimiento requerido para las cargas de trabajo de ML. El sistema A4X ofrece 28,8 Tbps (72*400 Gbps) de tráfico GPU-a-GPU sin bloqueo con RoCE. A4X utiliza un diseño de red optimizado para rieles, lo que reduce la latencia para los colectivos de GPU y mejora el rendimiento. La estructura de red Jupiter permite combinar dominios NVL72 y escalar a decenas de miles de GPUs en un solo clúster sin bloqueo.
  • Refrigeración líquida avanzada: Las VMs A4X se enfrían con la infraestructura de refrigeración líquida de tercera generación de Google. La refrigeración consistente y eficiente es esencial para evitar la limitación térmica y mantener el máximo rendimiento computacional. La infraestructura de refrigeración líquida se basa en el aprendizaje de años de experiencia operativa global. Dado que se han dominado las complejidades del despliegue y la gestión de la infraestructura refrigerada por líquido a escala, A4X estará disponible en una gama más amplia de regiones de Google Cloud, lo que acelerará el acceso a esta potente tecnología para los clientes de todo el mundo.
  • Optimización del ecosistema de software: Especialmente para el sistema A4X con hosts basados en Arm, las opciones de software son críticas. Se ha colaborado con NVIDIA para garantizar que se tenga acceso a software optimizado para el rendimiento, incluidas bibliotecas y controladores que funcionan bien con marcos populares como PyTorch y JAX. Se pueden encontrar recetas de GPU para ayudar a comenzar con las cargas de trabajo de inferencia y entrenamiento.

Integración nativa en Google Cloud
Con A4X se puede integrar fácilmente en los productos y servicios de Google Cloud.

  • Almacenamiento: Las VMs A4X están integradas de forma nativa con Cloud Storage FUSE para un rendimiento de entrenamiento 2,9 veces mejor en comparación con los cargadores de datos de marco ML nativos; Parallelstore para un entrenamiento 3,9 veces mejor y acceso de baja latencia (submilisegundo) con alto rendimiento y alto IOPS; e Hyperdisk ML, que puede acelerar el tiempo de carga del modelo hasta 11,9 veces en comparación con alternativas comunes.
  • Google Kubernetes Engine (GKE): Como parte de la plataforma de administración de contenedores líder en la industria de Google Cloud, GKE y las VMs A4X son una combinación poderosa, que maximiza el uso de recursos mientras escala las cargas de trabajo de entrenamiento y servicio de AI/ML. Con la capacidad de manejar hasta 65.000 nodos por clúster, esta combinación hace posible ejecutar cargas de trabajo de IA a gran escala con inferencia de baja latencia y uso compartido de carga de trabajo entre 72 GPUs, desbloqueando nuevas posibilidades de rendimiento de IA.
  • Plataforma Vertex AI: Vertex AI es una plataforma de desarrollo de IA totalmente administrada, abierta e integrada para acelerar proyectos de IA. Se pueden entrenar, ajustar o desplegar fácilmente modelos de ML con acceso a los últimos modelos Gemini de Google o elegir entre una amplia variedad de modelos y modelos abiertos.

Una asociación estratégica
Además, NVIDIA DGX Cloud, una plataforma de IA totalmente administrada, pronto estará disponible en las VMs A4X para acelerar las iniciativas de IA de los clientes.

«Los desarrolladores e investigadores necesitan acceso a la última tecnología para entrenar y desplegar modelos de IA para aplicaciones e industrias específicas. La colaboración con Google proporciona a los clientes un rendimiento y una escalabilidad mejorados, lo que les permite abordar las cargas de trabajo de IA generativa, LLM y computación científica más exigentes, mientras se benefician de la facilidad de uso y el alcance global de Google Cloud», afirmó Alexis Bjorlin, VP de NVIDIA DGX Cloud, NVIDIA.

Clientes como Magic han elegido construir sus modelos de vanguardia en las VMs A4X de Google Cloud.

«Estamos entusiasmados de asociarnos con Google y NVIDIA para construir nuestra supercomputadora de IA de próxima generación en Google Cloud. Las VMs A4X de Google Cloud impulsadas por el sistema GB200 NLV72 de NVIDIA mejorarán enormemente la eficiencia de inferencia y entrenamiento de nuestros modelos, y Google Cloud nos ofrece el cronograma más rápido para escalar y un rico ecosistema de servicios en la nube», declaró Eric Steinberger, CEO y cofundador de Magic.

Elegir la VM correcta: A4 vs. A4X
Google Cloud ofrece tanto VMs A4 impulsadas por GPUs NVIDIA B200 como VMs A4X impulsadas por NVIDIA GB200

Fuente: Informe de Prensa Google Cloud

Custom Text
Artículo anteriorEvolución de la Seguridad en Cuentas de Google: El Adiós a la Verificación por SMS
Artículo siguienteBybit sacudida por un robo de US$1.500 millones