NVIDIA refuerza la inferencia interactiva con un acelerador centrado en estabilidad y velocidad

Groq 3 LPX se integra en la plataforma Rubin para gestionar cargas sensibles al tiempo en sistemas agenticos.

0
13
NVIDIA Groq 3 LPX rack - Foto NVIDIA

La aceleración de la inteligencia artificial está entrando en una fase en la que la velocidad de generación de tokens y la capacidad de sostener contextos extensos se han convertido en factores determinantes para ofrecer experiencias realmente interactivas. En ese escenario, NVIDIA ha presentado Groq 3 LPX, un acelerador de inferencia a escala de rack diseñado para integrarse en la plataforma Vera Rubin y responder a las exigencias de los sistemas agenticos, que requieren latencias bajas y un flujo continuo de razonamiento. La propuesta combina un camino especializado para la generación rápida y estable de tokens con la capacidad de cómputo masivo de los sistemas Rubin NVL72, que continúan siendo el motor generalista para entrenamiento e inferencia de gran escala.

El planteamiento parte de una observación clara: a medida que los modelos avanzan hacia ventanas de contexto más amplias y cadenas de razonamiento más largas, la fase de decode se vuelve cada vez más crítica. La interacción deja de ser un intercambio pausado y se acerca a un ritmo de colaboración en tiempo real, donde la latencia acumulada en cada token afecta directamente la experiencia del usuario. En este punto, la arquitectura homogénea tradicional empieza a mostrar límites, ya que el mismo hardware que resulta eficiente para procesar grandes lotes de datos no siempre es el más adecuado para ejecutar operaciones secuenciales y sensibles al tiempo.

Groq 3 LPX aborda este problema mediante un diseño centrado en la ejecución determinista, la memoria en chip de gran ancho de banda y la comunicación directa entre aceleradores. El sistema agrupa 256 unidades LPU en una arquitectura que prioriza la previsibilidad del tiempo de respuesta, apoyándose en 128 GB de SRAM y un ancho de banda interno que supera los 40 PB/s. Cada bandeja de cómputo integra ocho LPUs y un procesador anfitrión en un diseño sin cables, pensado para reducir la complejidad operativa y mantener la coherencia entre cómputo y comunicación. Esta aproximación permite que la inferencia interactiva mantenga un comportamiento estable incluso cuando aumenta la concurrencia o varían las formas de las solicitudes.

El núcleo de la propuesta es el chip Groq 3 LPU, que organiza el trabajo en vectores de tamaño fijo y combina módulos especializados para operaciones matriciales, vectoriales y de movimiento de datos. En lugar de depender de mecanismos automáticos de caché, la arquitectura utiliza SRAM como espacio de trabajo principal y delega en el compilador la gestión explícita del movimiento de datos. Esta estrategia reduce la variabilidad en la ejecución y evita los retrasos impredecibles que pueden aparecer en arquitecturas más generalistas. La comunicación entre chips se realiza mediante enlaces de alta velocidad diseñados para mantener la sincronización entre cientos de aceleradores, lo que permite que el sistema funcione como una unidad coordinada.

La integración con Rubin NVL72 se articula a través de un modelo de inferencia heterogéneo. Mientras los GPUs Rubin gestionan el prefill y la atención sobre contextos extensos, LPX se encarga de las partes más sensibles del decode, como la ejecución de redes FFN o MoE. Esta separación, conocida como desagregación atención–FFN, permite que cada componente del sistema ejecute la parte del ciclo para la que está mejor optimizado. El resultado es una reducción de la latencia sin sacrificar el rendimiento global del centro de datos, algo especialmente relevante en flujos agenticos donde la inferencia, la recuperación de información y el uso de herramientas se encadenan repetidamente.

El software también desempeña un papel clave. NVIDIA Dynamo coordina la distribución del trabajo entre GPUs y LPUs, gestiona la transferencia de activaciones y mantiene la estabilidad de la latencia incluso cuando las cargas son irregulares. Este enfoque permite que la arquitectura heterogénea funcione como un único sistema coherente, capaz de equilibrar la eficiencia en tareas de alto rendimiento con la capacidad de respuesta necesaria para aplicaciones interactivas.

La plataforma también habilita técnicas como la decodificación especulativa, donde un modelo más pequeño genera borradores de tokens que luego son verificados por un modelo mayor. En este esquema, LPX actúa como motor de generación rápida, mientras que los GPUs Rubin validan los resultados. Esta combinación acelera la producción de tokens sin comprometer la calidad del modelo principal.

El avance de Groq 3 LPX se enmarca en una tendencia más amplia: la necesidad de arquitecturas que combinen rendimiento masivo y baja latencia para soportar aplicaciones que van desde asistentes de programación hasta sistemas multiagente capaces de coordinar tareas complejas. La plataforma Vera Rubin, al integrar GPUs de alto rendimiento con aceleradores especializados, amplía el rango de puntos operativos posibles y permite que los centros de datos ofrezcan experiencias más fluidas sin renunciar a la eficiencia energética ni a la escalabilidad.

En conjunto, la propuesta de NVIDIA refleja un cambio en la forma de concebir la inferencia. Ya no se trata solo de maximizar el rendimiento agregado, sino de equilibrar capacidad, velocidad y estabilidad para responder a un ecosistema de aplicaciones donde la interacción en tiempo real y la profundidad del razonamiento son cada vez más importantes. Groq 3 LPX se posiciona como una pieza clave en esa transición, ofreciendo un camino especializado para la inferencia interactiva dentro de una arquitectura más amplia y flexible.

Fuente: Blog de NVIDIA | Editado por CDOL

Custom Text
Artículo anteriorSistemas heredados, soberanía de datos y criptografía post-cuántica: el triángulo de tensión tecnológica
Artículo siguienteNVIDIA presenta una infraestructura diseñada para entrenar y servir modelos cada vez más complejos