El salto hacia la IA física: NVIDIA introduce la arquitectura Cosmos 3

El nuevo omnimodelo multimodal promete reducir los ciclos de entrenamiento de la robótica industrial de meses a días.

0
11
Foto NVIDIA

En el marco de las presentaciones globales de tecnología en Taipéi, la evolución de la inteligencia artificial ha comenzado a desplazarse desde las pantallas y el procesamiento de texto hacia el entorno material. NVIDIA ha formalizado este cambio de paradigma con la presentación de Cosmos 3, un sistema que la compañía define como el primer omnimodelo completamente abierto enfocado en la denominada IA física (Physical AI).

A diferencia de los modelos de lenguaje convencionales, optimizados para predecir estructuras sintácticas o textuales, Cosmos 3 aborda el análisis y la anticipación del comportamiento en el mundo real. Su desarrollo técnico se fundamenta en una arquitectura unificada de Mezcla de Transformadores (mixture-of-transformers), la cual integra y procesa simultáneamente variables de distinta naturaleza: texto, imágenes fijas, secuencias de video, audio ambiental y datos de acción directa, tales como los ángulos de articulación en extremidades robóticas o las coordenadas de trayectoria (waypoints). Esta estructura elimina la necesidad de emplear arquitecturas fragmentadas o tuberías de procesamiento independientes para cada sensor, centralizando la percepción y la ejecución en un único núcleo cognitivo.

El sistema se ha estructurado en dos variantes de escala para responder a diferentes necesidades operativas. Por un lado, Cosmos 3 Nano, con 8.000 millones de parámetros, está diseñado para tareas que exigen un razonamiento de video y acción expedito. Por otro lado, Cosmos 3 Super, de 32.000 millones de parámetros, se orienta a ejecuciones que requieren una mayor precisión física y fidelidad en la simulación de entornos. Los reportes técnicos iniciales y los índices de referencia de la industria, como VANTAGE-Bench y las evaluaciones de Artificial Analysis, ubican a estas variantes en posiciones destacadas en pruebas de generación de texto a imagen y de imagen a video, así como en la resolución de anomalías de tráfico y comprensión de infraestructuras inteligentes.

La viabilidad comercial y el nivel de madurez de la plataforma se reflejan en su adopción inmediata por parte de conglomerados industriales. Empresas globales como Samsung, LG Electronics, Doosan Robotics y el fabricante de vehículos autónomos Li Auto han comenzado a integrar el modelo en sus respectivas líneas de desarrollo para optimizar la toma de decisiones autónoma en maquinaria y sistemas de navegación. Los pesos del modelo se han puesto a disposición pública en el repositorio Hugging Face bajo la licencia OpenMDW-1.1, un esquema que autoriza la explotación comercial del sistema bajo condiciones específicas de atribución.

Para dar soporte a este ecosistema, se ha anunciado la creación de la Cosmos Coalition, una iniciativa conjunta en la que participan laboratorios de inteligencia artificial y desarrolladores de robótica como Agile Robots, Black Forest Labs, Runway y Skild AI. El propósito de este consorcio es estandarizar y acelerar el diseño de modelos de mundo abiertos, facilitando el intercambio de metodologías y reduciendo los costos asociados a la infraestructura de entrenamiento.

Más allá de las capacidades de comprensión multimodal, el impacto sectorial más relevante de este lanzamiento reside en la optimización de los tiempos de desarrollo. De acuerdo con los datos presentados, la implementación de Cosmos 3 permite reducir los ciclos de entrenamiento de políticas robóticas y modelos de conducción autónoma, transformando procesos que habitualmente requerían meses de computo en flujos de trabajo realizables en pocos días. Esta aceleración se apoya de manera sustancial en la capacidad del modelo para generar datos sintéticos de alta fidelidad, simulando escenarios físicos complejos, variaciones climáticas o condiciones operativas críticas en entornos virtuales cerrados antes de trasladar el aprendizaje al hardware real.

Fuente: NVIDIA | Editado por CDOL

Custom Text
Artículo anteriorDel caos en la cancha al control en la estrategia: cómo las empresas ganan en entornos impredecibles
Artículo siguienteAnthropic expande el proyecto Mythos para la ciberseguridad en quince países