Un paso más en la evolución de los agentes: NVIDIA lanza Nemotron 3 Nano Omni

La propuesta combina eficiencia, apertura y soporte multimodal para facilitar la interpretación de pantallas, documentos y contenido audiovisual.

0
7
Foto NVIDIA

NVIDIA presentó Nemotron 3 Nano Omni, un modelo abierto concebido para unificar en un solo sistema las capacidades de visión, audio y lenguaje que hoy suelen repartirse entre varios modelos independientes. La compañía sitúa esta propuesta en un contexto en el que los agentes de IA necesitan interpretar pantallas, documentos, vídeos y audio de forma continua, sin perder contexto ni introducir latencias derivadas de pasar información entre modelos especializados. Con esta versión, NVIDIA busca ofrecer a desarrolladores y empresas un componente de percepción multimodal que pueda integrarse en flujos de trabajo agenticos y operar con mayor eficiencia en tareas que requieren razonamiento sobre múltiples tipos de contenido.

El modelo se presenta como una evolución dentro de la familia Nemotron 3, que ya incluía variantes orientadas a tareas de ejecución frecuente o planificación compleja. Nano Omni se diferencia por su enfoque en la percepción: actúa como los “ojos y oídos” de un sistema de agentes, procesando texto, imágenes, audio, vídeo, documentos y elementos gráficos dentro de un único flujo de inferencia. Según NVIDIA, esta integración permite reducir la fragmentación habitual entre modelos y mejorar la coherencia del razonamiento, especialmente en escenarios donde la información visual, sonora y textual se entrelaza de forma constante.

La arquitectura del modelo combina un enfoque híbrido de mixture‑of‑experts con componentes específicos para visión y audio, y admite contextos extensos que facilitan el análisis de secuencias largas. NVIDIA afirma que esta estructura permite alcanzar niveles de eficiencia superiores a los de otros modelos multimodales abiertos con capacidades comparables, lo que se traduce en un mayor rendimiento por unidad de cómputo y en una reducción del coste de inferencia. La compañía destaca que el modelo ha obtenido resultados sólidos en evaluaciones de comprensión de documentos, análisis de vídeo y razonamiento sobre audio, ámbitos que suelen requerir modelos especializados.

En la práctica, Nemotron 3 Nano Omni está pensado para integrarse en sistemas de agentes que necesitan interpretar interfaces gráficas, analizar documentos complejos o mantener coherencia entre lo que se muestra en pantalla, lo que se dice y lo que se registra en distintos formatos. NVIDIA menciona casos de uso como agentes capaces de navegar aplicaciones mediante reconocimiento de pantalla, sistemas de atención al cliente que combinan grabaciones de llamadas con análisis de registros y documentos, o herramientas financieras que procesan simultáneamente hojas de cálculo, gráficos y notas de voz. Empresas de distintos sectores —desde electrónica de consumo hasta servicios empresariales— ya están evaluando o adoptando el modelo para estos fines.

La propuesta mantiene el enfoque abierto que NVIDIA ha aplicado a la familia Nemotron. El modelo se publica con pesos abiertos, junto con conjuntos de datos y técnicas de entrenamiento que permiten a las organizaciones adaptar su comportamiento a necesidades específicas. Esta apertura facilita su despliegue en entornos con requisitos de soberanía o localización de datos, y permite utilizar herramientas como NVIDIA NeMo para personalizarlo o integrarlo en infraestructuras locales y en la nube. La disponibilidad del modelo en plataformas como Hugging Face, OpenRouter y build.nvidia.com amplía su alcance dentro del ecosistema de desarrolladores.

Nemotron 3 Nano Omni se suma así a una tendencia más amplia en el sector: la búsqueda de modelos multimodales capaces de servir como componentes centrales en sistemas agenticos, donde la percepción integrada es clave para reducir latencias y mejorar la calidad de las decisiones. NVIDIA plantea que la combinación de eficiencia, apertura y capacidad para operar junto a modelos más grandes —como Nemotron 3 Super o Ultra— ofrece un camino para construir agentes que puedan interactuar con entornos digitales complejos sin depender de múltiples modelos desconectados.

Fuente: NVIDIA | Editado por CDOL

Custom Text
Artículo anteriorIBM presenta Bob, su plataforma de IA para coordinar el ciclo completo del desarrollo de software