Gemini Omni y la nueva etapa de la generación audiovisual con IA

Gemini Omni introduce capacidades que permiten transformar videos, mantener coherencia visual y generar escenas basadas en conocimiento del mundo.

0
3
Gemini Omni - Google

Google aprovechó su conferencia anual Google I/O 2026 para presentar también una nueva pieza dentro de su estrategia tecnológica, se trata de Google Gemini Omni, la siguiente evolución de su línea de modelos multimodales, una propuesta que combina la capacidad de razonamiento de la familia Gemini con funciones avanzadas de creación audiovisual. La compañía describe este lanzamiento como un paso natural tras la introducción de herramientas como Nano Banana, que acercaron la generación y edición de imágenes a un público amplio. Con Omni, el objetivo se desplaza hacia la producción de video a partir de cualquier combinación de entradas, ya sea texto, imágenes, audio o clips preexistentes, y hacia la edición mediante instrucciones conversacionales.

El modelo se estrena con Gemini Omni Flash, disponible inicialmente en la aplicación de Gemini, Google Flow y YouTube Shorts. La propuesta se basa en permitir que un usuario tome un video propio y lo transforme mediante lenguaje natural, manteniendo coherencia en personajes, iluminación, física y continuidad narrativa. Cada instrucción se suma a la anterior, lo que permite modificar escenas de manera progresiva sin perder la estructura original. Google sostiene que esta capacidad se apoya en una comprensión más intuitiva de elementos físicos como gravedad, energía cinética o dinámica de fluidos, un aspecto que busca diferenciar la generación de video de simples transformaciones visuales.

La compañía también destaca que Omni puede producir escenas fundamentadas en conocimiento del mundo, integrando referencias históricas, científicas o culturales cuando el usuario lo solicita. Este enfoque responde a una tendencia creciente en los modelos multimodales: no solo generar contenido visualmente convincente, sino también vincularlo con información contextual que permita construir narrativas más coherentes. En este sentido, Google señala que Omni puede crear explicaciones visuales de conceptos complejos, como procesos biológicos o fenómenos físicos, a partir de descripciones breves.

Otro elemento central del anuncio es la capacidad del modelo para trabajar con referencias diversas. Una imagen, un fragmento de audio o un video pueden servir como punto de partida para generar una escena cohesiva, adaptando estilo, movimiento o composición según las instrucciones. Este tipo de funcionalidad se ha vuelto relevante en ámbitos creativos y educativos, donde la combinación de materiales heterogéneos permite explorar ideas sin necesidad de herramientas de edición avanzadas. Google anticipa que, con el tiempo, Omni incorporará más modalidades de salida, como generación de imágenes y audio, ampliando su alcance más allá del video.

La empresa también introdujo funciones relacionadas con avatares digitales, que permiten crear videos en los que la voz y la apariencia del usuario se reproducen de manera sintética. Google afirma que estas capacidades se implementan bajo políticas de uso responsable y con mecanismos de transparencia, como la marca de agua digital SynthID, que identifica contenido generado con IA sin alterar su apariencia. La compañía señala que continúa evaluando cómo introducir funciones más avanzadas de edición de voz y discurso sin comprometer la seguridad o la autenticidad del contenido.

Gemini Omni Flash se lanza globalmente para suscriptores de Google AI Plus, Pro y Ultra, y también estará disponible sin costo en YouTube Shorts y YouTube Create. En las semanas siguientes, la empresa planea extender el acceso a desarrolladores y clientes empresariales mediante API, lo que permitirá integrar estas capacidades en aplicaciones externas. El anuncio se enmarca en un contexto donde la generación de video con IA se ha convertido en un área de investigación y desarrollo acelerado, con avances recientes en modelos que buscan equilibrar calidad visual, coherencia temporal y control creativo.

Con Omni, Google apunta a un escenario donde la creación audiovisual se vuelve más accesible y donde la interacción con modelos de IA se asemeja cada vez más a un diálogo continuo. La combinación de razonamiento, conocimiento del mundo y edición conversacional sugiere una dirección en la que la producción de contenido deja de depender exclusivamente de herramientas técnicas y se acerca a un proceso guiado por intención narrativa.

Fuente: Blog de Google | Editado por CDOL

Custom Text
Artículo anteriorDe la obsolescencia a la agilidad: ABSIDE analiza por qué postergar SAP Cloud ERP es el «impuesto invisible» de las empresas
Artículo siguienteMercado smartphones en América Latina crece 3% y llega a 34.8 millones de unidades en el 1T2026