Gemini Omni y la nueva etapa de la generación audiovisual con IA

Gemini Omni introduce capacidades que permiten transformar videos, mantener coherencia visual y generar escenas basadas en conocimiento del mundo.

Por

Prensa CambioDigital OnLine

20 mayo 2026

Google aprovechó su conferencia anual Google I/O 2026 para presentar también una nueva pieza dentro de su estrategia tecnológica, se trata de Google Gemini Omni, la siguiente evolución de su línea de modelos multimodales, una propuesta que combina la capacidad de razonamiento de la familia Gemini con funciones avanzadas de creación audiovisual. La compañía describe este lanzamiento como un paso natural tras la introducción de herramientas como Nano Banana, que acercaron la generación y edición de imágenes a un público amplio. Con Omni, el objetivo se desplaza hacia la producción de video a partir de cualquier combinación de entradas, ya sea texto, imágenes, audio o clips preexistentes, y hacia la edición mediante instrucciones conversacionales.

El modelo se estrena con Gemini Omni Flash, disponible inicialmente en la aplicación de Gemini, Google Flow y YouTube Shorts. La propuesta se basa en permitir que un usuario tome un video propio y lo transforme mediante lenguaje natural, manteniendo coherencia en personajes, iluminación, física y continuidad narrativa. Cada instrucción se suma a la anterior, lo que permite modificar escenas de manera progresiva sin perder la estructura original. Google sostiene que esta capacidad se apoya en una comprensión más intuitiva de elementos físicos como gravedad, energía cinética o dinámica de fluidos, un aspecto que busca diferenciar la generación de video de simples transformaciones visuales.

La compañía también destaca que Omni puede producir escenas fundamentadas en conocimiento del mundo, integrando referencias históricas, científicas o culturales cuando el usuario lo solicita. Este enfoque responde a una tendencia creciente en los modelos multimodales: no solo generar contenido visualmente convincente, sino también vincularlo con información contextual que permita construir narrativas más coherentes. En este sentido, Google señala que Omni puede crear explicaciones visuales de conceptos complejos, como procesos biológicos o fenómenos físicos, a partir de descripciones breves.

Otro elemento central del anuncio es la capacidad del modelo para trabajar con referencias diversas. Una imagen, un fragmento de audio o un video pueden servir como punto de partida para generar una escena cohesiva, adaptando estilo, movimiento o composición según las instrucciones. Este tipo de funcionalidad se ha vuelto relevante en ámbitos creativos y educativos, donde la combinación de materiales heterogéneos permite explorar ideas sin necesidad de herramientas de edición avanzadas. Google anticipa que, con el tiempo, Omni incorporará más modalidades de salida, como generación de imágenes y audio, ampliando su alcance más allá del video.

La empresa también introdujo funciones relacionadas con avatares digitales, que permiten crear videos en los que la voz y la apariencia del usuario se reproducen de manera sintética. Google afirma que estas capacidades se implementan bajo políticas de uso responsable y con mecanismos de transparencia, como la marca de agua digital SynthID, que identifica contenido generado con IA sin alterar su apariencia. La compañía señala que continúa evaluando cómo introducir funciones más avanzadas de edición de voz y discurso sin comprometer la seguridad o la autenticidad del contenido.

Gemini Omni Flash se lanza globalmente para suscriptores de Google AI Plus, Pro y Ultra, y también estará disponible sin costo en YouTube Shorts y YouTube Create. En las semanas siguientes, la empresa planea extender el acceso a desarrolladores y clientes empresariales mediante API, lo que permitirá integrar estas capacidades en aplicaciones externas. El anuncio se enmarca en un contexto donde la generación de video con IA se ha convertido en un área de investigación y desarrollo acelerado, con avances recientes en modelos que buscan equilibrar calidad visual, coherencia temporal y control creativo.

Con Omni, Google apunta a un escenario donde la creación audiovisual se vuelve más accesible y donde la interacción con modelos de IA se asemeja cada vez más a un diálogo continuo. La combinación de razonamiento, conocimiento del mundo y edición conversacional sugiere una dirección en la que la producción de contenido deja de depender exclusivamente de herramientas técnicas y se acerca a un proceso guiado por intención narrativa.

Fuente: Blog de Google | Editado por CDOL

Digitel fortalece su capacidad de respuesta en La Guaira con la…

La ejecución autónoma de procesos reconfigura la economía del software corporativo

La tecnología detrás del rescate: cómo opera el despliegue internacional tras…

A partir de 2028 Sony no producirá más juegos físicos para…

Qualcomm redefine su estrategia para centros de datos en la era…

IBM introduce la arquitectura “nanostack” y abre una nueva etapa en…

La industria de semiconductores entra en una fase de integración más…

Proveedores de chips de Japón sufren caída histórica de ventas en…

Los nombres de usuario en WhatsApp podrían aumentar el robo de…

ManageEngine abre su ecosistema con un nuevo Marketplace

Las redes sociales se llenan de rostros creados por IA que…

Del hype al portafolio: Cinco formas como Wall Street está redefiniendo…

Digitel mantiene su despliegue operativo y reafirma su compromiso con Venezuela…

Reportes apuntan al desarrollo de un dispositivo móvil con IA por…

Motorola compite en el mercado de los teléfonos plegables con el…

Detrás de cada gol existe una red que millones de personas…

El 79% de los latinos borra su historial de navegación y…

Ciberdelincuentes usan falsas herramientas de IA para atacar a PyMEs: casos…

Menores en riesgo en línea, una investigación critica las medidas de…

IBM, Red Hat y Palo Alto Networks amplían Lightwell para acelerar…

Google amplía los controles parentales a todos los dispositivos compatibles con…

Red Hat actualiza su plataforma empresarial con capacidades poscuánticas y mejoras…

Apple soluciona el fallo que permitía leer mensajes eliminados en el…

Apple unifica sus servicios empresariales en una nueva plataforma

Gemini Omni y la nueva etapa de la generación audiovisual con IA

OTROS ARTÍCULOS RELACIONADOS

Nano Banana 2 Lite llega como modelo ligero para acelerar la...

La suspensión y retorno de Fable 5 redefine la relación entre IA...

Descubren un método para engañar a los navegadores web basados en...

AWS Forward Deployed Engineering: ingenieros y agentes trabajando dentro de la...

Anthropic impulsa la autonomía con la nueva versión de Sonnet

El trabajo asistido por agentes se consolida en organizaciones globales

Razonamiento, seguridad y estabilidad: las claves del avance de GPT‑5.6

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

Digitel fortalece su capacidad de respuesta en La Guaira con la...