Google presenta Gemini 3.1 Flash Live, orientado a diálogos más largos y respuestas más precisas

La actualización amplía las capacidades multimodales y refuerza la seguridad con marcas de agua de audio mediante SynthID.

Por

Prensa CambioDigital OnLine

27 marzo 2026

Google ha presentado Gemini 3.1 Flash Live, un modelo de audio diseñado para mejorar la naturalidad y la fiabilidad de las interacciones por voz en tiempo real. La compañía lo describe como su propuesta más avanzada en este ámbito, orientada tanto a desarrolladores como a empresas y usuarios finales que buscan experiencias más fluidas en asistentes conversacionales, agentes de voz y aplicaciones multimodales.

El lanzamiento se produce en un momento en el que los modelos de IA orientados a voz están evolucionando hacia sistemas capaces de mantener diálogos más largos, interpretar matices acústicos y ejecutar tareas complejas sin perder coherencia. En este contexto, Google amplía la familia Gemini con un modelo que combina baja latencia, mayor precisión y una comprensión más fina del tono y el ritmo del habla.

Gemini 3.1 Flash Live está disponible en varios frentes: en vista previa para desarrolladores a través de la Gemini Live API en Google AI Studio, integrado en Gemini Enterprise for Customer Experience para empresas y accesible al público general mediante Search Live y Gemini Live, que ahora se expanden a más de 200 países y territorios.

Una de las mejoras más destacadas es su capacidad para manejar instrucciones complejas en entornos reales, donde las interrupciones, los ruidos y las vacilaciones son habituales. En pruebas como ComplexFuncBench Audio, orientada a evaluar llamadas a funciones en múltiples pasos, el modelo alcanza un rendimiento superior al de versiones anteriores. También muestra avances en el benchmark Audio MultiChallenge de Scale AI, que mide la capacidad de seguir instrucciones extensas y mantener razonamientos de largo alcance. Estos resultados reflejan una tendencia general en la industria: los modelos de voz ya no se limitan a transcribir o responder preguntas simples, sino que se están convirtiendo en interfaces capaces de ejecutar tareas estructuradas y adaptarse al contexto conversacional.

El modelo también incorpora mejoras en la interpretación del tono, lo que permite ajustar las respuestas según señales acústicas como el ritmo o la expresión de frustración del usuario. En entornos empresariales, esta capacidad resulta relevante para agentes de atención al cliente que deben responder de forma más sensible a las emociones detectadas en la voz. Empresas como Verizon, LiveKit o The Home Depot han comenzado a probar el modelo en sus flujos de trabajo, destacando la mayor naturalidad en las conversaciones.

Para los usuarios finales, la integración de Gemini 3.1 Flash Live en Search Live y Gemini Live se traduce en respuestas más rápidas y en la capacidad de mantener el hilo de la conversación durante el doble de tiempo que la versión anterior. Esto facilita sesiones de brainstorming, consultas prolongadas o interacciones multimodales en las que el modelo combina voz, texto e imagen. La expansión global de Search Live, habilitada por la naturaleza multilingüe del modelo, permite que personas de más de 200 países accedan a conversaciones en tiempo real en su idioma preferido.

En materia de seguridad, Google incorpora SynthID, una marca de agua imperceptible que se incrusta directamente en el audio generado. Esta tecnología, ya utilizada en imágenes y vídeo, permite identificar contenido producido por IA y forma parte de los esfuerzos de la compañía para mitigar la desinformación y reforzar la trazabilidad del contenido sintético.

El lanzamiento de Gemini 3.1 Flash Live se suma a una competencia creciente en el ámbito de los modelos de voz en tiempo real, donde empresas tecnológicas están explorando nuevas arquitecturas para reducir la latencia, mejorar la prosodia y permitir interacciones más naturales. La apuesta de Google combina avances técnicos con una estrategia de despliegue amplia, que abarca desde herramientas para desarrolladores hasta productos de consumo.

Con esta actualización, Google continúa ampliando las capacidades de la familia Gemini en un terreno donde la voz se perfila como una interfaz clave para la próxima generación de aplicaciones basadas en IA.

Fuente: Entrada en el blog de Google | Editado por CDOL

eyeo capta 40 millones de euros para impulsar su tecnología de…

Las seis principales emisoras de televisión de Chile demandan a Google

«Shark Bank no es un hito aislado, forma parte de nuestra…

La tecnología como motor de resiliencia: El éxito de los modelos…

Las ventas de monitores para computadora crecen impulsadas por el sector…

La impresión por inyección de tinta reducirá un 30% los costos…

Apple e Intel alcanzan un acuerdo preliminar para la fabricación de…

Mercado global de tabletas registra un crecimiento marginal del 0.1% en…

Las redes sociales generarán casi la mitad de la inversión publicitaria…

Spotify permite integrar podcast generados por IA a la biblioteca personal

El mercado de la educación digital alcanzará los US$ 115.7 mil…

WhatsApp permite silenciar las llamadas de números desconocidos

Qualcomm amplía su oferta móvil con Snapdragon 6 Gen 5 y…

OpenAI adelanta el lanzamiento de su primer smartphone para el próximo…

Envíos de smartphones crecen 1% en el 1T26, pero el futuro…

Entender las Telecomunicaciones es esencial para entender la economía mundial

El correo como frontera crítica de seguridad

Evolución del cibercrimen asistido por IA

Consumo de contenido para adultos en el trabajo eleva riesgos de…

Intel 471 introduce un mecanismo para evaluar el impacto de amenazas…

Red Hat actualiza su plataforma empresarial con capacidades poscuánticas y mejoras…

Apple soluciona el fallo que permitía leer mensajes eliminados en el…

Apple unifica sus servicios empresariales en una nueva plataforma

SUSE incorpora IA y virtualización avanzada para unificar la gestión de…

Google presenta Gemini 3.1 Flash Live, orientado a diálogos más largos y respuestas más precisas

OTROS ARTÍCULOS RELACIONADOS

OpenAI responde a Anthropic y lanza una IA para detectar fallos...

Perplexity lanza una IA capaz de controlar la computadora comenzando por...

ChatGPT notificará a una persona de confianza si el usuario muestra...

HPE integra automatización avanzada en su plataforma de red

F5 identifica la inferencia como la carga de trabajo dominante en...

La visión de IBM en Think 2026: agentes, datos gobernados y...

Apple ampliará las opciones de IA permitiendo el uso de diversos...

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

El correo como frontera crítica de seguridad