Google ha presentado Gemini 3.1 Flash Live, un modelo de audio diseñado para mejorar la naturalidad y la fiabilidad de las interacciones por voz en tiempo real. La compañía lo describe como su propuesta más avanzada en este ámbito, orientada tanto a desarrolladores como a empresas y usuarios finales que buscan experiencias más fluidas en asistentes conversacionales, agentes de voz y aplicaciones multimodales.
El lanzamiento se produce en un momento en el que los modelos de IA orientados a voz están evolucionando hacia sistemas capaces de mantener diálogos más largos, interpretar matices acústicos y ejecutar tareas complejas sin perder coherencia. En este contexto, Google amplía la familia Gemini con un modelo que combina baja latencia, mayor precisión y una comprensión más fina del tono y el ritmo del habla.
Gemini 3.1 Flash Live está disponible en varios frentes: en vista previa para desarrolladores a través de la Gemini Live API en Google AI Studio, integrado en Gemini Enterprise for Customer Experience para empresas y accesible al público general mediante Search Live y Gemini Live, que ahora se expanden a más de 200 países y territorios.
Una de las mejoras más destacadas es su capacidad para manejar instrucciones complejas en entornos reales, donde las interrupciones, los ruidos y las vacilaciones son habituales. En pruebas como ComplexFuncBench Audio, orientada a evaluar llamadas a funciones en múltiples pasos, el modelo alcanza un rendimiento superior al de versiones anteriores. También muestra avances en el benchmark Audio MultiChallenge de Scale AI, que mide la capacidad de seguir instrucciones extensas y mantener razonamientos de largo alcance. Estos resultados reflejan una tendencia general en la industria: los modelos de voz ya no se limitan a transcribir o responder preguntas simples, sino que se están convirtiendo en interfaces capaces de ejecutar tareas estructuradas y adaptarse al contexto conversacional.
El modelo también incorpora mejoras en la interpretación del tono, lo que permite ajustar las respuestas según señales acústicas como el ritmo o la expresión de frustración del usuario. En entornos empresariales, esta capacidad resulta relevante para agentes de atención al cliente que deben responder de forma más sensible a las emociones detectadas en la voz. Empresas como Verizon, LiveKit o The Home Depot han comenzado a probar el modelo en sus flujos de trabajo, destacando la mayor naturalidad en las conversaciones.
Para los usuarios finales, la integración de Gemini 3.1 Flash Live en Search Live y Gemini Live se traduce en respuestas más rápidas y en la capacidad de mantener el hilo de la conversación durante el doble de tiempo que la versión anterior. Esto facilita sesiones de brainstorming, consultas prolongadas o interacciones multimodales en las que el modelo combina voz, texto e imagen. La expansión global de Search Live, habilitada por la naturaleza multilingüe del modelo, permite que personas de más de 200 países accedan a conversaciones en tiempo real en su idioma preferido.
En materia de seguridad, Google incorpora SynthID, una marca de agua imperceptible que se incrusta directamente en el audio generado. Esta tecnología, ya utilizada en imágenes y vídeo, permite identificar contenido producido por IA y forma parte de los esfuerzos de la compañía para mitigar la desinformación y reforzar la trazabilidad del contenido sintético.
El lanzamiento de Gemini 3.1 Flash Live se suma a una competencia creciente en el ámbito de los modelos de voz en tiempo real, donde empresas tecnológicas están explorando nuevas arquitecturas para reducir la latencia, mejorar la prosodia y permitir interacciones más naturales. La apuesta de Google combina avances técnicos con una estrategia de despliegue amplia, que abarca desde herramientas para desarrolladores hasta productos de consumo.
Con esta actualización, Google continúa ampliando las capacidades de la familia Gemini en un terreno donde la voz se perfila como una interfaz clave para la próxima generación de aplicaciones basadas en IA.
Fuente: Entrada en el blog de Google | Editado por CDOL









































