Gemini 3.1 Flash TTS: la nueva propuesta de Google para generación de voz controlable

El sistema permite ajustar estilo, ritmo y entonación, e integra mecanismos de seguridad para identificar audio sintético.

0
5
Foto Google

Google anunció Gemini 3.1 Flash TTS, un nuevo modelo de conversión de texto a voz diseñado para ofrecer un mayor nivel de control creativo, expresividad y calidad en la generación de audio. La compañía enmarca este lanzamiento dentro de su estrategia de ampliar las capacidades de la familia Gemini hacia aplicaciones multimodales que puedan integrarse en productos de consumo, herramientas de desarrollo y entornos empresariales.

El modelo introduce mejoras en la naturalidad del habla generada, respaldadas por evaluaciones en el benchmark Artificial Analysis TTS, donde obtuvo un puntaje Elo de 1.211. Este tipo de métricas, basadas en preferencias humanas ciegas, se ha convertido en un estándar para comparar modelos de voz sintética en la industria. Además de la calidad, el modelo incorpora funciones nativas de diálogo multivoz y compatibilidad con más de 70 idiomas, lo que apunta a un uso más amplio en aplicaciones globales.

Uno de los elementos centrales del anuncio es la introducción de audio tags, un sistema que permite controlar el estilo vocal, el ritmo y la entonación mediante instrucciones en lenguaje natural insertadas directamente en el texto. Esta aproximación busca ofrecer un nivel de granularidad que facilite la creación de voces diferenciadas, personajes coherentes y narraciones más matizadas. Google señala que estas capacidades pueden resultar útiles en ámbitos como asistentes conversacionales, contenidos educativos, herramientas creativas y aplicaciones empresariales que requieren voces consistentes.

El modelo se integra en Google AI Studio, Vertex AI y Google Vids, lo que permite a desarrolladores y organizaciones experimentar con configuraciones avanzadas, ajustar perfiles de voz y exportar parámetros para mantener coherencia entre proyectos. En el caso de Vertex AI, la compañía destaca que las empresas pueden incorporar audio tags en flujos de trabajo más amplios, combinando generación de voz con otros componentes de IA.

Como parte de su enfoque de seguridad, Google confirmó que todo el audio generado con Gemini 3.1 Flash TTS incluye una marca de agua imperceptible mediante SynthID. Esta tecnología, utilizada también en imágenes y vídeo generados por IA, permite identificar contenido sintético sin afectar la experiencia auditiva. Organismos como la OCDE y la Comisión Europea han señalado la importancia de mecanismos de trazabilidad en sistemas generativos, especialmente en contextos donde la desinformación o la suplantación de identidad pueden tener impacto social o económico.

El anuncio se produce en un momento en que la industria de la síntesis de voz avanza hacia modelos más controlables y adaptables. Investigaciones recientes de universidades y laboratorios independientes han destacado la necesidad de herramientas que permitan ajustar la prosodia, el acento y la expresividad sin requerir entrenamiento especializado. En paralelo, empresas de sectores como entretenimiento, educación y servicios financieros están explorando cómo integrar voces sintéticas en experiencias personalizadas, siempre bajo marcos de transparencia y responsabilidad.

Google plantea que Gemini 3.1 Flash TTS busca equilibrar creatividad, escalabilidad y seguridad, ofreciendo un modelo capaz de adaptarse a distintos casos de uso sin perder trazabilidad. La compañía anticipa que estas capacidades se ampliarán en futuras versiones, en línea con la evolución de la familia Gemini hacia modelos más multimodales y configurables.

Fuente: Blog de Google | Editado por CDOL

Custom Text
Artículo anteriorUna nueva arquitectura de Broadcom para desplegar agentes de IA con mayor control