Gemini 3.1 Flash TTS: la nueva propuesta de Google para generación de voz controlable

El sistema permite ajustar estilo, ritmo y entonación, e integra mecanismos de seguridad para identificar audio sintético.

Por

Prensa CambioDigital OnLine

16 abril 2026

Google anunció Gemini 3.1 Flash TTS, un nuevo modelo de conversión de texto a voz diseñado para ofrecer un mayor nivel de control creativo, expresividad y calidad en la generación de audio. La compañía enmarca este lanzamiento dentro de su estrategia de ampliar las capacidades de la familia Gemini hacia aplicaciones multimodales que puedan integrarse en productos de consumo, herramientas de desarrollo y entornos empresariales.

El modelo introduce mejoras en la naturalidad del habla generada, respaldadas por evaluaciones en el benchmark Artificial Analysis TTS, donde obtuvo un puntaje Elo de 1.211. Este tipo de métricas, basadas en preferencias humanas ciegas, se ha convertido en un estándar para comparar modelos de voz sintética en la industria. Además de la calidad, el modelo incorpora funciones nativas de diálogo multivoz y compatibilidad con más de 70 idiomas, lo que apunta a un uso más amplio en aplicaciones globales.

Uno de los elementos centrales del anuncio es la introducción de audio tags, un sistema que permite controlar el estilo vocal, el ritmo y la entonación mediante instrucciones en lenguaje natural insertadas directamente en el texto. Esta aproximación busca ofrecer un nivel de granularidad que facilite la creación de voces diferenciadas, personajes coherentes y narraciones más matizadas. Google señala que estas capacidades pueden resultar útiles en ámbitos como asistentes conversacionales, contenidos educativos, herramientas creativas y aplicaciones empresariales que requieren voces consistentes.

El modelo se integra en Google AI Studio, Vertex AI y Google Vids, lo que permite a desarrolladores y organizaciones experimentar con configuraciones avanzadas, ajustar perfiles de voz y exportar parámetros para mantener coherencia entre proyectos. En el caso de Vertex AI, la compañía destaca que las empresas pueden incorporar audio tags en flujos de trabajo más amplios, combinando generación de voz con otros componentes de IA.

Como parte de su enfoque de seguridad, Google confirmó que todo el audio generado con Gemini 3.1 Flash TTS incluye una marca de agua imperceptible mediante SynthID. Esta tecnología, utilizada también en imágenes y vídeo generados por IA, permite identificar contenido sintético sin afectar la experiencia auditiva. Organismos como la OCDE y la Comisión Europea han señalado la importancia de mecanismos de trazabilidad en sistemas generativos, especialmente en contextos donde la desinformación o la suplantación de identidad pueden tener impacto social o económico.

El anuncio se produce en un momento en que la industria de la síntesis de voz avanza hacia modelos más controlables y adaptables. Investigaciones recientes de universidades y laboratorios independientes han destacado la necesidad de herramientas que permitan ajustar la prosodia, el acento y la expresividad sin requerir entrenamiento especializado. En paralelo, empresas de sectores como entretenimiento, educación y servicios financieros están explorando cómo integrar voces sintéticas en experiencias personalizadas, siempre bajo marcos de transparencia y responsabilidad.

Google plantea que Gemini 3.1 Flash TTS busca equilibrar creatividad, escalabilidad y seguridad, ofreciendo un modelo capaz de adaptarse a distintos casos de uso sin perder trazabilidad. La compañía anticipa que estas capacidades se ampliarán en futuras versiones, en línea con la evolución de la familia Gemini hacia modelos más multimodales y configurables.

Fuente: Blog de Google | Editado por CDOL

VenAmCham y el PNUD firman Memorando de Entendimiento para impulsar desarrollo…

Creo en Tí: Cashea amplía su apoyo a quienes reconstruyen Venezuela…

Google imágenes cumple 25 años y renueva su buscador con IA

Movilnet avanza progresivamente en recuperación de cobertura en La Guaira

ASML e Intel llevan High NA EUV a la fabricación de…

Omdia: El mercado mundial de PC disminuyó 4% en 2T26 en…

La crisis de los chips frena el mercado de las PC,…

Qualcomm redefine su estrategia para centros de datos en la era…

La infraestructura de IA entra en una nueva fase con la…

El mercado global de la música grabada se encamina a un…

X modifica su algoritmo para dar prioridad a las publicaciones de…

SAP e IBM impulsan la modernización de ERP en la nube…

El mercado global de smartphones cae 4% en 2T2026, mientras Apple…

Digitel mantiene su despliegue operativo y reafirma su compromiso con Venezuela…

Reportes apuntan al desarrollo de un dispositivo móvil con IA por…

Motorola compite en el mercado de los teléfonos plegables con el…

Estos son los diez países con más ataques de ransomware en…

Cómo hacer un chequeo rápido de seguridad en tu celular en…

Uno de cada 100 fallos en comprobación de identidad implica un…

Kaspersky alerta sobre estafas impulsadas por IA durante los partidos finales…

Alation introduce AIOS para gobernar agentes de IA en tiempo real

Microsoft trabaja en un nuevo videojuego de Fallout después de once…

El futuro del monitoreo de TI: de la dispersión de herramientas…

Google amplía los controles parentales a todos los dispositivos compatibles con…

Gemini 3.1 Flash TTS: la nueva propuesta de Google para generación de voz controlable

OTROS ARTÍCULOS RELACIONADOS

De pagar por token a pagar por resultado: así redefine OpenAI...

Inkling: un modelo entrenado desde cero para personalizar la inteligencia artificial

Demis Hassabis propone un organismo regulador para la inteligencia artificial de...

Instagram integra herramientas de inteligencia artificial generativa de forma nativa en...

Citrix apuesta por un punto único de control para el tráfico...

IBM refuerza su plataforma de desarrollo agéntico frente a la creciente...

Automatización y seguridad en la cadena de suministro de código abierto...

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

De pagar por token a pagar por resultado: así redefine OpenAI...