La IA VALL-E de Microsoft puede imitar cualquier voz a partir de una breve muestra de audio

Puede incluso preservar la "emoción y el entorno acústico" del hablante.

Por

10 enero 2023

Microsoft ha mostrado sus últimas investigaciones en inteligencia artificial de texto a voz con un modelo llamado VALL-E que puede simular la voz de alguien a partir de una muestra de audio de sólo tres segundos, según informa Ars Technica. La voz no sólo se ajusta al timbre, sino también al tono emocional del interlocutor e incluso a la acústica de una habitación. Algún día podría utilizarse para aplicaciones de texto a voz personalizadas o de gama alta, aunque, al igual que los deepfakes, conlleva riesgos de uso indebido.

VALL-E es lo que Microsoft llama un «modelo de lenguaje de códec neural». Se deriva de la red neuronal de compresión impulsada por IA Encodec de Meta, generando audio a partir de la entrada de texto y muestras cortas del hablante objetivo.

En un artículo, los investigadores describen cómo entrenaron a VALL-E con 60.000 horas de habla inglesa de más de 7.000 hablantes en la biblioteca de audio LibriLight de Meta. La voz que intenta imitar debe ser muy parecida a la de los datos de entrenamiento. Si es así, utiliza los datos de entrenamiento para deducir cómo sonaría el hablante de destino si pronunciara el texto deseado.

El equipo muestra exactamente cómo funciona esto en la página Github de VALL-E. Para cada frase que quieren que «pronuncie» la IA, tienen una indicación de tres segundos del hablante a imitar, una «verdad de base» del mismo hablante diciendo otra frase para comparar, una síntesis de texto a voz convencional de «línea de base» y la muestra de VALL-E al final.

Los resultados son variados: algunos suenan a máquina y otros son sorprendentemente realistas. El hecho de que conserve el tono emocional de las muestras originales es lo que convence a los que funcionan. También se ajusta fielmente al entorno acústico, de modo que si el locutor grabó su voz en una sala con eco, la salida de VALL-E también suena como si procediera del mismo lugar.

Para mejorar el modelo, Microsoft planea ampliar sus datos de entrenamiento «para mejorar el rendimiento del modelo en las perspectivas de prosodia, estilo de habla y similitud del hablante». También está explorando formas de reducir las palabras poco claras o que se pasan por alto.

Microsoft ha decidido no hacer público el código, posiblemente debido a los riesgos inherentes a la IA que puede poner palabras en boca de alguien. Añadió que seguiría sus «Microsoft AI Principals» en cualquier desarrollo posterior. «Dado que VALL-E puede sintetizar el habla manteniendo la identidad del hablante, puede conllevar riesgos potenciales de uso indebido del modelo, como la falsificación de la identificación de la voz o la suplantación de identidad», escribió la empresa en la sección «Impactos más amplios» de sus conclusiones.

Fuente WEB | Editado por CambioDigital OnLine

NVIDIA impulsa la Open Secure AI Alliance para fortalecer la defensa…

EPA entrega primeros fondos recaudados a organizaciones de ayuda humanitaria

Instagram suspende cuentas por grabar a personas sin su permiso con…

Damasco lanza la plataforma Da+Cuotas en alianza con Banco Mercantil y…

NVIDIA integra el CPU Vera para acelerar el diseño de sus…

Los data center consumirán una quinta parte de la electricidad de…

OpenAI se lanza al hardware con un teclado para desarrolladores

Envíos de pantallas OLED de gran tamaño aumentarán 18.8% en 2026…

La IA de Meta llega a los mensajes directos de la…

La deuda digital avanza en América Latina: por qué la tokenización…

WhatsApp para iPad ya permite la creación directa de perfiles

Netflix utiliza IA en trescientas producciones este año

Sony y Cisco integran tecnologías para optimizar la automatización en salas…

Light presenta Light Flip, un teléfono de almeja diseñado contra la…

Samsung renueva su apuesta por los plegables con una generación más…

Digitel inicia nueva etapa de apoyo a clientes de La Guaira…

Redes de ciberfraude aprovechan la expectativa por la película Odisea para…

Synology presenta Surveillance365, su nueva plataforma de videovigilancia en la nube

Kaspersky publica un plan de acción para prevenir fraudes financieros por…

Las identidades no supervisadas de IA se convierten en el nuevo…

Usuarios de Mac reportan más ataques de malware que los de…

Un dispositivo de cada seis en el mundo continúa utilizando Windows…

Alation introduce AIOS para gobernar agentes de IA en tiempo real

Microsoft trabaja en un nuevo videojuego de Fallout después de once…

La IA VALL-E de Microsoft puede imitar cualquier voz a partir de una breve muestra de audio

OTROS ARTÍCULOS RELACIONADOS

Moonshot AI libera el código fuente de Kimi K3 para su...

Google impulsa la seguridad de código con CodeMender en vista previa

Anthropic presenta Opus 5 con mejoras en rendimiento, seguridad y trabajo...

Estudio de Stanford advierte sobre los efectos del uso de IA...

OpenAI lanza ChatGPT Health en EE.UU. para la interpretación de datos...

Zuckerberg impulsa campaña institucional para promover el alcance social de la...

Presence: la nueva plataforma de OpenAI para agentes de IA corporativos

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

NVIDIA impulsa la Open Secure AI Alliance para fortalecer la defensa...