El códec de audio impulsado por la IA de Meta promete una compresión 10 veces superior a la del MP3

La técnica podría permitir llamadas y música de alta calidad en conexiones de baja calidad.

0
40

La semana pasada, Meta anunció un método de compresión de audio basado en la inteligencia artificial, denominado «EnCodec», que supuestamente puede comprimir el audio 10 veces más que el formato MP3 a 64 kbps sin pérdida de calidad. Meta afirma que esta técnica podría mejorar drásticamente la calidad del sonido de la voz en conexiones con poco ancho de banda, como las llamadas telefónicas en zonas con un servicio irregular. La técnica también funciona con la música.

Meta presentó esta tecnología el 25 de octubre en un artículo titulado «High Fidelity Neural Audio Compression», escrito por los investigadores de Meta AI Alexandre Défossez, Jade Copet, Gabriel Synnaeve y Yossi Adi. Meta también ha resumido la investigación en su blog dedicado a EnCodec.

Meta afirma que su nuevo codificador/decodificador de audio puede comprimir el audio 10 veces menos que el MP3.

Meta describe su método como un sistema de tres partes entrenado para comprimir el audio al tamaño deseado. En primer lugar, el codificador transforma los datos sin comprimir en una representación de «espacio latente» de menor velocidad. A continuación, el «cuantificador» comprime la representación hasta el tamaño deseado, sin perder de vista la información más importante que luego se utilizará para reconstruir la señal original. (Esta señal comprimida es la que se envía a través de una red o se guarda en el disco). Por último, el decodificador vuelve a convertir los datos comprimidos en audio en tiempo real utilizando una red neuronal en una sola CPU.

Diagrama de bloques que ilustra el funcionamiento de la compresión EnCodec de Meta.

El uso de discriminadores por parte de Meta resulta clave para crear un método que comprima el audio lo máximo posible sin perder los elementos clave de una señal que la hacen distintiva y reconocible:

«La clave de la compresión con pérdidas es identificar los cambios que no serán perceptibles por los humanos, ya que la reconstrucción perfecta es imposible a bajas tasas de bits. Para ello, utilizamos discriminadores para mejorar la calidad perceptiva de las muestras generadas. Esto crea un juego del gato y el ratón en el que el trabajo del discriminador es diferenciar entre las muestras reales y las reconstruidas. El modelo de compresión intenta generar muestras para engañar a los discriminadores haciendo que las muestras reconstruidas sean más similares a las originales desde el punto de vista de la percepción».

Cabe señalar que el uso de una red neuronal para la compresión y descompresión de audio no es ni mucho menos una novedad -especialmente para la compresión de voz-, pero los investigadores de Meta afirman que son el primer grupo que aplica la tecnología al audio estéreo de 48 kHz (ligeramente mejor que la velocidad de muestreo de 44,1 kHz de los CD), que es la típica de los archivos de música distribuidos en Internet.

En cuanto a las aplicaciones, Meta afirma que esta «hipercompresión de audio» potenciada por la IA podría permitir «llamadas más rápidas y de mejor calidad» en malas condiciones de red. Y, por supuesto, siendo Meta, los investigadores también mencionan las implicaciones metaversas de EnCodec, diciendo que la tecnología podría llegar a ofrecer «ricas experiencias metaversas sin requerir grandes mejoras de ancho de banda».

Más allá de eso, tal vez algún día podamos obtener archivos de audio musicales realmente pequeños. Por ahora, la nueva tecnología de Meta sigue en fase de investigación, pero apunta a un futuro en el que el audio de alta calidad puede utilizar menos ancho de banda, lo que sería una gran noticia para los proveedores de banda ancha móvil con redes sobrecargadas por el streaming de medios.

Fuente WEB | Editado por CambioDigital OnLine

Custom Text
Artículo anteriorLas CPUs Xeon «Sapphire Rapids» de Intel, tantas veces retrasadas, llegarán por fin a principios de 2023
Artículo siguienteIBM lanza software para agilizar la planificación y la analítica