Recientemente, Meta anunció la puesta en marcha de AudioCraft, un conjunto de herramientas de IA generativa para crear música y audio a partir de textos. Con estas herramientas, los creadores de contenidos pueden introducir descripciones de texto sencillas para generar paisajes sonoros complejos, componer melodías o incluso simular orquestas virtuales completas.
AudioCraft consta de tres componentes básicos: AudioGen, una herramienta para generar diversos efectos de audio y paisajes sonoros; MusicGen, que puede crear composiciones musicales y melodías a partir de descripciones; y EnCodec, un códec de compresión de audio basado en redes neuronales.
En concreto, Meta afirma que EnCodec, del que hablamos por primera vez en noviembre, ha sido mejorado recientemente y permite «generar música de mayor calidad con menos artefactos». Además, AudioGen puede crear efectos de sonido como el ladrido de un perro, el claxon de un vehículo o pisadas en un suelo de madera. Y MusicGen puede crear canciones de varios géneros a partir de cero, según descripciones como «Pista de baile pop con melodías pegadizas, percusiones tropicales y ritmos alegres, perfecta para la playa».
Meta ha proporcionado varias muestras de audio en su sitio web para su evaluación. Los resultados parecen estar en consonancia con su etiquetado de vanguardia, pero podría decirse que no tienen la calidad suficiente para sustituir a los efectos de audio o la música comercial producidos profesionalmente.
Meta señala que, mientras que los modelos de IA generativa centrados en texto e imágenes fijas han recibido mucha atención (y son relativamente fáciles de experimentar en línea), el desarrollo de herramientas de audio generativo se ha quedado atrás. «Hay algunos trabajos por ahí, pero son muy complicados y poco abiertos, así que la gente no puede jugar fácilmente con ellos», escriben. Pero esperan que la publicación de AudioCraft bajo la licencia MIT contribuya a la comunidad en general proporcionando herramientas accesibles para la experimentación musical y sonora.
«Los modelos están disponibles con fines de investigación y para que la gente conozca mejor la tecnología. Estamos muy contentos de dar acceso a investigadores y profesionales para que puedan entrenar sus propios modelos con sus propios conjuntos de datos por primera vez y ayudar a avanzar en el estado de la técnica», dijo Meta.
Meta no es la primera empresa que experimenta con generadores de audio y música basados en IA. Entre los intentos recientes más notables, OpenAI presentó su Jukebox en 2020, Google estrenó MusicLM en enero y, el pasado diciembre, un equipo de investigación independiente creó una plataforma de generación de texto a música llamada Riffusion utilizando una base de difusión estable.
Ninguno de estos proyectos de audio generativo ha atraído tanta atención como los modelos de síntesis de imágenes, pero eso no significa que el proceso de desarrollarlos no sea menos complicado, como señala Meta en su sitio web:
Generar audio de alta fidelidad de cualquier tipo requiere modelar señales y patrones complejos a distintas escalas. Podría decirse que la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos. La generación de música coherente con IA se ha abordado a menudo mediante el uso de representaciones simbólicas como MIDI o rollos de piano. Sin embargo, estos enfoques son incapaces de captar plenamente los matices expresivos y los elementos estilísticos que se encuentran en la música. Los avances más recientes aprovechan el aprendizaje autosupervisado de representaciones de audio y una serie de modelos jerárquicos o en cascada para generar música, introduciendo el audio en bruto en un sistema complejo con el fin de captar las estructuras de largo alcance de la señal y generar al mismo tiempo audio de calidad. Pero sabíamos que se podía hacer más en este campo.
En medio de la polémica sobre el material de entrenamiento no divulgado y potencialmente poco ético utilizado para crear modelos de síntesis de imagen como Stable Diffusion, DALL-E y Midjourney, es notable que Meta diga que MusicGen se entrenó con «20.000 horas de música propiedad de Meta o con licencia específica para este fin». A primera vista, parece un movimiento en una dirección más ética que puede complacer a algunos críticos de la IA generativa.
Será interesante ver cómo los desarrolladores de código abierto deciden integrar estos modelos de audio Meta en su trabajo. Puede que en un futuro próximo surjan herramientas de audio generativo interesantes y fáciles de usar. Por ahora, los más expertos en código pueden encontrar los componentes de los modelos y el código de las tres herramientas AudioCraft en GitHub.
Fuente WEB | Editado por CambioDigital OnLine