Meta presenta nuevos modelos de IA generativa, Emu Video y Emu Edit

0
46

Acelerando el progreso en IA generativa, Meta, de Mark Zuckerberg, ha introducido nuevos modelos de texto a vídeo y edición llamados Emu Video y Emu Edit, respectivamente.

Emu Video es un nuevo modelo de generación de texto a vídeo que consta de dos pasos: generar una imagen basada en el texto y, a continuación, crear un vídeo utilizando tanto el texto como la imagen generada. El modelo consigue vídeos de alta calidad y resolución gracias a la optimización de los esquemas de ruido para la difusión y el entrenamiento en varias etapas.

Las evaluaciones humanas demuestran una calidad superior a la de los trabajos existentes, con preferencias del 81% sobre Imagen Video de Google, del 90% sobre PYOCO de NVIDIA y del 96% sobre Make-A-Video de Meta. El modelo también supera a soluciones comerciales como Gen2 de RunwayML y Pika Labs. En particular, su enfoque de factorización es muy adecuado para animar imágenes basadas en instrucciones de texto del usuario, superando en un 96% a trabajos anteriores.


Active el «Play» – Demo de la aplicación cortesía de Meta

Por otro lado, Emu Edit es un modelo de edición de imágenes multitarea que demuestra un rendimiento superior en la edición de imágenes basada en instrucciones. Supera a los modelos existentes entrenándose en varias tareas, como la edición basada en regiones, la edición de forma libre y las tareas de visión por ordenador.

El éxito de Emu Edit se atribuye a su aprendizaje multitarea, que utiliza incrustaciones de tareas aprendidas para guiar con precisión el proceso de generación. El modelo demuestra su versatilidad al generalizarse con éxito a nuevas tareas con un mínimo de ejemplos etiquetados, abordando escenarios con muestras limitadas de alta calidad. Además, se introduce una prueba comparativa completa con siete tareas diversas de edición de imágenes para una evaluación exhaustiva de los modelos de edición de imágenes instruibles.

El modelo aborda las limitaciones de los modelos de IA generativa existentes en la edición de imágenes. Se centra en el control preciso y las capacidades mejoradas mediante la incorporación de tareas de visión por ordenador como instrucciones. El modelo maneja la edición de forma libre, incluyendo tareas como la manipulación del fondo, las transformaciones de color y la detección de objetos.

A diferencia de muchos modelos existentes, sigue las instrucciones con precisión, garantizando que sólo se alteren los píxeles relevantes para la solicitud de edición. El modelo se ha entrenado con un gran conjunto de datos de 10 millones de muestras sintetizadas, presentando resultados sin precedentes en términos de fidelidad a las instrucciones y calidad de imagen. Emu Edit supera a los métodos actuales en las evaluaciones cualitativas y cuantitativas de diversas tareas de edición de imágenes, estableciendo un nuevo estado de la técnica.

Fuente WEB | Editado por CambioDigital OnLine

 

Custom Text
Artículo anteriorLos criminales se preparan para la temporada de compras en línea
Artículo siguienteMinecraft y Roblox son los más utilizados como cebo para atacar a jugadores en PC y dispositivos móviles