El modelo MGIE consiste en MLLM que proporciona instrucciones descriptivas al modelo de difusión para lograr los resultados de edición deseados.
Investigadores de Apple han publicado un nuevo artículo en el que describen su modelo de IA de edición de imágenes guiada por MLLM (MGIE), capaz de editar una imagen mediante instrucciones de texto. Apple ha colaborado con investigadores de la Universidad de California en Santa Bárbara para crear un nuevo modelo capaz de manejar una amplia gama de situaciones de edición, desde simples ajustes de color hasta manipulaciones de objetos más complejas.
El modelo MGIE consta de un Modelo de Lenguaje Multimodal Amplio que amplía las peticiones de los usuarios y proporciona «instrucciones expresivas concisas» que el modelo de difusión puede utilizar para editar la imagen de entrada. Según el documento de investigación, esta forma de editar permite al modelo MGIE abordar «órdenes humanas ambiguas para lograr una edición razonable».
Por ejemplo, la imagen de una pizza con el texto «hazla más saludable» es entendida por el MLLM, que interpreta el término ambiguo «saludable» y lo relaciona con «ingredientes vegetales en una pizza». A continuación, el modelo de difusión edita la imagen según las instrucciones proporcionadas por el MLLM. LEA: Adopte la IA, no se quede al margen: Satya Nadella, de Microsoft, a los directores ejecutivos
Según la investigación, los modelos existentes, como el LLM-Guided Image Editing (LGIE), carecen de la percepción visual del MGIE. El modelo de lenguaje amplio (LLM) se limita a una sola modalidad, mientras que el MLLM, con acceso a la imagen de entrada y comprensión intermodal, deriva instrucciones más descriptivas. Por ejemplo, si el usuario desea que la imagen sea más brillante, el MLLM del modelo MGIE indicará al modelo de difusión qué regiones deben iluminarse.
MGIE es un proyecto de código abierto disponible en GitHub y puede descargarse con código, datos y modelos preentrenados. Según VentureBeat, el modelo de edición de imágenes también está disponible a través de una demo web alojada en los espacios Hugging Face. Sin embargo, Apple aún no ha confirmado cómo piensa utilizar este modelo más allá de los proyectos de investigación.
A principios de este mes, en el reporte trimestral de resultados de Apple, el consejero delegado Tim Cook confirmó que la compañía está trabajando en funciones de IA para sus dispositivos que se anunciarán a finales de este año. Se espera que Apple incorpore funciones de gen-AI a su asistente virtual Siri y a la aplicación Mensajes para funciones como el resumen de textos, las sugerencias y otras. Del mismo modo, es probable que otros servicios de la plataforma de Apple, como Apple Music, Pages y Keynotes, también reciban el tratamiento de la IA.
Fuente WEB | Editado por CambioDigital OnLine