Los modelos de lenguaje grande multimodal (MLLM) han encontrado un nuevo uso a manos de Apple según un documento presentado por la compañía en la Conferencia Internacional de Representación del Aprendizaje (ICLR). Es un modelo de código abierto llamado MGIE (edición de imágenes guiada por MLLM), que puede editar imágenes basándose en instrucciones de lenguaje natural.
Este modelo es el resultado de una colaboración entre Apple y los investigadores de la Universidad de California en Santa Bárbara. Y, como han podido demostrar, MGIE resulta bastante rápida y eficiente. Para ello, MGIE utiliza MLLM de dos maneras: derivar instrucciones expresivas a partir de la entrada del usuario, como guía explícita para el proceso de edición; y para generar una representación general de lo pedido, para luego permitir la manipulación a nivel de píxel.
Las labores que puede hacer MGIE, que es de código abierto, son todas las habituales en manipulación de imágenes: edición basada en lo pedido por el usuario, modificación a lo Photoshop (volteo, giro, o filtros, entre otros), y optimización de la imagen (brillo, contraste, nitidez, balance de color, etc.).
MGIE es de código abierto y se puede probar desde una web específica.
Vía: Venturebeat.