'Make-A-Scene', la IA generadora de imágenes que mejora la precisión de DALL-E 2 combinando descripciones y bocetos del usuario

15 julio 2022, 20:27

Marcos Merino

Llevamos varias semanas hablando de las sorprendentes capacidades de DALL-E Mini y DALL-E 2, dos modelos de IA generadores de imágenes que, si bien son muy diferentes en lo que respecta a la calidad de sus resultados, destacan por ser capaces de traducir en imágenes una descripción por escrito del usuario. Pero OpenAI no es la única compañía que busca liderar este campo…

…sin ir más lejos Meta —la compañía propietaria de Facebook— no quiere quedarse atrás y ha presentado en las últimas horas su propia IA generativa, bautizada como 'Make-A-Scene' y aún en fase de prototipo. Este modelo ofrece lo mismo que DALL-E 2 y va aún más lejos a la hora de permitirnos traducir nuestra imaginación en imágenes.

Excited to announce Make-A-Scene, our latest research tool Mark Zuckerberg just shared. Make-A-Scene is an exploratory concept that gives creative control to anyone, artists & non-artists alike to use both text & sketches to guide AI image generation: https://t.co/p9HNFy3VeY pic.twitter.com/Ir5U4IvikV
— Meta AI (@MetaAI) July 14, 2022

Unas gotitas de bocetos a la masa de descripciones, y rico, rico

Pues allí donde un texto como "un pato azul montando en moto" puede ser interpretado por DALL-E 2 de múltiples formas (dibujando ambas figuras con diversos tamaños, o situándolas a un lado u otro de la imagen), Make-A-Scene —partiendo también de una descripción textual— nos permite afinar los resultados acompañando el texto de un sencillo boceto dibujado que guíe a la IA durante el proceso generativo y que reste aleatoriedad, de este modo, al resultado final.

En Genbeta

Ver cómo DALL-E 2 genera imágenes de la rana Gustavo en películas como 'Star Wars' o 'Matrix' demuestra que la IA está a años luz

Este modelo, por tanto, recurre a un novedoso proceso intermedio, en el que interpreta lo bocetado por el usuario, identifica lo que éste ha destacado en su dibujo como aspectos clave de la imagen, y luego rellena los 'huecos' con lo indicado en el texto.

En las pruebas llevadas a cabo por Meta con usuarios, los participantes valoraron mejor los dibujos realizados con la ayuda de bocetos que los dependientes únicamente con información textual. Y esto lo hicieron prácticamente en todos los casos: un 99,54 % de las veces.

Los usuarios, con mayor control del resultado. Zuck, pensando otra vez en el Metaverso

El resultado de todo esto es que los usuarios obtienen un control mucho mayor sobre la imagen que le piden a la IA que genere, sin depender tanto de lo aleatorio. Los propios investigadores de IA de Meta destacan el potencial de Make-A-Scene para empoderar al usuario:

"Algún día, [Make-A-Scene] podría permitir formas completamente nuevas de expresión impulsada por IA y situar a los creativos en el centro del proceso: un director de arte al cargo de su próxima campaña creativa, un influencer de redes sociales que crea contenido personalizado, un autor que desarrolla ilustraciones para sus libros e historias, o meramente alguien que comparte un saludo divertido para el cumpleaños de un amigo".

Mark Zuckerberg, CEO de Meta, también se ha mostrado "entusiasmado" por los resultados de esta IA, y por su posible aplicación futura a su gran proyecto (y obseisón), el desarrollo del metaverso: "Herramientas como esta serán excelentes para los creadores, especialmente a la hora de construir mundos 3D inmersivos".

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta