Si puedes hacerte una imagen mental y describírsela a esta IA, ella la generará: lo nuevo de OpenAI crea hasta variantes de cuadros

6 abril 2022, 21:34

Actualizado 7 abril 2022, 18:03

Marcos Merino

En enero de 2021, OpenAI —una de las principales organizaciones de investigación en el campo de la inteligencia artificial— presentó una interesante IA llamada DALL-E, capaz de generar imágenes de la nada, a partir de una descripción proporcionada por el usuario.

Para 'entender' lo que le queremos decir, DALL-E se basa en la tecnología de GPT-3, la revolucionaria IA de OpenAI dedicada al análisis y generación de textos. Lo mejor de todo es que se mostraba capaz no sólo de recrear imágenes ya existentes en la vida real, sino también 'hacerse a la idea' de cómo podría lucir algún concepto mucho más surrealista. Por ejemplo, 'DALL-E, quiero una taza de té con forma de aguacate' (ver imagen de arriba).

Sí, el nombre de 'DALL-E' homenajea tanto a nuestro Salvador Dalí como al robot WALL-E

Ahora, OpenAI acaba de desvelar que ha desarrollado una nueva versión de esta IA, conocida como DALL—E 2. Tras más de un año revisando de cerca problemas potenciales como los sesgos en la generación de imágenes o la producción de información errónea, y mejorando en general el rendimiento del modelo y la calidad de las imágenes, la compañía se ha animado a añadir algunas funciones nuevas a esta inteligencia artificial.

Además, ha aplicado a este nuevo modelo la tecnología de otra IA presentada al mismo tiempo que el DALL-E original, CLIP, dedicado al análisis y categorización de imágenes. Y lo ha hecho invirtiendo su función: si CLIP era capaz de 'ver' una imagen y describir su contenido, la nueva función unCLIP ayuda a mejorar la capacidad del modelo a la hora de reconstruir una imagen a partir de descripciones.

DALL-E 2 genera imágenes de 1.024 x 1.024 píxeles, un salto desde los 256 x 256 píxeles de DALL-E 1

Un vistazo a…

'Sgroogled.com': cuando MICROSOFT lanzaba anuncios ANTI-GOOGLE

Nuevas funcionalidades

Una de esas funcionalidades es la función de 'inpainting', que nos permite —partiendo de cualquier imagen que le proporcionemos al modelo— seleccionar únicamente un área de la misma e indicarle a DALL-E 2 qué cambios queremos realizar en el mismo. Las posibilidades son infinitas: indicar el cambio de una textura por otra en la pared de fondo de la fotografía de tu salón, añadir un jarrón chino al lado del televisor, etc.

¿Dónde quieres que te ponga el flamenco rosa, humano?

Otra de las funcionalidades es la creación de variaciones sobre una imagen original: identificará los elementos que aparecen en la misma, y el estilo pictórico/fotográfico de la imagen, y nos ofrecerá una gama de imágenes que recuerdan a la original, pero que son totalmente nuevas. El mejor ejemplo lo tenemos aquí, con variaciones sobre la 'Chica de la perla' de Johannes Vermeer:

Ah, ¿y hemos dicho que DALL-E 2 permite aplicar el estilo pictórico de una imagen a la hora de generar otra totalmente distinta?

"Nutria marina al estilo 'Chica de la perla', por favor, DALL-E".

Nuevas limitaciones (comprensibles)

No sólo se han añadido funcionalidades: también salvaguardas con el fin de evitar abusos. Así, se ha procurado que el dataset usado en el entrenamiento de DALL-E 2 careciera de 'contenidos objetables', por lo que la probabilidad de que genere uno de dichos contenidos queda inmediatamente limitada.

Igualmente, DALL-E 2 añade una marca de agua a la imagen resultante, con el fin de permitir detectar que hay una inteligencia artificial implicada. Y, por último, el modelo contiene un bloqueo al uso de caras reconocibles, aunque le proporcionemos el nombre de la persona en cuestión (incluso si esta persona es la 'Mona Lisa').

En Genbeta

Esta cuenta de Twitter publica las hipnóticas imágenes que crea una IA cuando le damos una descripción de lo que queremos ver

Por ahora, sólo es posible probar DALL-E 2 registrándote en la plataforma creada por OpenAI (y el registro no es inmediato: hay una 'lista de espera'. En cualquier caso, una vez cuentes con tu propio usuario, existirán una serie de limitaciones a la hora de subir imágenes originales de referencia (nada de imágenes adultas, de violencia, de temáticas médicas y políticas, etc). Y las imágenes resultantes pasarán por un proceso de revisión humana.

La idea, claro, es que DALL-E 2 pueda ir mucho más allá, incluso convertirse en una API integrable con aplicaciones de terceros. Pero OpenAI quiere asegurarse de que no vaya a meter la pata antes de llegar a ese punto.

Vía | OpenAI

Ver todos los comentarios en https://www.genbeta.com

VER 3 Comentarios

Portada de Genbeta