En enero de 2021, OpenAI —una de las principales organizaciones de investigación en el campo de la inteligencia artificial— presentó una interesante IA llamada DALL-E, capaz de generar imágenes de la nada, a partir de una descripción proporcionada por el usuario.
Para 'entender' lo que le queremos decir, DALL-E se basa en la tecnología de GPT-3, la revolucionaria IA de OpenAI dedicada al análisis y generación de textos. Lo mejor de todo es que se mostraba capaz no sólo de recrear imágenes ya existentes en la vida real, sino también 'hacerse a la idea' de cómo podría lucir algún concepto mucho más surrealista. Por ejemplo, 'DALL-E, quiero una taza de té con forma de aguacate' (ver imagen de arriba).
Ahora, OpenAI acaba de desvelar que ha desarrollado una nueva versión de esta IA, conocida como DALL—E 2. Tras más de un año revisando de cerca problemas potenciales como los sesgos en la generación de imágenes o la producción de información errónea, y mejorando en general el rendimiento del modelo y la calidad de las imágenes, la compañía se ha animado a añadir algunas funciones nuevas a esta inteligencia artificial.
Además, ha aplicado a este nuevo modelo la tecnología de otra IA presentada al mismo tiempo que el DALL-E original, CLIP, dedicado al análisis y categorización de imágenes. Y lo ha hecho invirtiendo su función: si CLIP era capaz de 'ver' una imagen y describir su contenido, la nueva función unCLIP ayuda a mejorar la capacidad del modelo a la hora de reconstruir una imagen a partir de descripciones.
Nuevas funcionalidades
Una de esas funcionalidades es la función de 'inpainting', que nos permite —partiendo de cualquier imagen que le proporcionemos al modelo— seleccionar únicamente un área de la misma e indicarle a DALL-E 2 qué cambios queremos realizar en el mismo. Las posibilidades son infinitas: indicar el cambio de una textura por otra en la pared de fondo de la fotografía de tu salón, añadir un jarrón chino al lado del televisor, etc.
Otra de las funcionalidades es la creación de variaciones sobre una imagen original: identificará los elementos que aparecen en la misma, y el estilo pictórico/fotográfico de la imagen, y nos ofrecerá una gama de imágenes que recuerdan a la original, pero que son totalmente nuevas. El mejor ejemplo lo tenemos aquí, con variaciones sobre la 'Chica de la perla' de Johannes Vermeer:
Ah, ¿y hemos dicho que DALL-E 2 permite aplicar el estilo pictórico de una imagen a la hora de generar otra totalmente distinta?
Nuevas limitaciones (comprensibles)
No sólo se han añadido funcionalidades: también salvaguardas con el fin de evitar abusos. Así, se ha procurado que el dataset usado en el entrenamiento de DALL-E 2 careciera de 'contenidos objetables', por lo que la probabilidad de que genere uno de dichos contenidos queda inmediatamente limitada.
Igualmente, DALL-E 2 añade una marca de agua a la imagen resultante, con el fin de permitir detectar que hay una inteligencia artificial implicada. Y, por último, el modelo contiene un bloqueo al uso de caras reconocibles, aunque le proporcionemos el nombre de la persona en cuestión (incluso si esta persona es la 'Mona Lisa').
Por ahora, sólo es posible probar DALL-E 2 registrándote en la plataforma creada por OpenAI (y el registro no es inmediato: hay una 'lista de espera'. En cualquier caso, una vez cuentes con tu propio usuario, existirán una serie de limitaciones a la hora de subir imágenes originales de referencia (nada de imágenes adultas, de violencia, de temáticas médicas y políticas, etc). Y las imágenes resultantes pasarán por un proceso de revisión humana.
La idea, claro, es que DALL-E 2 pueda ir mucho más allá, incluso convertirse en una API integrable con aplicaciones de terceros. Pero OpenAI quiere asegurarse de que no vaya a meter la pata antes de llegar a ese punto.
Vía | OpenAI
Ver 3 comentarios