Meta, la compañía propietaria de Facebook, ha presentado la última de su creciente lista de innovaciones en el campo de la inteligencia artificial: I-JEPA. Se trata de una herramienta de generación de imágenes… pero una bastante diferente de Midjourney, DALL-E 2 y compañía, pues tiene como objetivo "revolucionar" la forma en que se crean y completan las imágenes mediante IA.
Las 'tradicionales' IAs generadoras de imágenes se 'entrenan' alimentádolas con cientos de millones de ficheros de imagen (etiquetados con una descripción en formato texto). Con dicho entrenamiento, el modelo aprender a descompone la imagen en un conjunto de píxeles y a invertir luego el proceso para reconstruir la imagen original.
A diferencia de dichos modelos, I-JEPA (Image Joint Embedding Predictive Architecture) cuenta con la capacidad de analizar y completar imágenes sin terminar; una tarea que ejecuta con gran precisión, gracias al uso de conocimientos previos sobre el mundo para rellenar las partes faltantes de las imágenes.
En cierto modo, se trata de una emulación del razonamiento humano: la clave reside en que no compara píxeles, sino ideas (más o menos) abstractas… o, utilizando la terminología de Meta, la semántica:
"Es capaz de predecir la representación de una parte de una entrada (como una imagen o un fragmento de texto) a partir de la representación de otras partes de la misma entrada".
Son palabras de Yann LeCun, científico jefe de IA en Meta (y representante del sector más 'tecno-optimista' en los debates sobre la inteligencia artificial), que destaca que este enfoque ayuda a evitar los sesgos, así como errores comunes en las imágenes generadas por IA, pero que una persona jamás cometería (por ejemplo, la aparición de dedos adicionales en las manos).
Todo esto lo logra dependiendo menos de los píxeles o datos que integraban la obra original, para pasar a 'visualizar el contexto'. Además, esto permitiría a la IA aprender más rápidamente, planificar tareas complejas y adaptarse a situaciones desconocidas con mayor facilidad.
"Estamos deseando trabajar para ampliar el enfoque JEPA a otros dominios, como los datos emparejados de imagen-texto y los datos de vídeo"
Una de las posibles aplicaciones destacadas de I-JEPA es la creación de vídeos a partir de entradas de audio y texto: la IA puede predecir lo que ocurriría en un vídeo, en lugar de simplemente encadenar imágenes sucesivas interrelacionadas.
Una nueva arquitectura más eficiente
Meta presenta esta IA como "el primer modelo basado en un componente clave de la visión de LeCun" de una "nueva arquitectura" de inteligencia artificial "destinada a superar las principales limitaciones de los sistemas más avanzados actualmente":
"I-JEPA ofrece un gran rendimiento en múltiples tareas de visión por ordenador y es mucho más eficiente desde el punto de vista computacional que otros modelos ampliamente utilizados […] también pueden utilizarse para muchas aplicaciones diferentes sin necesidad de un ajuste fino exhaustivo".
¿Qué significa esto último? Pues, según los ejemplos de la propia Meta, que podríamos ser capaces de
"entrenar en menos de 72 horas un modelo de transformer visual de 632 millones de parámetros utilizando 16 GPUs A100 y, aun así, con sólo 12 ejemplos etiquetados por clase, obtener un rendimiento más avanzado para clasificar de imágenes de baja resolución en ImageNet".
"Otros métodos suelen tardar entre el doble y diez veces más de tiempo de GPU… y obtienen peores tasas de error cuando se entrenan con la misma cantidad de datos".
Imagen | Basado en original de Oberholster Venita en Pixabay
Ver 1 comentarios