Google está apostando fuerte por la Inteligencia Artificial (IA) en diversos ámbitos. Además de LaMDA (que según un empleado es una IA sintiente y Google se ha apresurado a negarlo rotundamente), también tiene IMAGEN, presentada hace unos días, capaz de crear fotos a través de textos (un poco al estilo de la super reconocida DALL-E 2 y DALL-E Mini), basándose en Google AI. Y hoy ha sorprendido con una nueva tecnología: Parti.
Parti se presenta como una alternativa que apuesta por un nuevo y prometedor modelo para generar imágenes fotorrealistas. Mientras DALL-E, en sus diferentes versiones, e Imagen de Google crean fotografías a partir de un texto (aunque sea y surrealista como ya hemos podido comprobar), apuesta por lo que ellos llaman modelo autorregresivo (de hecho, las siglas son Pathways Autoregressive Text-to-Image).
Las imágenes de Parti y sus limitaciones
A través de un texto, que también puede ser extenso y complejo, Parti da como resultado una imagen que realmente se ve muy bonita y sin distorsiones amorfas en los rostros de animales (algo que DALL-E 2 ha solucionado). Eso sí, tiene que ser en la mejor de las escalas, como vamos a ver en estos ejemplos publicados por la propia empresa.
En el blog de Google se muestran varios resultados y pruebas. En una de ellas escribieron el siguiente texto de entrada: "Un mapa de Estados Unidos hecho con sushi. Está en una mesa al lado de una copa de vino tinto". Y hay la opción de probar a cuatro escalas diferentes (350M, 750M, 3B y 20B). La escala 350M presenta una confusa representación y en 20B el resultado es muy bueno. Aquí puedes verlo:
En este otro ejemplo, bajo el texto "una ardilla da una manzana a un pájaro" volvemos a ver que si no se elige la máxima escala, el resultado se ve distorsionado. Lo mismo sucede con las demás pruebas que se presetan en la web de Google. Por tanto, aún queda una mejora en las escalas menores. La última escala sobresale especialmente en indicaciones que son abstractas, requieren conocimiento del mundo, perspectivas específicas y representación de símbolos.
De todos modos, el resto de los mortales que no estamos en ese equipo de Google aún no podemos probar nuestros propios diseños. Mientras, el gigante de Mountain View seguirá entrenando y mejorando sus modelos de inteligencia artificial para "mejorar la creatividad y la productividad humana".
Por ahora puedes ver las muestras creadas por los ingenieros de Mountain View. "Muchas de las imágenes que se muestran aquí han sido seleccionadas, o escogidas, de un amplio conjunto de ejemplos generados durante la exploración de las instrucciones y las interacciones de modificación", nos explican.
Aunque Parti produce resultados de gran calidad para una amplia gama de indicaciones, el modelo tiene muchas limitaciones. Por ejemplo, no llega a entender el lenguaje si se hace muy enrevesado: "Un plato que no tiene plátanos. Hay un vaso sin zumo de naranja al lado". El resultado es el contrario:
Ver 2 comentarios