La primera versión pública de Stable Diffusion (la 1.4) se lanzó a mediados de agosto de este año, representando todo un golpe al mercado de la IA generativa de imágenes: apenas nos estábamos acostumbrando a todo lo que podían hacer soluciones privativas como DALL-E 2 y MidJourney, y de pronto teníamos entre nuestras manos una potentísima alternativa open source.
Para finales de ese mismo mes, el modelo de Stable Diffusion ya se había actualizado a la versión 1.5. En conjunto, la 'V1' de esta IA fue, según nos recuerdan sus creadores, un ejemplo de software con "uno de los ascensos más rápidos a 10.000 estrellas de Github, disparándose a través de 33.000 estrellas en menos de dos meses".
Y ahora, menos de tres meses después del lanzamiento de la 1.5, la gente de Stability AI acaba de anunciar el lanzamiento de Stable Diffusion V2, el cual "ofrece una serie de grandes mejoras y características en comparación con la versión V1 original".
"¡Hemos trabajado duro para optimizar los modelos para que se ejecuten en una sola GPU, haciéndolos accesibles a tantas personas como sea posible desde el primer momento!"
Texto-a-imagen
"Grandes mejoras" como la inclusión de OpenCLIP, un nuevo codificador de texto (responsable de interpretar las instrucciones de los usuarios) que "mejora en gran medida la calidad de las imágenes generadas" y de un nuevo dataset con su correspondiente y mejorado filtro anti-NSFW (es decir, destinado a evitar la generación de imágenes 'sensibles').
Además, los modelos de texto-a-imagen de esta versión de Stable Diffusion pueden generar imágenes con resoluciones predeterminadas de 512x512 píxeles y 768x768 píxeles.
Reescalado
La V2 también incluye un modelo de reescalado capaz de multiplicar por cuatro la resolución de las imágenes. Lo que significa que, en combinación con los modelos de texto-a-imagen, la nueva versión de Stable Diffusion ahora puede generar imágenes con resoluciones de 2048x2048 o superiores.
Profundidad-a-imagen
Depth2img es un modelo "guiado por profundidad", una novedad incorporada a la V2 que "infiere la profundidad de una imagen de entrada (usando un modelo existente) y luego genera nuevas imágenes usando tanto el texto como la información de profundidad".
"Ofrece todo tipo de nuevas aplicaciones creativas, brindando transformaciones que se ven radicalmente diferentes del original, pero que aún conservan la coherencia y la profundidad de esa imagen".
Repintando
"Finalmente, también incluimos un nuevo modelo de repintado guiado por texto, que hace que sea muy fácil cambiar partes de una imagen de manera inteligente y rápida".
Ver todos los comentarios en https://www.genbeta.com
VER 2 Comentarios