En otro golpe de Google contra las herramientas de IA generativa de OpenAI (mientras éste golpea a Google en el campo de las búsquedas web), la compañía de Mountain View ha presentado las versiones más recientes de sus modelos Veo e Imagen... y ha presentado una nueva plataforma de remezcla de imágenes
Veo 2: Realismo cinematográfico
La nueva versión de Veo, denominada Veo 2, es un modelo de generación de vídeo con una calidad y detalle visual sin precedentes: capaz de crear vídeos de hasta 4K de resolución, este modelo no solo supera a sus competidores comerciales (como Sora) en pruebas de calidad y adherencia a instrucciones, sino que también incorpora una comprensión más avanzada de la física real y los matices del movimiento humano.
Características destacadas de Veo 2:
- Calidad y precisión cinematográfica: Veo 2 entiende el 'lenguaje del cine', permitiendo especificar estilos, lentes, efectos cinematográficos y ángulos de cámara. Por ejemplo, puede generar un plano de seguimiento a baja altura o un primer plano con profundidad de campo ajustada.
- Reducción de "alucinaciones": Este problema común en modelos de vídeo, como la generación de detalles no deseados o distorsionados, ha sido minimizado considerablemente en Veo 2.
- Compromiso con la seguridad: Todas las salidas de Veo 2 incluyen una marca de agua invisible, SynthID, para prevenir la desinformación y garantizar la identificación de contenido generado por IA.
Imagen 3
Por su parte, Imagen 3, el modelo de generación de imágenes más avanzado de Google, también ha sido mejorado significativamente. Este modelo ahora produce imágenes con mayor precisión en estilos y detalles, desde fotorealismo hasta anime, impresionismo y arte abstracto. Google alega que, en pruebas con evaluadores humanos, Imagen 3 superó a todos sus competidores comerciales en composición, claridad y adherencia a los textos proporcionados.
Whisk: Una nueva dimensión en la creatividad visual
Además de Veo 2 e Imagen 3, Google ha lanzado Whisk, una herramienta experimental que permite a los usuarios remezclar imágenes y estilos de manera intuitiva: los usuarios deben proporcionar tres imágenes, una para establecer el 'tema', otra para la 'escena' y una última para el 'estilo'.
Google advierte, sin embargo, que esta IA sólo tiene en cuenta elementos para capturar la 'esencia' de las imágenes que el usuario haya subido a Whisk, sin replicarlas al pie de la letra... aunque sí brinda a los usuarios una función de "Revisión y edición" después de haber generado la imagen.
Cómo acceder a estas herramientas
Para probar estas herramientas, los usuarios pueden registrarse, respectivamente, en las listas de espera de VideoFX, ImageFX y, sólo para usuarios estadounidenses, Whisk.
En Genbeta | Grok, la IA de X, casi no tiene límite: genera casi cualquier imagen que quieras. Esto tiene un grave problema detrás
Ver 0 comentarios