La nueva IA de Google crea vídeos en alta definición de nuestras sugerencias. Similar a DALL-E 2 pero en vídeo

Tú escribes un texto y la nueva herramienta Imagen Video de Google puede generar vídeos de alta definición. Para ello, utiliza un modelo de generación de vídeo base y una secuencia de modelos de superresolución de vídeo espaciales y temporales. Esta herramienta tiene la capacidad de generar diversos vídeos y animaciones de texto en varios estilos artísticos y con comprensión de objetos 3D.

Es decir, una persona escribe que quiere un vídeo. Ejemplos que da Google: un astronauta montado a caballo; café cayendo en una taza; una jirafa en un microondas; vista de un castillo con torres altas que llegan hasta las nubes en un bosque de colinas al amanecer; Una oveja a la derecha de una copa de vino... y la herramienta de Google crea estos vídeos entndiendo el lenguaje natural.

Hace apenas unos días que Meta lanzaba una herramienta similar, bautizada como Make-a-Video. Y Google no ha tardado en llegar con su propia IA. Imagen Video puede generar videoclips a partir de un texto por ejemplo dices, "un oso de peluche lavando platos" y en unos pocos segundos te crea un vídeo de ujn peluche fregando Los resultados no son perfectos pero, como dice Google, es un paso hacia un sistema con un "alto grado de control" y conocimiento del mundo, incluida la capacidad de generar secuencias en una gama de estilos artísticos.

Es similar a la hiper popular DALL-E (y sus variantes Mini y la evolucionada DALL-E 2, que se ha hecho muy popular) pero en este caso con vídeos. Google ya tiene en el mercado Parti, un modelo para generar imágenes fotorrealistas y tiene Imagen de Google que crea fotografías a partir de un texto (aunque sea y surrealista como ya hemos podido comprobar) que basa su tecnología en la Google AI.

Así funciona esta tecnología

Imagen Video genera vídeos de alta resolución con modelos de difusión en cascada (tecnología que en inglés se llama Cascaded Diffusion Models). El primer paso es tomar un texto de entrada y pasarlo por un codificador de texto T5. A continuación, un modelo de difusión de vídeo básico genera un vídeo de 16 fotogramas con una resolución de 24×48 y 3 fotogramas por segundo.

A continuación, la IA de Google utiliza varios modelos de superresolución temporal (TSR) y espacial (SSR) para aumentar la muestra y generar un vídeo final de 128 fotogramas con una resolución de 1280×768 y 24 fotogramas por segundo, lo que da como resultado 5,3 segundos de vídeo de alta definición. Imagen Video utiliza la arquitectura Video U-Net para capturar la fidelidad espacial y la dinámica temporal. La arquitectura Video U-Net permite a Imagen Video modelar la dinámica temporal a largo plazo.

Por ahora, podemos ver los resultados pero no podemos probar la herramienta.

Ver todos los comentarios en https://www.genbeta.com

VER 4 Comentarios

Portada de Genbeta