Recientemente, Google nos ha sorprendido con el lanzamiento de un nuevo modelo de inteligencia artificial, si bien esta vez no se trata de un modelo de lenguaje y/o chatbot (como Bard o Gemini), sino de una IA generativa de vídeo denominada 'Lumiere' (en honor a los hermanos creadores del cinematógrafo).
Tanto la propia Google como Meta habían publicado en los últimos meses otros modelos de generación de vídeo a partir de prompts de texto que, sin embargo, quedaban aún lejos de lo que venían logrando los modelos de imagen estática. Lumiere llega ahora con el objetivo de recortar distancias en ese campo.
Para ello, Google ha entrenado este modelo usando una descomunal base de datos de 30 millones de vídeos, lo que le permite no sólo mejorar la generación de vídeo a partir de texto, sino realizar otra serie de tareas relacionadas que abren todo un abanico de posibilidades creativas. Resumamos rápidamente todo que puede hacer:
- Texto a vídeo: La base para cada modelo de vídeo.
- Imagen a vídeo: La segunda base para los modelos de vídeo en la actualidad, convierte imágenes fijas en vídeos.
- Generación 'estilizada': Utilizando una imagen de referencia, Lumiere puede generar vídeos basados en el estilo de una imagen que nosotros proporcionemos.
- Cinemagraphs: Lumiere puede animar únicamente partes específicas de imágenes estáticas.
- Edición de vídeo: Equivalente al 'inpainting' de la generación de imágenes, Lumiere puede editar cualquier parte específica de un vídeo aplicando un prompt únicamente a un área seleccionada del mismo.
Por qué es relevante el lanzamiento de Lumiere
Lo que realmente diferencia a Lumiere de otros modelos es su arquitectura de "espacio-tiempo", que le permite generar clips completos en un solo paso, evitando así la inconsistencia temporal observada en modelos anteriores, en los que la imagen podía llegar a mutar de manera bastante grotesca durante los pocos segundos que duraba el vídeo.
Esta característica es esencial para lograr una fluidez y coherencia en los vídeos que se asemejan cada vez más a la realidad, aunque aún no cuenten con el nivel de fotorrealismo que observamos en algunas IAs de generación de imagen.
Otro avance notable es la forma que facilita el proceso de edición de vídeo a los usuarios con pocos conocimientos: Lumiere puede modificar partes específicas de un vídeo con una simple máscara y un prompt de texto
Además, la generación de 'vídeos estilizados' utilizando una imagen de referencia permite crear contenido aplicando un estilo consistente, lo que era un desafío considerable hasta ahora.
Todas estas funcionalidades (así como la de los cinemagraphs) cuentan con un potencial enorme en campos como la publicidad, el cine y la creación de contenidos digitales.
Repitiendo errores
Sin embargo, aunque ya se ha presentado, todavía estamos a la espera de que Google ofrezca acceso a este modelo al público general y pueda ser así puesto a prueba por cualquier usuario, un aspecto criticado por algunos usuarios...
...que reproduce el modo en que Google ha presentado modelos de IA anteriores y que, claro está, no permite valorar adecuadamente si de verdad Google se ha situado por delante de sus principales competidores en este campo, como Runway o Pika
Imagen | Google
Ver 3 comentarios