Con la presentación de Sora, uno diría que OpenAI nos ha dejado echar un vistazo al futuro de la creatividad digital
El mismo día en que Google presentaba Gemini 1.5, lanzando el mensaje de cuán en serio se toma retar el liderazgo de ChatGPT en el ámbito de los chatbots, la compañía desarrolladora de este último, OpenAI, ha optado por lanzar otro mensaje: "Ya tenemos una IA de generación de texto y otra de generación de imágenes... sólo nos faltaba el vídeo, y acabamos de solucionar eso".
Y, lo ha logrado lanzando Sora, un modelo generativo capaz de convertir texto en vídeos de hasta 60 segundos, una extensión notablemente superior a la mayoría de sus rivales en este campo, como Pika o Runway.
Y así, marcamos, otro momento crucial en la carrera tecnológica de la IA generativa.
Una ventana al futuro de la creación de vídeos
Sora representa un salto cualitativo en la generación de contenido, permitiendo a los usuarios crear escenas realistas relativamente extensas a partir de simples descripciones textuales en lenguaje natural.
Este modelo no solo es capaz de generar imágenes en movimiento, sino que también comprende y ejecuta instrucciones detalladas sobre el movimiento de los personajes y la ambientación de las escenas.
Prompt: Tour of an art gallery with many beautiful works of art in different styles.
Prompt: Historical footage of California during the gold rush.
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Con ejemplos que incluyen complejas interacciones entre múltiples personajes, los clips de Sora puestos a disposición por OpenAI muestran la habilidad de su nueva IA para crear vídeos detallados. Y, sobre todo y ante todo, muestran una capacidad descomunal para mantener la coherencia entre fotogramas, el que hasta ahora era el talón de Aquiles de la creación de vídeo mediante IA.
Su desarrollo se basa en la misma tecnología que hay detrás de DALL·E 3, lo que permite a Sora manejar una amplia variedad de tipos de vídeo, resoluciones, y duraciones, superando a modelos anteriores en complejidad y realismo.
El eterno problema de las 'fake news' impedirá que OpenAI lance ya su nueva IA
OpenAI es consciente de los riesgos potenciales que supone la creciente facilidad de generar vídeos realistas, por lo que se compromete a implementar medidas de seguridad antes de su lanzamiento al público general, buscando prevenir la desinformación y el contenido dañino:
"Estamos creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar si fue Sora quien generó o no un determinado vídeo. Planeamos incluir metadatos C2PA en el futuro si implementamos el modelo en un producto OpenAI".
Por ello, no hay fecha para su lanzamiento al público: el acceso a esta nueva IA seguirá todavía limitado a investigadores de OpenAI por un tiempo.
Imagen | OpenAI + Marcos Merino mediante IA
En Genbeta | Google presenta Lumiere, un modelo de IA que no sólo genera vídeo, sino que lo edita y permite animar imágenes
Ver todos los comentarios en https://www.genbeta.com
VER 0 Comentario