OpenAI lanzó el pasado lunes Sora, su generador de vídeo mediante IA, que ya está disponible para cualquier usuario de pago... que no resida en la Unión Europea.
Sin embargo, aunque la expectación rodea este producto desde que fue anunciado hace varios meses, quizá a nivel tecnológico sea aún más relevante la noticia de que no han dejado de emerger alternativas gratuitas y de código abierto que están demostrando no sólo ser capaces de 'hablarle de tú a tú' a Sora, sino, incluso, de adelantarle en muchos aspectos.
Así, Modelos como Hunyuan Video de Tencent y Mochi 1 de Genmo AI están desafiando la hegemonía de las herramientas comerciales en este campo y con ello:
- Democratizan la tecnología: Ofrecen herramientas de alta calidad sin coste o con tarifas mínimas.
- Fomentan la innovación: Al ser de código abierto, permiten a los desarrolladores experimentar y mejorar los modelos.
- Reducción de costes para pequeñas empresas y estudiantes: Sectores tradicionalmente excluidos por las altas tarifas de las soluciones comerciales ahora tienen acceso a herramientas competitivas.
¿Qué es Sora y por qué era una IA tan esperada?
Sora es la apuesta de OpenAI para convertir texto en vídeos de alta calidad, capa de ofrecer escenas casi fotorrealistas de hasta 20 segundos. A pesar de sus características prometedoras, su modelo de suscripción —que puede alcanzar los $200 mensuales si buscas vídeos de alta resolución y sin marca de agua— limita su accesibilidad a un público reducido, principalmente empresas y creadores con altos presupuestos.
Sin embargo, Sora se enfrenta también a problemas técnicos: según numerosos ejemplos visionables en redes, su capacidad para simular de forma realista movimientos físicos y mantener la coherencia en escenas complejas es aún rudimentaria.
Sin ir más lejos, Carlos Santana, divulgador español de IA, hizo uso de un 'prompt' recurrente en sus pruebas ("Un pangolín surfeando una ola"), con el objetivo de testear tanto Sora como Hunyuan. Este fue el resultado de la prueba con Sora, que él mismo define como 'raruno' (una evaluación misericordiosa, cabe señalar):
Y éste es el resultado de probar su alternativa 'open source', Hunyuan:
[Aquí tienes más comparaciones paralelas entre ambos modelos]
Para habérnosla vendido en su momento como un "simulador de mundos", lo cierto es que los vídeos generados por Sora a menudo presentan errores evidentes. Eso no significa que Sora no tenga un enorme potencial: seguramente OpenIA seguirá refinando el modelo en los próximos años... pero, por ahora, su elevado coste y sus limitaciones técnicas plantean dudas sobre este modelo de IA.
La revolución silenciosa de las alternativas open source
Mientras OpenAI se esfuerza por perfeccionar Sora, alternativas como Hunyuan Video y Mochi-1 están emergiendo como opciones viables, accesibles y, en algunos casos, superiores en ciertos aspectos. Estas herramientas gratuitas no solo ofrecen resultados competitivos, sino que su naturaleza de código abierto permite a los desarrolladores personalizarlas y adaptarlas a sus necesidades.
Hunyuan Video
Hunyuan Video, lanzado por Tencent, representa un hito en el ámbito de los modelos generativos de vídeo por IA. Este modelo de código abierto, entrenado con 13.000 millones de parámetros, ha sido descrito como una herramienta revolucionaria no solo por su calidad, sino por la accesibilidad que ofrece a desarrolladores, estudiantes y pequeñas empresas que buscan explorar la tecnología de generación de vídeo sin las barreras económicas que suelen imponer las herramientas comerciales. Entre sus características técnicas más destacadas se incluyen:
- Adherencia al prompt: El modelo está diseñado para mejorar y enriquecer las instrucciones textuales de los usuarios, generando vídeos más detallados y realistas.
- Movimiento natural: Uno de los puntos fuertes de Hunyuan es su capacidad para simular movimientos fluidos y respetar las leyes de la física, un área donde Sora está demostrando no rendir demasiado bien.
- Flexibilidad creativa: Gracias a su naturaleza de código abierto, los usuarios pueden personalizar el modelo según sus necesidades, ajustando parámetros o entrenándolo con datos específicos para aplicaciones concretas.
Opciones de uso y accesibilidad
Una de las mayores fortalezas de Hunyuan Video es su accesibilidad. Tencent ha puesto a disposición de la comunidad el código fuente completo y los pesos preentrenados del modelo en plataformas como GitHub y Hugging Face. Esto permite a cualquier usuario con el hardware adecuado descargar y ejecutar el modelo localmente, sin coste alguno.
Sin embargo, el hardware necesario para ejecutar Hunyuan Video localmente puede ser un desafío. Se requiere una GPU con al menos 60GB de memoria, como las tarjetas Nvidia H800 o H20. Para quienes no cuentan con este tipo de equipos, diversas plataformas en la nube, como FAL.ai, Runpod o Vast.ai, ofrecen acceso al modelo por tarifas asequibles.
Por ejemplo, en FAL.ai es posible generar vídeos por tan solo 0,5 dólares cada uno, mientras que otros servicios como el servidor oficial de Hunyuan ofrecen paquetes de créditos con precios competitivos.
Mochi 1
Mochi 1, de código abierto bajo licencia Apache 2.0 y desarrollado por Genmo AI, se ha posicionado como una de las alternativas más sólidas dentro del panorama de generadores de vídeo por IA. Este modelo está algo por detrás de Hunyuan en potencia: su arquitectura 'sólo' utiliza algo más de 10 mil millones de parámetros, lo que le sigue permitiendo destacar en los mismos campos que el modelo de Tencent cuando se les compara con el de OpenAI: realismo de la simulación de movimiento, coherencia de los rasgos faciales, y adherencia al prompt.
Opciones de uso y accesibilidad
Mochi 1 se destaca por su flexibilidad en cuanto a opciones de uso. Los usuarios pueden elegir entre diferentes modalidades según sus necesidades y capacidades técnicas:
- Versión gratuita: Permite generar hasta 4 vídeos cada 6 horas, con un límite mensual de 30 vídeos. Si bien estos vídeos llevan una marca de agua de Genmo y están limitados a usos personales, ofrecen una oportunidad inmejorable para explorar el modelo sin coste alguno.
- Licencia Lite ($8/mes): Aumenta el límite a 8 vídeos cada 6 horas y elimina la marca de agua, además de permitir el uso comercial con monetización de derechos.
- Licencia Standard ($24/mes): Ofrece hasta 32 vídeos cada 6 horas, mayor privacidad en el uso (modo oculto) y derechos exclusivos sobre los vídeos generados, lo que la convierte en una opción atractiva para creadores profesionales.
- Auto-alojamiento: Al ser de código abierto, Mochi 1 también se puede descargar y ejecutar localmente. Aunque esto requiere un hardware potente —similar al necesario para Hunyuan Video—, es una opción excelente para desarrolladores que buscan personalizar el modelo y experimentar sin las restricciones de un servidor externo.
Imagen | OpenAI
Ver 0 comentarios