Stable Diffusion ha sido la gran novedad de 2022 en el mundo de la inteligencia artificial. Cuando ya todos estábamos con la boca abierta gracias a otras IAs generadoras de imágenes, como DALL-E 2 y MidJourney, de pronto, a finales de verano, llegó este otro modelo de IA con la novedad de su condición 'open source' y, con ella, de su infinita disponibilidad y adaptabilidad para toda clase de proyectos, desde la generación de desnudos (bloqueada en la versión original) hasta su implementación como plugin en editores de imágenes.
Es tal la adaptabilidad de Stable Diffusion que hay quien ha logrado llevarlo un paso más allá, usándolo como base para crear ("por mero hobby") una nueva IA que ni siquiera genera ya imágenes, sino música. O quizá lo más correcto sería decir que genera imágenes con música (y no estamos hablando de vídeos).
Y es que Seth Forsgren y Hayk Martiros, los dos creadores de Riffusion (tal es su nombre) está optimizada para generar espectrogramas, representaciones gráficas del espectro de una señal con la particularidad de poder 'traducirse' a clips de audio. En declaraciones de ambos a Techcrunch,
"Hayk y yo tocamos juntos en una pequeña banda, y comenzamos el proyecto simplemente porque amamos la música y no sabíamos si sería posible para Stable Diffusion crear una imagen de espectrograma con suficiente fidelidad para convertirla en audio. A cada paso que hemos ido dando nos ha impresionado un poco más, y una nueva idea ha llevado a la siguiente. [...] Hay muchas direcciones que podríamos seguir a partir de aquí".
Así funciona esta IA
De este modo, el 'prompt' (la descripción textual introducida por el usuario, con base a la cual se generará el espectrograma) nos permite dar indicaciones a la IA de qué clase de sonido queremos escuchar. Bastó con que Forsgren y Martiros generasen grandes cantidades de espectrogramas de toda clase de música y la fueran etiquetando según estilos, instrumentos, etcétera. Una vez hecho eso, entrenaron Riffusion con todas esas imágenes, lo que permitió a la IA 'hacerse una idea' del 'aspecto' de cada tipo de sonido, lo que la permite recrearlos o combinarlos.
- Prompt: 'Piano funk'
- Prompt: 'Rock and roll electric guitar solo'
Y si bien la limitación en el tamaño de las imágenes generadas (512x512px) provoca que los clips de sonido resultantes (el procesado de audio lo realiza el propio Riffusion, apoyándose en otra IA basada en Torchaudio) estén limitados a los 5 segundos de duración... al igual que ocurre con las imágenes en Stable Diffusion, es posible introducir variaciones infinitas basándose siempre en una misma imagen original (mismo 'seed', distinto aspecto/sonido).
Esto, a efectos prácticos, nos permite crear "ritmos infinitos generados por IA", que fluyen de forma continua. Los creadores de Riffusion, eso sí, tuvieron que aplicar correcciones para asegurar que la transición entre los distintos clips generados a partir de un mismo prompt contaran con transiciones suaves.
En su página web puedes encontrar un generador de clips (que ahora va bastante lento, gracias a toda la atención generada), así como detalles técnicos. Todo el código, por supuesto, está disponible en su repositorio en GitHub.
Ver 1 comentarios