Una IA que permite a cualquiera, y en cuestión de segundos, clonar la voz de cualquier otra persona (o, por supuesto, de uno mismo) está empezando a arrasar en Internet. El polémico pero popular foro 4chan, sin ir más lejos, viene siendo inundado con deepfakes de audio de celebridades como Emma Watson o Joe Rogan llenos de comentarios violentos o pornográficos.
Y todo desde que, hace ahora un año, se abriera públicamente el acceso a la plataforma ElevenLabs, quizá una de las muestras más significativas de cuánto han avanzado las tecnologías basadas en IA dedicadas a la clonación y síntesis de audio.
Al margen del innegable realismo de su síntesis de voz (a años luz de voces enlatadas como Loquendo, tan popular hace años), la propia compañía presumía de que los clips de audio que genera requieren de poca o ninguna edición, lo que incentiva su uso en tareas como el doblaje o la producción de audiolibros:
AI narrates The Great Gatsby.
— ElevenLabs (@elevenlabsio) January 29, 2023
Listen to a fragment from the classic by F. Scott Fitzgerald. Narrated by a fully AI-generated voice. No corrections were made. pic.twitter.com/vQdorBjQK6
Que alguien ponga orden aquí
Por supuesto, también ha ayudado a popularizar esta plataforma el hecho de que no presente ninguna de las salvaguardas que acostumbramos a encontrar en los servicios de generación de imágenes para evitar crear ciertos tipos de contenidos 'delicados' y/o basados en personas reales.
En un hilo publicado poco después en Twitter, ElevenLabs reconoció que parte de sus usuarios estaban abusando de su aplicación: "[observamos] un número creciente de casos de uso indebido de clonación de voz", y advirtió de que son capaces de "rastrear cualquier audio generado hasta el usuario".
Crazy weekend - thank you to everyone for trying out our Beta platform. While we see our tech being overwhelmingly applied to positive use, we also see an increasing number of voice cloning misuse cases. We want to reach out to Twitter community for thoughts and feedback!
— ElevenLabs (@elevenlabsio) January 30, 2023
Igualmente, se puso sobre la mesa la posibilidad de implementar protecciones como la verificación de la identidad de los usuarios o la aprobación manual de cada solicitud de clonación de voz. Sin embargo, su uso sigue siendo ilimitado por ahora.
Lo hemos probado
Cuando nos registramos en la plataforma, se nos concede acceso a una serie de herramientas. En primer lugar, encontraremos el sencillo sintetizador de voz que nos permite convertir textos en archivos de sonido usando, en principio, voces predefinidas en inglés estadounidense.
Sin embargo, si hacemos uso de la función de 'Voice Cloning', podremos subir a la plataforma un audio con una grabación de voz ("debe durar más de 1 minuto y no contener ruido de fondo", aclara la web), que nos permitirá crear una voz personalizada desde la que podremos volver al sintetizador y crear un audio basado en nuestra voz... o en la de cualquiera.
Eso sí: el servicio está, por ahora, optimizado para el acento inglés estadounidense; de modo que es posible que, al generar el audio, no te termines de reconocer en el archivo resultante.
Ese ha sido nuestro caso, tras generar una voz personalizada basada en la de un servidor: la lectura del Quijote en perfecto acento de Kansas (estado arriba, estado abajo) no ha terminado de sonarme 'muy yo', pero los usuarios estadounidenses aseguran no sufrir este problema.
La cuenta gratuita sólo permite crear hasta cinco voces personalizadas y sintetizar a audio 10.000 caracteres de texto al mes, además, los audios resultantes quedan sujetos a una licencia no comercial. Existen, a partir de ahí, varias opciones de pago, siendo la más barata de 22 dólares mensuales.
Imagen | Basada en original de Jason Rosewell en Unsplash
En Genbeta | Cómo crear imágenes y pósters con un estilo a lo Disney Pixar
Ver 7 comentarios