Gracias a un algoritmo de deep learning llamado Live Portrait, la empresa D-ID sorprendió este año con la muy conocida app de inteligencia artificial (IA) 'Deep Nostalgia', que nos permitía animar fotografías antiguas y hacer que alguno de tus antepasados o familiares ya fallecidos sonriese o moviese la cabeza de una forma muy natural.
Y ahora la misma empresa ha mejorado su tecnología y permite colocar voz y expresiones en directo a cualquier fotografía de una persona donde se vea su cara de frente. La herramienta se llama 'Speaking Portraits'.
En Deep Nostalgia las animaciones que se realizaban estaban preconfiguradas de modo que había unos patrones en los que escoger. Puedes escoger entre varios estilos para que que la persona animada haga expresiones concretas, pero no hay una libertad completa para ello. Con 'Speaking Portraits' los usuarios tenemos más libertad de elección. De hecho, controlamos todas las expresiones del deepfake.
Así, por ejemplo, puedes tomar la foto de alguien, siempre que esté mirando al frente, y hacer que hable y mueva su cara igual que mueves tú la tuya, con las mismas expresiones, como puedes ver en el siguiente vídeo. El "conductor", es decir, la persona que habla y se mueve del modo que quiere que las demás imágenes lo hagan, dictará cómo el rostro de una persona en una fotografía va a moverse, lo que va a decir y cómo lo va a decir. Lo sorprendente es que los resultados que ha mostrado la empresa son muy realistas.
Una foto de frente y millones de movimientos
La herramienta se presentó en el TechCrunch Disrupt 2021 y en el vídeo se puede ver cómo una persona hablando y gesticulando puede llevar esas expresiones a los rostros de otros personas con solo la fotografía de ellas mirando al frente.
Lo interesante aquí llega cuando se utiliza la versión más sofisticada de Speaking Protrait, llamada Trained Character. Para usarla, hay que entrenar la IA con más datos sobre la persona que va a ser animada y los resultados son aún más realistas. Para utilizar esta versión mejorada del sistema, se necesita un vídeo de unos diez minutos de una persona en el que realice una serie de movimientos y expresiones predeterminadas por D-ID.
De este modo, la IA se entrena con las características de esta persona para luego poder hacer que hable y se mueva como el usuario quiera. Con esos datos recopilados hay que grabar a la persona que va a animarlo para que hable y se mueva. A diferencia de la versión básica, en esta el fondo puede estar animado y el resultado es más realista. Es difícil adivinar que es un deepfake.
Ver todos los comentarios en https://www.genbeta.com
VER 1 Comentario