OpenAI está probando una inteligencia artificial que clona la voz humana. Qué podría salir mal

La maquinaria de OpenAI a la hora de crear productos de inteligencia artificial no para. Tras el popularísimo ChatGPT, cuya versión GPT-5 podría estar más cerca de lo que parece, o su reciente y prometedor Sora, el sistema para crear vídeos de hasta 60 segundos tan realistas que parecen auténticos, ahora la compañía ha anunciado un nuevo software llamado Voice Engine, capaz de recrear la voz humana con IA.

Así, mientras los deepfakes proliferan, OpenAI perfecciona la tecnología para clonar voces... aunque según la empresa lo hace 'de forma responsable'. Voice Engine lleva aproximadamente dos años en desarrollo y es una expansión de la ya existente API de conversión de texto a voz. La idea es la siguiente: permitir a usuarios y usuarias cargar cualquier muestra de voz de 15 segundos para generar una copia sintética de esa voz.

Como la anteriormente mencionada Sora, Voice Engine todavía no está disponible para el público general. De hecho, se encuentra en fase de pruebas para un pequeño grupo de empresas, lo que da a OpenAI un margen de tiempo antes de un lanzamiento general para seguir depurando el modelo y también, para explicar cómo funciona el modelo y sus implicaciones éticas.

Qué es y cómo funciona Voice Engine

Como cuenta OpenAI en la entrada de su blog destinada a la presentación de Voice Engine, el desarrollo de este software data de finales de 2022 y desde entonces lo ha utilizado para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz y en los productos ChatGPT Voice y Read Aloud. Sobre el delicado tema de su entrenamiento, Jeff Harris, miembro del personal de producto de OpenAI, se ha limitado a responder a Techcrunch que han empleado una combinación de datos con licencia y disponibles públicamente.

Para usar Voice Engine basta con una entrada de texto con la descripción de lo que deseamos (el prompt) y una única muestra de audio de 15 segundos para generar un clip de audio de voz con un sonido natural que 'se parece mucho al hablante original'. Pese a que la muestra base es pequeña, OpenAI asegura que puede crear voces emotivas y realistas.

En la entrada del blog pueden encontrarse algunos clips con el audio de referencia y el generado, cambiando de tema, de idioma y hasta el objetivo (pasar de un mero speech a una pregunta). Si haces la prueba de escuchar el audio original y en generado, sí que pueden apreciarse ciertas diferencias, pero son lo suficientemente parecidos como para que pasen por auténticos (sobre todo, si el discurso encaja con lo que esperas que diga esa persona en cuestión).

Entre los posibles usos de Voice Engine, OpenAI propone que puede servir para proporcionar asistencia de lectura a criaturas o simplemente, gente que no sabe leer, con sonidos naturales, para traducir contenido, para llegar a comunidades globales al mejorar la prestación de servicios esenciales en entornos remotos, apoyo a personas que no usen la comunicación verbal, ayudar a pacientes a recuperar su voz, entre otros.

En Genbeta

OpenAI está revolucionando la transcripción de audio a texto con Whisper mientras todos seguimos centrados en ChatGPT y DALL-E

Los riesgos de Voice Engine

Aunque los usos potenciales para el bien de Voice Engine están ahí, es inevitable pensar en su capacidad para el mal, ya que es la herramienta perfecta para difundir información errónea, simplemente simulando la voz de personajes políticos, celebrities, periodistas... fragmentos de audio para la muestra hay de sobra. Asimismo y teniendo en cuenta su pericia, probablemente sea capaz de burlar los diferentes sistemas de autenticación por voz empleados como seguridad, lo que supondría poner en riesgo información confidencial.

OpenAI explica que ha adoptado un enfoque cauteloso para una disponibilidad más amplia por su potencial de uso indebido de la voz sintética. Según la empresa, 'esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades.' De forma más concreta, OpenAI está experimentando con sistemas de marcas de agua para ayudar a diferenciar las grabaciones reales de las sintéticas.

Tras esas conversaciones y sus pruebas a pequeña escala, tomarán la decisión de implementar la tecnología a escala y cómo hacerlo. Pero de momento y como con Sora, se trata de una mera demostración de su capacidad de lo que puede hacer.

Portada | Montaje con foto de Michal Czyz en Unsplash y Wikimedia Commons

En Genbeta | Cómo gana dinero OpenAI, la empresa detrás de ChatGPT y Dall-E de la que Elon Musk es socio fundador

OpenAI está probando una inteligencia artificial que clona la voz humana. Qué podría salir mal

Tras Sora, los creadores de ChatGPT muestran al mundo Voice Engine, que apenas necesita unos segundos para replicar voces de forma natural

Qué es y cómo funciona Voice Engine

Los riesgos de Voice Engine

Explora en nuestros medios

Qué es y cómo funciona Voice Engine

Los riesgos de Voice Engine

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios