Meta acaba de presentar una inteligencia artificial de voz muy potente. Tanto que ha repetido la jugada de OpenAI con GPT-2

Mientras Meta centraba esfuerzos y grandes cantidades de dinero en un metaverso que no acaba de cuajar y que ha quedado en unos avatares muy simples, el mundo de las grandes tech apostaba por una inteligencia artificial que ha supuesto una revolución en el gran público.

Pero la empresa de Facebook, Instagram y WhatsApp se está poniendo las pilas y ha dado un empujón a sus esfuerzos en el área de la inteligencia artificial.

El lanzamiento de su modelo LLaMA ha sido valorado positivamente, sobre todo entre la comunidad Open Source. Luego presentó su nueva herramienta llamada MusicGen, una IA generativa para crear música. Ahora llega otro proyecto bautizado Voicebox.

Un vistazo a…
ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Para qué sirve Voicebox

Según la empresa, esta IA generativa del habla es el primer modelo capaz de generalizar tareas de generación del habla para las que no ha sido específicamente entrenado con un rendimiento de vanguardia. Parece que ha conseguido ir más allá de lo que logran otros modelos.

Se puede escribir una frase para convertirla en voz y este sistema crea esas voces sintetizadas. Hay diferentes estilos a elegir para leer ese texto. No suenan totalmente naturales, pero tampoco es un estilo loquendo de voces enlatadas (en este link puedes escuchar cómo suena). Además, hay varios idiomas disponibles: inglés, francés, alemán, español, polaco y portugués. Todos europeos. 

La empresa explica que, para crear Voicebox los ingenieros de Meta lo entrenaron con 50.000 horas de voz procedente de audiolibros en inglés, y otras 60.000 horas de audiolibros en otros idiomas. Eso hace que el resultado suena como si las personas que hablan estuvieran leyendo un libro, sea cual sea el contexto que tú quieras ponerle.

En el futuro, se espera Voicebox pueda dar voces naturales a asistentes virtuales y personajes no jugadores del metaverso, además permitir a personas con discapacidad visual escuchar mensajes escritos de sus amigos, leídos con IA en sus voces, entre otras cosas.

Otras capacidades de Voicebox

Voicebox puede producir fragmentos de audio de alta calidad y editar audio pregrabado (como eliminar bocinas de un coche o el ladrido de un perro) conservando el contenido y el estilo del audio.

También es posible usar un texto escrito en cualquier idioma y un clip de audio en tu idioma nativo. Voicebox hará que "digas" esa frase en ese idioma como si fuera tu idioma nativo, según las informaciones de la empresa.

Este software de inteligencia artificial también es capaz de modificar el clip de audio original con tu voz en el que decías algo para alguna palabra e insertar otra nueva indicada en el prompt de texto.

Al mismo tiempo, este sistema podrá ser usado para hacer deepfakes, como sucede con otras herramientas de inteligencia artificial. Y es que puede llegar a usarse para realizar estafas suplantando identidades. Para evitar que pueda ser demasiado accesible al mundo, este software no es Open Source como sí lo es LLaMa. Meta ha dedicido no publicar el código de Voicebox.

Han decidido, según información ofrecida por Meta, no ponerlo a disposición del público porque quieren seguir investigando en IA.

En Genbeta | Emular el 'sentido común' con inteligencia artificial a la hora de generar imágenes y vídeo: eso es lo que promete Meta con I-JEPA

Imagen | Meta 

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta