Meta anuncia un potente traductor con la capacidad de traducir 200 idiomas en tiempo real, y lo hace sin pasar por el inglés

Hoy día contamos con multitud de herramientas para superar la barrera del idioma. Si bien la más eficaz sigue siendo aprenderlos, los traductores, con ayuda de la inteligencia artificial, son cada vez más ágiles a la hora de hacer su trabajo. En redes sociales son muy importantes, ya que ayudan a que todo el mundo se entienda (aunque a veces fallen), pero Mark Zuckerberg quiere ir más allá con ellos, y serán también la clave para que no haya problemas de comunicación en su idílico metaverso.

Los investigadores de Meta llevan un buen tiempo trabajando en modelos de inteligencia artificial enfocados a la traducción de varias lenguas. En este caso han anunciado NLLB-200 (No No Language Left Behind), un modelo capaz de traducir 200 idiomas en tiempo real, siendo el doble de mejor que el sistema que tenía Meta hasta el momento.

Eliminando las barreras del idioma con NLLB-200

Según ha comentado Zuckerberg en un post de Facebook, muchos de los idiomas que se incluyen en este modelo no son compatibles con los sistemas de traducción actuales. Dicho modelo, el cual es open-source y del que podemos averiguar más detalles a través de su paper, ha sido entrenado utilizando el superordenador Research SuperCluster, siendo uno de los superordenadores para IA más rápidos del mundo.

"Para dar una idea de la escala del programa, el modelo de 200 idiomas analiza más de 50.000 millones de parámetros".

Según apunta Zuckerberg, el sistema está preparado para realizar hasta 25.000 traducciones diarias a través de todas las apps de Meta. La herramienta es capaz de traducir idiomas tanto en oral como en escrito, y de esas 200 lenguas, se han añadido 55 africanas, muchas de las cuales no se encuentran disponibles en los sistemas de traducción automáticos actuales.

En la imagen podemos observar los distintos modelos de traducción con sus respectivas puntuaciones BLEU, una medida para evaluar la calidad de estos modelos a través de las traducciones de referencia. En la gráfica, NLLB-200 supera a BT, alcanzando una puntuación de 37,84, siendo la más alta hasta la fecha.

Eliminar las barreras del idioma es algo que evidentemente beneficia la fluidez en la comunicación, y esto es esencial en las redes sociales. Además, este tipo de sistemas serán clave para la traducción en tiempo real por medio de dispositivos de realidad virtual, teniendo por objetivo facilitar una experiencia en el metaverso ininterrumpida.

Traducciones desde el idioma original y no del inglés

NLLB-200 está basado en el modelo M2M-100 presentado en 2020, un sistema que, en vez de pasar las traducciones del inglés, se hacen desde el idioma original, suponiendo una traducción más precisa. Sin embargo, el cuello de botella de este sistema es debido a la sobrerrepresentación del inglés en Internet.

La mayoría de artículos y contenido se suele encontrar en inglés, y el sistema requiere de millones de ejemplos de sus distintos idiomas compatibles para realizar su función. Aquí Meta lo explica comparando la cantidad de artículos en Wikipedia que hay en sueco y el lingala. Si bien el primero es hablado por unas 10 millones de personas, el lingala lo hablan 45 millones de personas procedentes de la República Democrática del Congo, la República del Congo, la República Centroafricana y en Sudán del Sur. En Wikipedia hay 2,5 millones de artículos en sueco, mientras que en el idioma africano solo hay 3.260.

Para afrontar este problema, desde Meta han mejorado su modelo para obtener un mayor rendimiento de cada oración y palabra procesada, aumentando también el tamaño de las bases de datos utilizadas para alimentar al algoritmo. Para confirmar la calidad de las traducciones han utilizado a FLORES-200, un dataset para evaluación que les ha servido para entrenar y mejorar a su modelo de IA.

Más información | Meta

Ver todos los comentarios en https://www.genbeta.com

VER 2 Comentarios

Portada de Genbeta