La tecnología de inteligencia artificial (IA) sigue avanzando a pasos agigantados, y Meta, la empresa matriz de Facebook, ha dado un paso importante hacia la creación de un dispositivo de traducción universal que hace poco tiempo habríamos calificado de 'ciencia ficción'.
Un artículo reciente publicado en Nature por su equipo FAIR (Foundational AI Research) aborda este problema al presentar un modelo de traducción automática que combina modalidades de texto y habla 101 idiomas. Para algunos, este avance (bautizado como SEAMLESSM4T, un sucesor del NLLB-200) abre la puerta a un futuro donde las barreras lingüísticas sean cosa del pasado.
Un salto más allá de los sistemas convencionales
Hasta ahora, los sistemas de traducción de habla a habla (S2ST, por sus siglas en inglés) habían funcionado a través de un enfoque en cascada: primero, reconocimiento automático del habla (ASR); luego, traducción de texto a texto (T2TT); y, finalmente, conversión de texto a habla (TTS). Aunque efectivos, estos sistemas tienen limitaciones:
- Enfoque en idiomas de altos recursos: Los modelos tienden a ser precisos solo en idiomas con abundantes datos disponibles, dejando atrás a muchas lenguas menos comunes.
- Limitación direccional: Frecuentemente, se especializan en traducir al inglés... pero no desde inglés hacia otros idiomas.
- Complejidad del sistema: La naturaleza modular de los sistemas en cascada incrementa las posibilidades de errores acumulativos.
SEAMLESSM4T aborda estas limitaciones con un enfoque unificado, que permite la traducción directa de habla a habla (S2ST), de habla a texto (S2TT), de texto a texto (T2TT) y de texto a habla (T2ST) en 96 de los idiomas compatibles con el modelo, lo que lo convierte en uno de los sistemas más versátiles hasta la fecha.
La clave del éxito de SeamlessM4T radica en su entrenamiento. Meta utilizó 4 millones de horas de audio multilingüe y decenas de miles de millones de frases obtenidas de repositorios públicos online. Asimismo, hizo uso de 443.000 horas de audio con textos coincidentes, como subtítulos de vídeos en internet, para mejorar aún más su capacidad de traducción.
Más allá de la traducción: precisión en entornos ruidosos y reducción de toxicidad
Además de su precisión, SeamlessM4T destaca por su resiliencia. Es aproximadamente un 50% más robusto ante ruido de fondo y variaciones en el habla, lo que lo hace especialmente útil en contextos de conversaciones del día a día. También puede manejar expresiones que mezclan varios idiomas, una habilidad valiosa en contextos multilingües.
Por otro lado, Meta también ha trabajado para reducir los riesgos de 'toxicidad' en las traducciones. Durante el entrenamiento, se implementaron estrategias para evitar añadir lenguaje ofensivo no presente en la muestra original, lo que disminuyó hasta un 20% la presencia de contenido problemático en comparación con otros modelos.
Usos actuales y futuros
Meta ya está utilizando SeamlessM4T en varios proyectos prácticos. Por ejemplo, permite el doblaje automático de vídeos en Instagram y Facebook, y facilita la traducción en tiempo real a través de altavoces integrados en gafas inteligentes Ray-Ban. Asimismo, el sistema se ha puesto a disposición de investigadores y desarrolladores en formato de código abierto, lo que podría acelerar los avances en el campo.
No obstante, el camino hacia un traductor verdaderamente universal todavía es largo: aunque SeamlessM4T soporta 101 idiomas, existen más de 6.500 lenguas en el mundo. Ampliar esta capacidad requerirá avances adicionales y mayores volúmenes de datos de entrenamiento, especialmente para idiomas menos hablados.
Toda IA lo suficientemente avanzada es indistinguible ¿de un pez alien?
En la famosa novela de ciencia ficción humorística "La Guía del Autoestopista Galáctico", de Douglas Adams, aparecía una criatura ficticia conocida como el 'pez de Babel', un pequeño animal amarillo que se introduce en el oído de una persona y permite la comprensión instantánea de cualquier idioma, ya sea hablado o escrito, al convertirlo en un lenguaje que el portador pueda entender.
Aunque SeamlessM4T aún no es instantáneo, por desgracia, representa un avance significativo hacia el ideal de traducción en tiempo real descrito en la obra de Douglas Adams. Futuras mejoras del modelo podrían llevarlo a convertirse en nuestro equivalente del 'pez de Babel'.
Imagen | Marcos Merino mediante IA
Ver 0 comentarios