Hace tres años, nuestros compañeros de Xataka publicaban un reportaje analizando qué prestaciones ofrecían, en aquel entonces, el software de transcripción de textos. En la mente del autor estaba, como buen periodista, la habitual labor de pasar a texto las entrevistas. Y se planteaba una pregunta:
"¿No es curioso que teniendo asistentes virtuales que nos entienden casi a la perfección no haya un software conocido para transcribir audio a texto?".
La conclusión final era que sí, que había software, pero en su mayor parte o no servía para audios largos, o era de pago; y, normalmente, fallaba de manera miserable a la hora de interpretar la puntuación del texto. Y, por supuesto, estaba la cuestión de la privacidad: la transcripción no era posible si el audio no se subía, en algún momento, a un servicio en la 'nube'.
Y entonces llegó la revolución de la inteligencia artificial. Y abrió las puertas a múltiples usos en la generación de textos (con GPT-2). Y, poco después, revolucionó de arriba a abajo la tarea de generar imágenes (con DALL-E 2). Pero aún faltaba aplicar la IA a otro campo: al de la transcripción de audio a texto. Porque los periodistas no queremos que nos sustituya un robot, pero le dejaríamos encargarse de esta tarea en concreto sin problemas.
Y entonces, una de las principales entidades de desarrollo de IA, OpenAI, que ya habían copado titulares gracias a GPT-2 y DALL-E 2, lanzó el pasado mes de mayo una nueva IA: Whisper. Y, de pronto, eso entrevistar se hizo mucho más ligero.
Whisper no es audio generativo: es algo mucho más útil
Whisper se define como "un sistema de reconocimiento automático de voz (ASR)" que ha sido sometido a un entrenamiento consistente en procesar "680.000 horas de datos supervisados multilingües recopilados de la web". Y, aunque es cierto que el 65% de esas horas están en inglés, sus resultados son también excelentes en español, mostrando una ratio de error por palabra menor que en inglés.
Eso sí, sólo los angloparlantes pueden hacer uso de la función de traducción directa del texto extraído del audio a su idioma.
"Un dataset tan grande y diverso permite un mejor manejo de los acentos, del ruido de fondo y del lenguaje técnico. Además, facilita la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés".
En realidad, Whisper es un conjunto de cinco modelos sucesivamente más complejos (hablando técnicamente, con mayor cantidad de parámetros de entrenamiento, lo que se traduce en más GB de espacio en disco) y sucesivamente más exigentes en cuanto a hardware (lo que significa un mayor consumo de GB de RAM).
Así, podemos pasar de la versión 'tiny', con sólo 39 millones de parámetros y un consumo de tan sólo 1 GB de RAM, a la 'large', con 1550 Mill. de parámetros, un gasto de 10 GB de RAM, y una velocidad 32 veces menor que la anterior.
En cualquier caso, sigue siendo una tarea al alcance de la mayoría de ordenadores de escritorio hoy en día, lo que unido a su condición de software 'open source', abre la puerta a que cada cual realice la transcripción en su equipo, sin depender de servicios ajenos. Pero, en un primer momento, eso era más fácil de decir que de hacer: como tantas otras aplicaciones de IA, en muchos casos la única forma de usar Whisper era recurriendo a servicios como Google Colab:
No es un método insuperablemente complejo (de hecho, rápidamente se multiplicaron los tutoriales), pero sí puede echar atrás a los usuarios menos experimentados. Y, desde luego, sigue sin solventar el aspecto de la privacidad que comentábamos antes. Por fortuna, al igual que ocurrió con Stable Diffusion (otra IA open source), han empezado a desembarcar las aplicaciones que nos ofrecen una interfaz gráfica que convierte prácticamente en trivial el uso de la aplicación, y deja al usuario poca más tarea que seleccionar una serie opciones y hacer clic en 'OK'.
Buzz: Whisper para dummies
Y ahí es donde entra Buzz, un sencillo programa de escritorio multiplataforma (está disponible para Windows, macOS y Linux) que podemos descargar desde su repositorio de Github, y que luce este aspecto:
Desde esa ventana, podemos elegir tarea (Transcribir / traducir), lenguaje de origen (la lista es extensa, e incluyo por defecto la detección automática), calidad del modelo (excluye el modelo más complejo de los 5 antes citados) y micrófono de origen del audio. Esto nos permite ir dictando sobre la marcha y viendo cómo nuestras palabras se reflejan o se traducen al inglés.
Sin embargo, el uso más habitual de este programa consistirá en que lo utilicemos para procesar un archivo de audio. Para ello, deberemos clicar en 'File > Import audio file'. Una vez hayamos seleccionado el archivo en cuestión, nos aparecerá otra ventana similar a la anterior, aunque veremos cómo cambia el campo relacionado con el micrófono por otro que nos permite elegir el formato de archivo de la transcripción (.txt, o bien algún formato de subtítulos).
En la prueba que realizamos, decidimos apostar por un audio difícil (un diálogo algo frenético, con tres interlocutores en una retransmisión de vídeo en directo); elegimos, concretamente, este vídeo de Xataka TV. Extrajimos la pista del audio del mismo y se la pasamos a Buzz de dos formas: usando el modelo de calidad 'Very Low', primero, y la de calidad 'High', después. He aquí el resultado:
Bueno, la calidad 'Very Low' no merece mayor comentario, es una transcripción ligeramente lisérgica con similitudes tangenciales con la realidad. El modelo de máxima calidad (entre los ofrecidos por Buzz) proporciona, sin embargo, una experiencia muchísimo mejor. Sin ser infalible, diríamos que sólo le falta identificar y separar por interlocutores para ser todo lo que un entrevistador pediría por Navidades. En cualquier caso, nos hace la vida mucho más fácil.
Eso sí, para conseguir ese resultado, hemos tenido que darle una pequeña paliza a nuestro equipo durante casi media hora, como puede verse en esta captura:
Ver 4 comentarios