Civio, la fundación dedicada a investigar a los poderes públicos mezclando periodismo e innovación a partes iguales, acaba de presentar Verba. Un interesante proyecto que nace para para analizar la cobertura de los informativos de Televisión Española y ser, además, una aplicación web de código abierto.
Verba, resultado de una beca de la Google Digital News Initiative, se vale de la publicación de los subtítulos de los Telediarios de la televisión pública española para capturarlos y, a partir de ellos, escrutar su contenido con el objetivo de hacer valer la expresión latina de la que toman su nombre: "Verba volant, scripta manent". Es decir, "las palabras vuelan, lo escrito permanece".
¿Cómo funciona y se usa Verba?
David Cabo, codirector de Civio e ingeniero superior en Informática, vio junto con sus compañeros de la fundación hace unos años que los subtítulos de los informativos de TVE estaban disponibles en la web de RTVE. Concretamente, de los telediarios desde 2014 hasta la actualidad, excepto informativos de junio de 2018 y del 10 mayo de 2019 porque los subtítulos no están publicados.
"Y nos pareció un recurso muy interesante porque, uno, es importante analizar el comportamiento de la televisión pública y, dos, llevábamos tiempo queriendo trabajar con Procesamiento de Lenguaje Natural", explica en un hilo de Twitter.
En julio de 2018, la fundación anunció que Google iba a financiar a través del Digital News Innovation Fund un prototipo de Civio cuyo objetivo sería analizar las transcripciones de vídeos con uso periodístico. ¿Cómo? Aplicando técnicas de Procesamiento del Lenguaje Natural (PLN) a las transcripciones de vídeos.
El primer resultado de esta incursión en este campo de las ciencias de la computación, la inteligencia artificial y la lingüística son cinco ejemplos de historias periodísticas que han surgido gracias a la aplicación de estas tecnologías, en este caso, a la hora de encontrar en el contenido menciones a términos o nombres. Hablamos de "ultraderecha", "Mariano Rajoy", "Gürtel", "los ERE", "dieta" y "crisis climática".
Tras los resultados, llega el periodismo. Y con él, respuestas a preguntas. "¿Qué caso de corrupción crees que ha sido mencionado más veces en los informativos de la televisión pública estatal: Gürtel o el de los ERE? ¿Sabías que, desde la moción que puso fin a su presidencia, Mariano Rajoy sigue siendo citado, de media, una vez al día en los telediarios de TVE, una cifra que ni Messi? ¿Conoces en qué contextos se está usando el término “ultraderecha” en la tele pública y en cuáles no? ¿Cuándo la expresión “cambio climático” empezó a venir acompañada de otras como “crisis climática” o “emergencia climática”? ¿Se promueven hábitos alimentarios y dietas nada saludables, o incluso nocivas, en la cadena de todos?".
Estas primeras historias periodísticas son solo el principio, explica Eva Belmonte, la otra codirectora de Civio. El objetivo final de Verba, avanza Cabo, "es medir el tiempo que los Telediarios dedican a cada tema (fútbol, medio ambiente...)". Y, para ello, están trabajando en partir las transcripciones disponibles en las noticias individuales a las que corresponden al tiempo que entrar un modelo que sea capaz de clasificar estas noticias en los diferentes temas elegidos.
Como aplicación web de código abierto, Verba pretende ayudar a profesionales como periodistas o investigadores y organizaciones como observatorios de medios, y también a cualquier ciudadano, a capturar y analizar contenidos como los informativos a través de sus subtítulos. Por ello, es posible buscar términos libremente y comprobar visualmente la evolución del número de referencias a dicha expresión, encontrar la parte exacta del informativo en el que se ha citado y, por último, descargar los resultados en formato CSV. El código está disponible en GitHub.