Echando un vistazo a una fotografía, pongamos como ejemplo la instantánea de una concurrida avenida de una gran ciudad, podemos imaginar los sonidos que allí tienen lugar. El murmullo del gentío, los ruidos que provocan los motores de los vehículos, quizás la sirena de un coche policial... Es lo que denominaríamos un paisaje sonoro. ¿Puede eso mismo imaginarlo una inteligencia artificial? Es lo que se propone el proyecto Imaginary Soundscape.
Esta web creada por Nao Tokui, compatible de momento con Chrome y Firefox usados en PC, nos lleva de viaje a cualquier lugar capturado por las cámaras de Google Street View. Cada vez que accedemos o refrescamos la web, aparecemos en un nuevo sitio: una tranquila calle de un pequeño pueblo de montaña, la mismísima Times Square de Nueva York, un frondoso bosque mediterráneo o el interior de la catedral de Notre Dame de París.
Imaginando el sonido de un lugar con inteligencia artificial
Una vez llegados a nuestro destino, que también podemos seleccionarlo nosotros mismos realizando una búsqueda desde la caja de texto situada arriba a la derecha, modelos de aprendizaje profundo generarán un paisaje sonoro acorde al escenario en cuestión de segundos o minutos, dependiendo de la complicación del lugar. En la sosegada calle de la población montañosa puede que escuchemos el rumor del viento. En Times Square, el bullicio de la civilización. En el medio de un bosque, el cantar de los pájaros y el movimiento de las hojas de los árboles al viento. Y bajo las bóvedas de Notre Dame, la voz baja de los visitantes ligeramente expandida por el eco.
"Muchos investigadores de todo el mundo han estado trabajando en la recuperación de información multimodal, como de imágenes a audio, de sonido a imagen, de sonido a texto, usando deep learning", asegura Tokui en un artículo de presentación. Y en una investigación realizada por el Instituto de Tecnología de Massachusetts se ha basado la implementación de Imaginary Soundscape.
En esta investigación, utilizaron dos tipos de redes neuronales convolucionales (CNN), una para imágenes de fotogramas de vídeo y la otra para imágenes de espectrograma de audio, y el conjunto de datos de vídeo Flickr 100M para entrenamiento. Para las imágenes, se utilizaron modelos CNN estándar preentrenados para el reconocimiento de imágenes (a saber, el modelo VGG para ImageNet y el conjunto de datos PlacesNet for Places365). Luego entrenaron a la segunda red (SoundNet).
Finalizado el entrenamiento, dice que el resto fue sencillo. Bastaba con darle una imagen cualquiera de Google Street View y el sistema ideado emparejaría lo que viese en la instantánea con el sonido que más se le ajustase de entre un conjunto de 15.000 archivos de sonido, capaz de distinguir entre el sonido ambiental y el de fuentes directas y audibles.
Más detalles sobre este trabajo pueden consultarse en el paper titulado "Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments".