Un grupo de científicos del Imperial College London y de la Université Catholique de Louvain de Bélgica han desarrollado un algoritmo capaz de identificar a prácticamente cualquier estadounidense a partir de bases de datos públicas teóricamente despojadas de información personal que permite una identificación.
El estudio, publicado en la revista científica Nature Communications, explica cómo tomando datos médicos, conductuales y sociodemográficos públicos supuestamente anonimizados puede identificarse con un acierto 99,98 % a las personas a las cuales les pertenecen al cruzarlos.
Más concretamente, el modelo informático desarrollado es capaz de identificar a casi la totalidad de los estadounidenses de casi cualquier conjunto de datos disponibles empleando solamente quince atributos como puedan ser el estado civil, el sexo o el código postal de su domicilio. El margen de error casi no existe.
Datos públicos no tan anónimos
Los datos públicos empleados por este algoritmo son, como decíamos, información médica, conductual y sociodemográfica que, en principio, carece de detalles que permitan una identificación. Son resultado de pruebas médicas, encuestas o censos poblacionales que suelen pedir permiso a los usuarios para difundir la información eliminando los datos que permitirían una identificación.
En esta información podemos encontrar desde el estado de salud de las personas a inclinaciones políticas, situación sentimental, productos favoritos, fechas de nacimiento, sexo y un sinfín de indicadores.
A partir de todo ello, el algoritmo informático de los investigadores del Imperial College London y de la Université Catholique de Louvain puede relacionar datos e información consiguiendo identificar al 99,98 % de los propietarios de esos datos, aseguran los investigadores en el estudio publicado.
Lo que resulta ciertamente llamativo es que este grupo de científicos ha publicado el código que compone la herramienta desarrollada y cualquiera podría usarla. La razón, recoge The New York Times, es la dificultad de advertir del problema a una compañía u organización concreta, porque los datos de este tipo se extienden por todas partes, y la posibilidad de que la información ya se haya explotado como permite su método. Confían que con la publicación del código se asegura en un futuro la publicación de este tipo de datos.