No importa que tan anónimos pienses que sean tus tuits, gracias a la enorme cantidad de metadatos que Twitter almacena, te pueden identificar a ti y a casi cualquier usuario con una enorme precisión, como lo han probado investigadores del Instituto Alan Turing en Londres en un nuevo estudio.
Aplicando un algoritmo de aprendizaje automático supervisado, los investigadores fueron capaces de identificar a todos los usuarios de un grupo de 10.000 tuiteros con aproximadamente un 96.7% de precisión.
El problema de que los metadatos no sean considerados información sensible
Cómo explican los investigadores, los metadatos están asociados a la mayoría de la información que producimos todos los días en nuestras interacciones y comunicaciones dentro del mundo digital. Y sorprendentemente esa información no se considera "sensible".
Mientras la mayoría se enfoca en identificar a un usuarios usando el contenido del mensaje, los metadatos son muchísimo más efectivos para clasificar la información que pertenece a un usuario en particular. Aunque esta investigación usó a Twitter para sus pruebas, el problema aplica a otras redes sociales.

Los metadatos que Twitter guarda son de acceso público
La mayoría de los usuarios de Twitter no saben que la red social almacena 144 piezas de metadatos sobre ellos, y son accesibles de forma pública a través de la API del sitio. En comparación con el contenido de un tuit, los metadatos son mucho más grandes.
Conversando con Wired, una de las autoras de la investigación ilustra sobre la situación con un ejemplo bastante interesante:
Nadie en su sano juicio le diría su dirección a un extraño que se la pide en la calle. Pero quizás podrían decirle con que frecuencia encienden y apagan la luz en su habitación. Esa es la mentalidad con los metadatos, la gente cree que no es gran cosa. Pero si la juntas con otra pieza de información puedo saber si estás en tu casa o no.
Cosas como la fecha en la que una cuenta fue creada, la hora a la que se publica un tuit, el número de favoritos, seguidores y seguidos, etc. Información básica que combinada puede identificar al usuario de forma extremadamente eficiente.
Los investigadores esperan que con la introducción de la GDPR quizás aumente el escrutinio sobre los metadatos, puesto que la regulación requiere que solo los datos específicos para realizar una tareas sean procesados por las empresas. Pero el otro problema como siempre, no es que tan malo sea que las tecnológicas almacenan tanta información sobre nosotros, sino que a la gente le importe en primer lugar.
En Genbeta | Spoonbill, la herramienta definitiva para 'stalkear' a tus contactos en Twitter
Ver 3 comentarios
3 comentarios
Alberto Hernandez
El estudio no tiene que ver nada con tener una cuenta anónima en Twitter (¿clickbait?), lo que indica es que las huellas que va dejando una cuenta son bastante únicas. Si la cuenta es anónima, por muchas huellas que dejes se sabrá qué cuenta es pero no por ello deja de ser anónima.
El problema vendría si tienes una cuenta anónima y una personal y usas las dos de la misma manera siguiendo el mismo patrón y usando el mismo dispositivo. En ese caso sí podría hacerse una comparación de huellas y decir, anda, estas dos cuentas tienen huellas parecidas así que serán el mismo usuario.
La GDPR precisamente obliga a hacer patente qué datos recopilas, si ahora en vez de poner una cookie analizas otros datos de tapadillo es ilegal igualmente si no lo avisas. El "browser fingerprint" o huella del navegador es un ejemplo, consistente en hacer operaciones con imágenes en javascript, capturar su resultado, medir tiempo de ejecución, etc. que por lo visto son datos bastante únicos por dispositivo/navegador y permiten hacer seguimiento de un usuario incluso si usa el modo privado/incógnito.
juanmcm
No es un problema sino varios, por un lado eso que se menciona de los metadatos y como con herramientas se puede saber desde donde estás hasta si eres quien dice ser por el lenguaje empleado o por los patrones de publicación (hora, contenido, ubicación, interacciones, etc) y esa información es bastante más valiosa de lo que nos hacen creer.
Por otro lado, he visto que hay falsos reportes por diversidad de temas, desde deportivos o políticos o técnicos y según quienes lo hagan resulta que Twitter toma cartas en el asunto con digamos una más que cuestionable rapidez.
Los trolls se crean cuentas y a menudo se publica desde ellas o no, pero si que reportan y muchas veces no hay que decir el motivo y ello me parece que debería cambiar.
shalemdiorjuz
Si Sr toda la razón, el secreto está en los metadatos. Últimamente he estado medio paranoico y no volví a realizar compras importantes por Internet cuando terminó apareciendo Microsoft con datos de una de mis tarjetas de crédito a través de mi cuenta Outlook de un momento a otro sin siquiera aparecerme por su store y todo por haber hecho una sola transacción desde el navegador Edge.
Un mensaje por correo me alertó de que Outlook quería incrustar esos metadatos a la configuración de la cuenta, al ingresar ya automáticamente lo había hecho (teléfonos, código numérico impreso en plástico), incluso estaban en Skype. Me tocó esperar un mes para banear esa información. Fue una compra nada que ver con ellos y hecha desde un equipo con Windows en un momento de urgencia. Hasta en el calendario de ellos apareció mi fecha de cumpleaños cuando nunca lo uso.
Toda la información la triangulan abusivamente. Google hace exactamente lo mismo. Los móviles Android vienen de fábrica con sus tales DNS 8.8.8.8, 8.8.4.4 y todos nuestros datos pasan por sus servidores y sin importar que estén encriptados mágicamente aparecen en las cuentas de correo para realizar compras en sus stores con datos no suministrados manualmente por nosotros pero ingresados automáticamente por sus algoritmos de Inteligencia Artificial.