Desde hace mucho tiempo podemos añadir la localización física a cada uno de nuestros tweets. Y aunque a veces puede resultar útil por querer añadirlos conscientemente, muchas veces los adjuntamos por habérsenos olvidado desactivar ese botón en nuestros clientes móviles. Las cifras hablan por sí solas: menos del 1% de los tweets contenen metadatos geográficos.
Aunque que los tweets no estén geolocalizados no implica que no pueda conocerse desde dónde fueron enviados. Un equipo de investigadores de IBM radicado en Almadén (California) ha anunciado el desarrollo de un algoritmo que permite conocer la ciudad de origen de un usuario de Twitter con el 70% de precisión. Y únicamente es necesario analizar los últimos 200 tweets de una cuenta.
¿Cómo ha sido?
El equipo, liderado por el investigador Jalal Mahmud, tomó muestras de tweets geolocalizados durante los meses de julio y agusto de las cien mayores ciudades de los Estados Unidos, eligiendo a cien usuarios en cada localización. Una vez elegidos los usuarios, tomaron los últimos 200 tweets de cada uno.
De ese modo se quedaron con algo más de millón y medio de tweets geolocalizados de cerca de diez mil personas, para comenzar a analizar la información convenientemente. Los dividieron en dos grupos: 90% de los datos para entrenar al algoritmo, y 10% para probarlo.
¿Cómo se entrena este algoritmo? Buscando y fijándose en información de interés dentro del propio tweet, y no en sus metadatos. Por ejemplo, buscando nombres de ciudades (cerca del 20% de los tweets recogidos contenían el nombre de ciudades registradas de los Estados Unidos), expresiones locales (referidas por ejemplo a equipos de fútbol) o tweets que indican check-ins en Foursquare.
Además, la hora a las que un usuario envía ciertos tweets también es buen indicador de la zona horaria en la que está viviendo. Por ejemplo, si un usuario dice "Buenos días", es más probable que en su ciudad sea por la mañana que otra cosa. En países como España no es tan relevante, pero en países más grandes (como los propios Estados Unidos) se trata de una gran ayuda.
De ese modo, aplicar el algoritmo desarrollado por este equipo y al que han alimentado con tweets geolocalizados devuelve la ciudad de origen del usuario en cuestión, aunque con una precsión del 68%, acertando la zona horaria el 80% de las veces. Este análisis se realiza, además, en menos de un segundo.
¿Para qué podría ser utilizado este algoritmo? Por poner un ejemplo rápido, Twitter podría llegar a emplearlo para tratar de segmentar su publicidad para aquellos usuarios que declinan mostrar su localización física.
Más información | MIT Technology Review En Genbeta | 'Please Don’t Stalk Me' cambia la geolocalización de tus tweets de manera sencilla Imagen | Anthony Quintano
Ver 7 comentarios
7 comentarios
JuanAR
Por la IP ya se sabe de qué zona eres, twitter no necesita este algoritmo para eso, ya que acceden a sus servidores y por tanto saben ese dato. Esto podría servir para otras empresas que no tienen ese dato.
dacotinho
Y si uno tuitea algo sobre Belén Esteban en Sálvame, pues también saben que vives en España y que te falta un hervorcillo.
xpacho4
Si se quiere dar por entender con éste tipo de articulos que hemos de preocuparnos por nuestra privacidad, no useis Internet y se soluciona el problema de raíz. Como dice el compañero Juan Aguilera, solo con la IP se puede acotar la zona geográfica.