Desde su nacimiento en 2004, el filtro de spam de Gmail ha sido un referente por cómo frena la llegada de correos basura a nuestra bandeja de entrada. Si bien a veces puede pecar de ser demasiado agresivo, y clasificar como spam correos que no lo son, en general lo que se registra en el apartado suele tener mucho sentido.
Con la explosión de las listas de correos de tiendas a las que el usuario se ha suscrito, en muchos casos sin saberlo y la llegada de formas más complejas de ocultar intenciones negativas en un mensaje, la dificultad para clasificar el correo como spam se incrementa, pero Google tiene de su parte a la inteligencia artificial de TensorFlow.
La compañía de Mountain View ha explicado en su blog este y más detalles sobre el uso del aprendizaje automático para lograr bloquear, según sus cifras, el 0,01% del correo basura que llega, que incluye malware y phising, y que el sistema tradicional no detectaba.
Así funciona TensorFlow en nuestra bandeja de SPAM
Como decíamos, el filtro anti-spam de Gmail ya era bueno, pero gracias al aprendizaje automático avanzado de Tensorflow, que complementa las reglas de inteligencia artificial más sencillas ya estaban presentes en el servicio de correo electrónico, Google está consiguiendo bloquear 100 millones de mensajes más cada día de los que lograban interceptar antes de su implementación.
Pero, ¿de dónde sale tanto spam extra? De acuerdo a la información que Google proporciona, existen ciertos tipos de correo electrónico muy difíciles de detectar como correo malicioso o sin interés para el usuario. Entre ellos se encuentran mails de imágenes, con contenido embebido escondido o de nuevos dominios que mezclan correos benévolos con otros que son puro spam.
Ahí es donde entra TensorFlow, que permite ser usado a una escala masiva con menos ingenieros interviniendo en el proceso que anteriormente, pues mejora las reglas creadas por personas y se adapta mejor a nuevas tendencias de spam. Además, el hecho de que el sistema sea escalable y adaptable hace posible que Google trabaje con diferentes modelos al mismo tiempo, analizando así que aproximación al problema es más efectiva.
El 99,99% del spam ya era bloqueado por el sistema anterior, pero ese 0,01% restante es el más difícil de detectar. Por ello, aunque sea para identificar una cantidad pequeña de correo basura extra proporcionalmente hablando, el uso de TensorFlow tiene todo el sentido. Además, introduce la capacidad de personalizar la protección de spam para cada usuario, porque no para todos significa lo mismo el correo basura.
Ver 4 comentarios