Ayer, muchos usuarios descubrieron la existencia de un protocolo de internet llamado BGP: resulta que una mala configuración de las rutas BGP de las redes de Facebook fue la causa de la catastrófica desconexión de los servidores de la red social, así como de Instagram y WhatsApp.
BGP es el medio que los 'sistemas autónomos' utilizan para darse a conocer mutuamente su existencia. Un ejemplo de 'sistemas autónomos' vendrían a ser, por ejemplo, las redes de los grandes servicios online, como Facebook o Cloudflare; y se definen como "grupos de uno o más prefijos IP ejecutados por uno o más operadores de red que mantienen una política de enrutamiento única".
Cada uno de estos sistemas autónomos cuentan con su propio ASN (Autonomous System Number) que actúa a modo de matrícula: la de Facebook, por ejemplo, es AS32934.
Así se vio la autodesconexión accidental de Facebook
Pues bien, existe una aplicación llamada BGPlay que permite generar gráficos animados que ayudan a visualizar la actividad de enrutado de un determinado ASN, haciendo más "fácil entender cómo las actualizaciones de [la configuración] BGP afectan el enrutamiento de un prefijo específico"; y, por supuesto, rápidamente se recurrió a la misma para intentar entender qué había ocurrido con Facebook.
Así, poco después de las 9 de la noche, el usuario @GGreg colgó en Twitter un vídeo que mostraba claramente cómo, a lo largo de 9 minutos, las rutas BGP dentro de AS32934 (es decir, de la red de Facebook) se iban retirando, dejando desconectados los servidores que la integran… no sólo del resto de Internet, sino incluso entre sí.
Aquí podéis verlo, acelerado a velocidad 10x:
John Graham-Cumming, CTO del CDN de Cloudflare (y responsable, por tanto, del famoso resolvedor DNS 1.1.1.1) contaba en Twitter que, unos cinco minutos antes de que Facebook dejara de responder (se desconectara de Internet, en resumidas cuentas), detectaron una gran actividad de cambios BGP en su ASN, "principalmente retiros de rutas".
El gráfico, que puedes ver a continuación, refleja los mismos minutos recogidos en el vídeo anterior:
Una vez culminó el proceso de desconexión, Internet entró en pánico cuando descubrió que tres de las principales herramientas online de comunicación habían caído: es decir, no había forma de que los resolvedores DNS hallaran la ruta hasta sus IPs, con lo que los navegadores y las apps móviles no podían mostrarnos los contenidos de Facebook.
En el artículo que publicamos mientras Facebook seguía offline, recogemos más información sobre cómo esta caída generó también una sobrecarga del tráfico DNS.
Ver 5 comentarios