Un error tipográfico en los Amazon Web Services dejó por los suelos medio internet

3 marzo 2017, 14:01

Sergio Agudo

A principios de esta semana, parte de Internet quedó en punto muerto cuando los servidores que lo impulsaban desaparecieron de repente. Dichos servidores formaban parte de S3, la infraestructura que compone el servicio de hosting de Amazon, y se llevaron consiguo varias webs importantes al caer. Entre ellas se encuentran Quora, Trello o IFTTT.

Hoy Amazon ha revelado los detalles sobre qué ocurrió. Al parecer, todo era por causa de un error tipográfico. El martes por la mañana, los miembros del equipo de S3 estaban depurando el sistema de facturación. Como parte de la tarea, el equipo tenía que "tirar" un pequeño número de servidores offline. Sin embargo, y tal y como explican desde Amazon, las cosas no fueron según lo planeado.

Un vistazo a…

AMAZON AUDIBLE: Cómo es La NUEVA PLATAFORMA DE PODCAST y AUDIOLIBROS de AMAZON

Desafortunadamente, una de las órdenes de entrada se tecleó incorrectamente y cayó un número mayor de servidores del que se pensaba en un principio. Los que se tiraron sin querer soportaban otros dos sistemas de S3.

Estos dos subsistemas, según el comunicado, eran importantes. Uno de ellos "gestiona los metadatos y la información sobre la ubicación de todos los objetos de S3 en las regiones". Sin él, los servicios que dependían de esta máquina no podían llevar a cabo tareas básicas de recuperación de datos y almacenamiento.

S3 se sobrepuso a la caída de los servidores, con lo que no pudo fue con que se reiniciasen todos a la vez

Después de tirar los servidores accidentalmente, los distintos sistemas tenían que hacer "un reinicio completo", un proceso que consume mucho tiempo. Mientras S3 estuvo caído, otros servicios web de Amazon tampoco funcionaron, incluyendo Elastic Compute Cloud, popular entre empresas de Internet que tienen que expandir su almacenamiento rápidamente.

Desde Amazon se dice que S3 se diseñó para poder gestionar la pérdida de unos cuantos servidores. Lo que tuvo más problemas gestionando fue un reinicio en masa:

S3 ha experimentado un crecimiento tremendo en los últimos años y el proceso de reiniciar estos servicios, y de ejectuar las comprobaciones de seguridad necesarias para validar la integridad de los metadatos, llevó más de lo que se esperaba.

Como resultado, Amazon dijo que estaba haciendo cambios en S3 para permitir que sus sistemas puedan recuperarse más rápidamente. De paso, han aprovechado para declararle la guerra a los errores tipográficos. En el futuro, según la empresa, los ingenieros no podrán quitar capacidad de S3 si deja el funcionamiento de los subsistemas por debajo de un umbral de mínimos.

También está cambiando el tablero AWS Service Health Dashboard, que permite acceder a información sobre la "salud" de todos y cada uno de los servicios web de Amazon. Durante la caída, el tablero todavía mostraba los servidores como activos, debido a que también depende de S3. La próxima vez que se caiga, el tablero debería funcionar correctamente y no mostrar los servicios activos, según ha declarado la compañía.

Vía | Amazon
En Genbeta | Llega Amazon Chime, la competencia de Amazon contra Skype for Business y Hangouts

Ver todos los comentarios en https://www.genbeta.com

VER 5 Comentarios

Portada de Genbeta