Domingo de apuros para Amazon

La Nube Web de Bezos cae y arrastra pérdidas por cientos de millones.

0
23

En la Internet le atribuyen a Jeff Bezos esta frase: “El mejor servicio al cliente es aquel que no necesita llamarte ni hablar contigo. Simplemente funciona”.

Y esa oración se nos vino a la mente el Domingo 19 de Octubre de 2025, cuando en altas horas de la noche, esa empresa estadounidense reconoció estar recibiendo numerosas llamadas y quejas de clientes, acerca de un significativo crecimiento de errores con varias Interfaces de Programación de Aplicaciones (API) hacia su nube y el progresivo rechazo de los Servicios Webs de Amazon (AWS) para atender nuevas solicitudes.

Entonces, para un consorcio empresarial que tiene ese lema como directriz corporativa, que además posee recursos a granel y dictamina tendencias en la industria, cabe preguntarse: ¿Cual o cuáles causas generaron esta debacle?

La respuesta inicial puede apuntar a la esfera técnica, una “condición de carrera” en la gestión automatizada del Sistema de Nombre de Dominios (DNS) de Amazon. Eso significa, que una inesperada falla generó la condición de carrera entre procesos activos del sistema DynamoDB. Un “defecto latente” según Amazon y que fue producido por la falla en sincronización de programas concurrentes, que acceden y escriben sobre un mismo recurso crítico; un registro digital vinculado con DNS y que erróneamente lo vaciaron sin procesar su contenido original, para seguidamente derivar una “falla en cascada” con los servicios regionales de nombres. Los componentes en competencia fueron el Planificador DNS, que decide sus planes con base al progreso del “balanceador de carga” y el Ejecutor DNS, cuya función es interactuar con el sistema Route 53 de Amazon, para realizar cambios en los nombres de dominio de los puntos finales webs. Las operaciones debieron ser ejecutadas en modo “atómico” que no permita interrupciones, pero el código no tenía esa característica.

El informe técnico de Amazon indicó que el programa ejecutor de DNS experimentó “retrasos inusualmente altos” mientras el planificador producía sus planes. Otra instancia del Ejecutor DNS se activó con nuevos planes del planificador, asumiendo que el primer programa ejecutor había completado su actividad normalmente. Para hacer eso, hizo una limpieza de los planes previos por considerarlos obsoletos. Cosa que le condujo a desechar las direcciones IP’s de los puntos finales regionales y colocó en situación inconsistente, la comunicación en red de los servicios webs de Amazon. Hay que añadir, que el Administrador de Flujo Goteado (DWFM) -otro sistema de automatización de la gestión de AWS- debía conceder concesiones de recursos en los servidores físicos de la empresa, con un servicio Elástico de Recursos en la Nube (EC2), pero al verse incapaz de comprobar las directrices DNS de los servicios, dejó de hacer su trabajo correctamente.

Como consecuencia se acumuló mucha tarea pendiente y tres horas después, cuando manualmente se inició la recuperación de la sincronización DNS, el DWFM entró en lo que Amazon denominó “colapso de congestión”. Eso significa que no podía comer tanto trabajo retenido, efecto que demandó otra intervención manual, hasta casi tres horas después. Pero la dificultad aún no terminó, pues el componente de Gestión Automatizada de la Red retrajo una bitácora pendiente de configuraciones acumuladas y ello ocasionó que otras instancias de procesamiento con EC2, generaran retrasos de propagación de la red del proveedor.

Fue así como esto incidió negativamente sobre el Balanceador de Cargas de la Red, cuya demora retroalimentó problemas en EC2, el servicio Lambda, el Contenedor de Servicios Elásticos (ECS), los Servicios Elásticos Kubernet (EKS) y Fargate. Ahora bien, Amazon optó por deshabilitar DynamoDB a razón de resolver la falla en sincronización y paulatinamente, instrumentó medidas para ayudar a reestablecer la normalidad del resto de sus servicios automatizados. Pero por encima de los asuntos técnicos, ante semejantes incidentes que originan pérdidas monetarias significativas debemos mirar el bosque, no las hojas, ni caer hipnotizados ante las ramas. ¿Cómo sucedieron tantos fallos?

Lo primero que hay que indicar es que ante el descomunal volumen de servicios que Amazon debe proveer, la automatización resulta obligatoria. Luego, esto conduce a entrelazar sistemas y establecer secuencias en las actividades; así surgen las potenciales fallas en cascada. Es como un tren donde para casos cuando la locomotora se descarrila, el resto de los vagones la seguirán en segundos, saliendo también de la vía férrea. Así pues, todo esto produce un aumento sustancial en la complejidad tecnológica y computacional, lo que resulta contraproducente para la seguridad. Un único evento fuera de secuencia puede desencadenar una serie de fallas, cual aluvión originado por una tormenta meteorológica. Y la condición de carrera, no prevista entre los dos componentes de software, que volvió inestable al servicio DNS que ofrecía “dynamodb.us-east-1.amazonaws.com”, fue la chispa que encendió la pradera de Amazon. Un error en la programación concurrente del sistema, es decir, responsabilidad humana.

En otras palabras, un error en la sincronización de la manipulación de un recurso crítico de software y compartido, abrió la puerta a una gama de fallas sistémicas, lanzando por la ventana millones de dólares de los clientes. Y no estamos en contra de la automatización de negocios, de hecho admitimos su utilidad para tratar con los requerimientos de una realidad tan ambiciosa, como es la de Amazon, que incluyen entre otros, responder apropiadamente y sin demora adicional a los fenómenos estocásticos que predominan en el voluminoso tráfico web que la empresa recibe. Pero llama la atención la participación eficaz de los humanos para restaurar la normalidad tecnológica.

Lo curioso de todo esto es que a los pocos días, Amazon insistió en su política de incorporación de la Inteligencia Artificial (IA) como elemento fundamental en la gestión automatizada de su red; nos referimos a la noticia de su próximo plan para efectuar 30.000 despidos en las siguientes semanas; un 10% aproximado de su nómina actual, debido a mayor incorporación de sistemas con IA. Resulta peculiar publicar en su blog corporativo un agradecimiento a los trabajadores, llamarlos miembros de un equipo y posteriormente cesar los contratos a través de un mensaje de correo electrónico. Esta aproximación cibernética luce fría, sin empatía humana. Esto quiere decir, que se observa profundización en la automatización industrial y gestión con los empleados vivos.

Tal vez sería bueno recordar aquella advertencia de 2023 que emitió Geoffrey Hinton -investigador del aprendizaje profundo que ha ganado el premio Turing y también Nóbel- quien después de dejar Google® declaró públicamente: “La tecnología se implementa y a medida que el sistema interactúa con la humanidad, sus desarrolladores esperan ver qué sucede y realizan ajustes en función de ello. Como sociedad, jamás aceptaríamos esa mentalidad en ningún otro sector industrial. Hay algo en la tecnología y en las redes sociales que nos lleva a pensar: ‘Sí, claro, ya lo resolveremos después’”.

Autor: Miguel Torrealba Sánchez.
Universidad Simón Bolívar
Departamento de Computación y Tecnología de la Información
mtorrealba@usb.ve

Custom Text
Artículo anteriorLa Asociación Bancaria de Venezuela reitera la necesidad de reforzar la cultura de ciberseguridad
Artículo siguienteAmazon supera expectativas con el Cloud; Apple decepciona en China pero proyecta alza en ventas