Las empresas han aumentado masivamente su inversión en infraestructura de nube en la búsqueda incesante de la innovación. Las aplicaciones nativas de la nube, las nubes híbridas, los microservicios y la ausencia de servidor permiten a las empresas servir a sus clientes con mayor agilidad -y a mayor escala- que nunca.
Pero la rápida adopción de estas tecnologías también ha creado entornos de nube distribuidos que son inmensamente difíciles de comprender y supervisar con las herramientas de observabilidad convencionales.
Y cuando algo va mal, la falta de visibilidad y contexto en el entorno de producción de una empresa puede convertirse en una amenaza existencial. Las interrupciones y degradaciones del servicio son más difíciles que nunca de solucionar en un mundo en el que la infraestructura, las aplicaciones y los problemas de red están cada vez más interconectados.
Las empresas necesitan un nuevo enfoque que tenga en cuenta la complejidad del entorno de producción moderno.
La creciente complejidad y sus riesgos
Atrás quedaron los días de las aplicaciones de TI monolíticas. Hoy en día, la infraestructura de TI se distribuye a través de sistemas dinámicos; la mayoría de las empresas utilizan dos o más entornos de nube pública y privada, y el uso de servicios gestionados populares de proveedores de nube como AWS RDS y Google App Engine añade capas opacas a la infraestructura de una organización. A pesar de las ventajas de la nube nativa, la complejidad correspondiente puede ocultar las dependencias del sistema y dificultar la resolución de problemas, lo que plantea retos de gestión.
Hace apenas una década, por ejemplo, un minorista típico de comercio electrónico funcionaba con una arquitectura monolítica directa. Esta arquitectura abarcaba toda la experiencia de compra, desde la autenticación del usuario y la selección de productos hasta el procesamiento de pagos y la realización de pedidos. Si avanzamos hasta hoy, ese mismo minorista de comercio electrónico se ha transformado en un laberinto de complejidad. En el panorama moderno, este minorista depende de docenas o cientos de aplicaciones SaaS para gestionar todo, desde la gestión de la relación con el cliente hasta la logística de la cadena de suministro. Y la utilización de Kubernetes para la orquestación de contenedores se ha convertido en la norma, abstrayendo una miríada de microservicios interconectados dedicados a diversas funciones.
En el caos de estos entornos distribuidos modernos, los equipos de DevOps se encuentran operando constantemente en modo reactivo. Un problema en una de estas docenas o cientos de aplicaciones y servicios SaaS puede convertirse en una cascada de problemas de primer nivel, y DevOps a menudo debe luchar para descubrir la causa raíz. Los sistemas distribuidos mantienen a los equipos de ingeniería preocupados por asuntos defensivos y les quitan tiempo para trabajar en nuevas funciones.
Además de impedir la eficiencia de los equipos, degradar el rendimiento y ahogar la innovación, los problemas de observabilidad derivados de las arquitecturas dinámicas más populares pueden introducir un mayor riesgo de violaciones de la seguridad, al dificultar la gestión y el control del acceso, la realización de pruebas exhaustivas para detectar vulnerabilidades y la protección y auditoría adecuadas. Si a esto le sumamos el aumento de los costes de la nube, los equipos de TI se enfrentan a una verdadera lucha por mantener la visibilidad y el control.
Contraatacar con AIOps y capacidad de observación
Según Gartner, AIOps «combina big data y aprendizaje automático para automatizar los procesos de operaciones de TI, incluida la correlación de eventos, la detección de anomalías y la determinación de la causalidad».
Esto suena prometedor – exactamente, de hecho, como lo que tantos equipos DevOps están dolorosamente perdiendo hoy en día.
Pero los entornos de producción son complejos y ruidosos. Tratar de identificar correlaciones significativas e inferir causalidad a escala -sin un contexto profundo de las relaciones entre servicios, aplicaciones, infraestructura, dependencias de terceros e impacto del usuario- es como tratar de encontrar una aguja en un pajar.
Por eso no basta con lanzar algoritmos de aprendizaje automático (ML) a una avalancha de datos observables: la escala y la complejidad de los sistemas distribuidos modernos hacen que este tipo de enfoque ingenuo sea ineficaz. En su lugar, se necesita una forma de superponer el contexto -proporcionando un «mapa» de la relación entre los componentes del entorno de producción- para empezar a hacer inferencias de orden superior.
Un enfoque probado implica el descubrimiento automatizado de todos los componentes, el mapeo de las dependencias para capturar la dinámica en tiempo de ejecución y la creación de un gráfico (una «topología») de los flujos de trabajo clave. Estos fundamentos proporcionan la base para la correlación de señales en tiempo real con el fin de descubrir relaciones ocultas y causas raíz. El ML puede utilizarse para construir una telemetría de referencia y reducir el ruido, así como para detectar rápidamente anomalías, incluso en el caso de errores sin precedentes.
En su forma más potente, una plataforma AIOps (con descubrimiento automatizado, topología y ML como se ha descrito anteriormente) destaca a la hora de descubrir «incógnitas desconocidas», es decir, puntos de tensión expuestos durante las actualizaciones de configuración o despliegue. Por ejemplo, si una API interna se expone sin saberlo a un cliente, AIOps puede mapear la nueva correlación entre la interfaz y el usuario final.
Los datos de observabilidad enriquecidos son esenciales, pero requieren métricas, registros y trazas de alta fidelidad. Las plataformas de observabilidad que utilizan técnicas de muestreo más recientes, como el filtro de paquetes de Berkeley ampliado (eBPF), realmente ponen la «IA» en «AIOps»: estas plataformas no sólo detectan anomalías, sino que utilizan la IA para analizar su contexto.
El camino a seguir
Se espera que el porcentaje de empresas que utilizan entornos de nube distribuida supere a los entornos de TI tradicionales en 2025, según Gartner. Las empresas deben adoptar la IA y la observabilidad para evitar que la complejidad obstaculice la innovación. El genio no puede volver a meterse en la botella, y la aceleración de las tendencias obliga a las empresas a desarrollar su pila de observabilidad para mantenerse a la vanguardia.
Se prevé que el mercado de AIOps alcance casi 650.000 millones de dólares en 2030, impulsado por la adopción de la nube y el aumento de los volúmenes de datos. El potencial de la IA y las herramientas de observabilidad para simplificar la arquitectura compleja sigue creciendo.Al adoptar un enfoque de mayor tecnología, impulsado por la IA, para la supervisión del rendimiento de la red, las organizaciones mitigan el riesgo de interrupciones graves en su negocio.A medida que los entornos de TI modernos continúan alcanzando nuevos niveles de complejidad, las empresas deben estar preparadas para las complicaciones que acompañan a esta innovación. Afortunadamente, la IA y los conocimientos basados en datos pueden permitir a las organizaciones mantenerse un paso por delante. Desarrollar un conocimiento profundo de las AIOps y la observabilidad para aprovechar eficazmente los microservicios y las herramientas nativas de la nube es la clave para gestionar esta complejidad, antes de que ella le gestione a usted.
Fuente WEB | Editado por CambioDigitalOnLine