Las 10 principales plataformas de AIops

0
9
Custom Text

La inteligencia artificial fue una vez un concepto mágico, material de ciencia ficción. Ahora, tras décadas de investigación y comercialización, es otra herramienta fundamental para mantener la pila de la empresa en funcionamiento.

En ningún lugar es esto más evidente que en el mundo de DevOps, una práctica de back-office rica en datos que presenta una sandobox perfecta para explorar el poder de la inteligencia artificial. Los equipos encargados de las operaciones disponen ahora de una floreciente colección de herramientas y plataformas que ahorran trabajo y aumentan la eficiencia bajo el acrónimo AIops, que prometen aplicar los mejores algoritmos de inteligencia artificial, al trabajo de mantenimiento de la infraestructura informática.

AIops es uno de los mejores casos de uso de la inteligencia artificial. Los servidores y las redes generan petabytes y petabytes de datos. Sabemos cuándo se inician y se detienen los procesos, cuándo aumentan y disminuyen, a menudo con una precisión de milisegundos. Las demandas de RAM y CPU suelen ser bien conocidas, al igual que los precios de alquiler de hardware en la nube. Todo se calcula a menudo con seis o siete dígitos significativos. Crear un carro autónomo puede significar luchar con un mundo lleno de peatones, ganado y sombras, pero cuando se trata de la infraestructura informática, todo está ya digitalizado y listo para el análisis.

Algunas de las tareas más sencillas para los AIops implican acelerar la forma en que el software se despliega en las instancias de la nube. Todo el trabajo que realizan los equipos de DevOps puede mejorarse con una automatización más inteligente, capaz de vigilar las cargas, predecir la demanda e incluso poner en marcha nuevas instancias cuando las hordas descienden.

Las buenas herramientas de AIops generan conjeturas prospectivas sobre la carga de las máquinas, y luego observan si algo se desvía de estas estimaciones. Las anomalías pueden convertirse en alertas que generan correos electrónicos, mensajes de Slack o, si la desviación es lo suficientemente grande, mensajes de buscapersonas. Una buena parte de la pila de AIops se dedica a gestionar las alertas y a garantizar que solo los problemas más importantes se conviertan en algo que interrumpa una reunión o una buena noche de sueño.

Estos métodos de vigilancia de niveles o actividades inusuales se despliegan a veces para reforzar la seguridad, una tarea más difícil, lo que hace que algunas herramientas de AIops sean competencia tanto de los vigilantes de seguridad como del equipo de DevOps.

Las herramientas sofisticadas de AIops también ofrecen un «análisis de la causa raíz», que crea diagramas de flujo para rastrear el modo en que los problemas pueden propagarse por las distintas máquinas de una aplicación empresarial moderna. Una base de datos sobrecargada ralentizará una pasarela API que, a su vez, congela un servicio web. Estos catálogos automatizados del flujo de trabajo a menudo pueden ayudar a los equipos a detectar el verdadero problema con mayor rapidez, al documentar y rastrear las cadenas de creación de problemas.

Muchas de las herramientas de este artículo se basan en sistemas de monitorización con una larga historia. Comenzaron como herramientas que rastreaban eventos en pilas empresariales complejas, y ahora se han ampliado con inteligencia artificial. Algunas de las herramientas comenzaron en laboratorios de IA y crecieron hacia el exterior. En cualquier caso, cualquiera que evalúe estas plataformas querrá ver la gama de conectores que recogen datos. Algunas plataformas de AIops se integrarán mejor con su pila que otras. Todas ofrecen un conjunto básico de vías para recoger datos en bruto, pero algunos conectores son mejores que otros. Cualquiera que esté considerando adoptar una plataforma AIops querrá evaluar lo bien que se integra cada oferta AIops con sus bases de datos y servicios particulares.

A continuación, se presentan 10 de las principales herramientas de AIops que simplifican el trabajo de mantener la infraestructura de TI de la empresa en funcionamiento.

AppDynamics
AppDyanmics es una división de Cisco especializada en la supervisión del rendimiento. Ha añadido el aprendizaje automático a su plataforma insignia para vigilar las métricas que se desvían de la línea de base histórica. El sistema puede construir un diagrama de flujo y aprender cómo los eventos pueden ir en cascada hasta la falla del sistema, ayudando así a identificar las causas raíz. AppDynamics impulsa la correlación de estas métricas con «resultados empresariales» concretos, como las cifras de ventas, y una «mentalidad de autocuración» para su plataforma, proporcionando enlaces que pueden automatizar la resolución de fallas comunes.

BigPanda
BigPanda se centra tanto en la detección de comportamientos extraños como en la orquestación de los equipos asignados para resolverlos. Su plataforma homónima ofrece análisis de causa raíz y detección de eventos que se integra con los principales proveedores de la nube. Su «automatización de nivel 0» se encarga de la carga de trabajo que viene después de la aparición de un problema. BigPanda simplifica el flujo de trabajo creando tickets, enviando alertas, e incluso poniendo en marcha «salas de guerra» virtuales para problemas graves.

Datadog
Datadog ha añadido recientemente el módulo Watchdog a su herramienta de gestión del rendimiento, para que los equipos de DevOps puedan solicitar avisos automáticos cuando el rendimiento empiece a fallar. La herramienta construye previsiones de rendimiento basadas en registros históricos ajustados por temporada y hora del día. Los cambios en métricas como la latencia, el consumo de RAM o el ancho de banda de la red pueden activar alertas si se alejan de las normas. La herramienta está integrada con el sistema de detección de seguridad de Datadog, y puede trabajar con máquinas virtuales, instancias en la nube y también con funciones sin servidor.

Dynatrace
Dynatrace es una herramienta de monitorización amplia y completa para el seguimiento de máquinas virtuales basadas en la nube, contenedores y otras soluciones sin servidor. Absorbe archivos de registro, informes de eventos y otros desencadenantes para ofrecer lo que llama «respuestas precisas impulsadas por la IA». El núcleo se llama Davis, una IA determinista que construye diagramas de flujo y árboles para poder localizar la causa raíz de cualquier anomalía o falla. Si está bien configurada, puede funcionar de forma autónoma activando cambios que deberían solucionar la causa. Podría ser tan simple como reiniciar una instancia, pero podría ocurrir sin esperar a que un humano entre en el bucle.

Github Copilot
La mayoría de las herramientas de AIops están diseñadas para ayudar al software que ya está en funcionamiento. Github Copilot comienza en las primeras etapas del proceso, ayudando cuando se escribe el código por primera vez. La herramienta observa lo que un programador escribe y hace sugerencias sobre cómo completarlo. Se ha entrenado en un billón de líneas de código abierto, por lo que estas ideas se basan en algún tipo de realidad. Todavía hay preguntas un tanto filosóficas sobre quién es el autor final del nuevo código, si se puede confiar en la IA, y si los millones de codificadores de código abierto que hay merecen algún tipo de crédito o de quitarse el sombrero por la ayuda. La respuesta puede ser «quizás». Una pregunta mayor es cuánto mejor entiende Copilot su código, y si realmente lo hace mucho mejor que el autocompletado. La respuesta es que probablemente varía.

IBM Watson Cloud Pak para AIops
IBM creó el «Watson Cloud Pak for AIops» integrando su marca general de IA Watson con su mayor presencia en la nube. La herramienta aporta un análisis automatizado de la causa raíz a los datos recogidos del software de monitorización de la nube. Cuando los eventos alcanzan un nivel de gravedad configurable, pueden activar alertas básicas o respuestas más automatizadas de la cadena de herramientas. IBM ha integrado los resultados con sus otros Cloud Paks para ofrecer servicios de red, de negocio y algunos de automatización de procesos robóticos.

LogicMonitor
LogicMonitor llama a su IA «Inteligencia LM». Combina un detector de causas raíz con un sistema de alerta basado en umbrales dinámicos ajustados a partir de datos históricos. Su sistema de alerta temprana depende de un módulo de previsión que amplía estos datos históricos para calcular los umbrales de latencia, ancho de banda y otras métricas. LogicMonitor da prioridad a la reducción de la «fatiga de alertas» para ayudar a los equipos a centrar sus esfuerzos en los comportamientos verdaderamente anómalos. Los recopiladores de datos aprovechan las principales nubes y vigilan los recursos de computación (Kubernetes, contenedores, etc.), el tráfico de red y los sistemas de almacenamiento (bases de datos, cubos, etc.).

Moogsoft
Moogsoft es un motor de IA especializado que se integra con las principales herramientas de supervisión del rendimiento, como New Relic, Datadog, AWS Cloudwatch y AppDynamics. Si su pila está ejecutando algo diferente, como el código abierto o las soluciones internas, Moogsoft profesa el deseo de integrarse con «cualquier cosa, en cualquier lugar y en cualquier momento». El producto mueve los datos a través de un pipeline que desduplica los eventos, los enriquece con datos contextuales de otras fuentes y luego correlaciona los datos antes de dar la alarma. Los algoritmos de agrupación y los registros históricos ayudan a reducir el ruido, y a producir informes más útiles sobre los problemas.

New Relic One
New Relic añadió un motor de IA a su herramienta de monitorización del rendimiento One y rastrea todos los eventos ingeridos, incluidos los de otras herramientas como Splunk, Grafana y CloudWatch de AWS. La herramienta se puede configurar con niveles flexibles de sensibilidad para una variedad de eventos de gravedad potencial. Se puede indicar a New Relic que, por ejemplo, un error de baja prioridad debe hacer saltar la alarma, solo si se produce varias veces a lo largo de quince minutos. Sin embargo, un evento de alta prioridad, como la caída de un servidor, generará una alerta de buscapersonas inmediatamente. El registro de incidencias hace un seguimiento de todos los eventos, e incluye un informe de decisión de correlación que expone los pasos lógicos dados por la IA en el camino hacia la activación de una alarma.

Splunk
Splunk comenzó como una herramienta para recopilar archivos de registro y construir una herramienta de información completa para rastrear el rendimiento, identificar anomalías y ayudar al equipo a diagnosticar problemas. El producto integra gráficos informativos con una herramienta de indexación profunda para catalogar los eventos. La inteligencia artificial y los algoritmos de aprendizaje automático dentro de Splunk pueden anticipar los problemas y comprender su origen. Estos algoritmos rastrean todos los servicios integrados en Splunk para encontrar las causas de raíz. Las funciones de aprendizaje automático están profundamente integradas en la plataforma para que los ingenieros de servicios expertos en el seguimiento del rendimiento puedan aprovechar el mejor aprendizaje automático sin necesidad de mucha formación adicional. Pueden hacer un seguimiento del rendimiento histórico y observar las divergencias a través del panel principal.

Peter Wayner CIO.com

Artículo anteriorSimpleTV da la bienvenida al Grupo Werthein nuevo proveedor de su señal satelital en el país
Artículo siguiente6 trampas en la gestión de TI que deberíamos evitar