4 razones por las que los proyectos de Big data fracasan

Y 4 formas de tener éxito

0
93

Los proyectos de big data son amplios en tamaño y alcance, a menudo muy ambiciosos y -con demasiada frecuencia- fracasan por completo. En el 2016, Gartner estimó que el 60% de los proyectos de big data fracasaron. Un año más tarde, el analista de Gartner, Nick Heudecker, afirmó que su compañía fue «demasiado conservadora”, con su estimación del 60%, y colocó la tasa de fracaso cerca del 85%. Actualmente, él comenta que nada ha cambiado.

Gartner no está sola en esa evaluación. «No puedo encontrar un cliente de Hadoop que sea feliz”, comentó Bob Mulgia, ejecutivo de larga trayectoria en Microsoft y (hasta hace poco) CEO de Snowflake Computing, al sitio de analítica Datanami. «Es algo tan simple como eso… Es probable que la cantidad de clientes que han logrado domar exitosamente a Hadoop sea inferior a 20, e incluso podría ser inferior a 10. Eso es una locura, dado el tiempo que ese producto y esa tecnología han estado en el mercado, así como la cantidad de energía general de la industria invertida en éstos”. Por supuesto, Hadoop es el motor que lanzó la manía del big data.

Otras personas familiarizadas con el big data también afirman que el problema sigue siendo real, severo y no exclusivamente tecnológico. De hecho, la tecnología es una causa menor del fracaso, en comparación con los verdaderos culpables.

A continuación, las cuatro principales razones por las que los proyectos de big datafallan, y las cuatro principales formas mediante las cuales podrá tener éxito.

Problema de big data No. 1: Integración de baja calidad
Heudecker afirmó que existe un problema tecnológico importante detrás de las fallas de big data, y es la integración de datos aislados de múltiples fuentes para obtener la información que desean las empresas. Construir conexiones a los sistemas previos aislados simplemente no es fácil. Los costos de integración son de cinco a diez veces el costo del software, señala. «El mayor problema es la integración simple: ¿Cómo se vinculan varias fuentes de datos para obtener algún tipo de resultado? Muchos optan por la ruta del lago de datos y piensan que, si vinculan todo con algo, la magia sucederá. Ese no es el caso”, agrega.

Parte del problema es que los datos se encuentran en silos. Los clientes le afirmaron que extrajeron los datos de los sistemas de registro a un ambiente común, como un lago de datos, y no pudieron averiguar qué significaban los valores. «Cuando ingresa datos en un lago de datos, ¿cómo sabe lo que significa el número 3?”, cuestiona Heudecker.

Debido a que están trabajando en silos, o creando lagos de datos que son solo pantanos de datos, simplemente están escarbando la superficie de lo que podrían lograr, afirma Alan Morrison, investigador principal de PwC. «No entienden todas las relaciones en los datos que deben ser extraídas o inferidas, y explicitadas para que las máquinas puedan interpretar adecuadamente esos datos. Necesitan crear una capa gráfica de conocimiento para que las máquinas puedan interpretar todos los datos de las instancias que se asignan debajo. De lo contrario, acaba de obtener un lago de datos que es un pantano de datos”, afirma.

Problema de big data No. 2: Objetivos no definidos
Usted pensaría que la mayoría de las personas que emprenden un proyecto de big data realmente tendrían un objetivo en mente, pero un número sorprendente no lo tiene. Simplemente lanzan el proyecto y el objetivo lo determinan luego.

«Tiene que abordar bien el problema. Las personas piensan que pueden conectar datos estructurados y no estructurados y obtener la información que necesitan. Primero, uno tiene que definir bien el problema. ¿Cuál es el insight que desea? Se trata de tener una definición clara del problema y especificarlo bien desde el principio”, afirma Ray Christopher, gerente de marketing de producto de Talend, una compañía de software de integración de datos.

Joshua Greenbaum, analista principal de Enterprise Application Consulting, señala que parte de lo que ha atormentado tanto los proyectos de almacenamiento de datos como a los de big data es determinar el principal criterio guía, el cual suele terminar siendo la acumulación de grandes cantidades de datos y no la solución de problemas empresariales concretos.

«Si reúne grandes cantidades de datos, tendrá un basurero de datos. Yo lo llamo un relleno sanitario. Los vertederos no son un buen lugar para encontrar soluciones”, afirma Greenbaum. «Yo siempre recomiendo a los clientes que decidan qué problema de negocios discreto deben solucionarse primero, y que empiecen con eso; luego que analicen la calidad de los datos disponibles y, una vez que se haya identificado el problema de negocios, resuelvan el problema de los datos”.

«¿Por qué la mayoría de los proyectos de big data fallan? Para empezar, la mayoría de los líderes de proyectos de big data carecen de visión”, afirma Morrison de PwC. «Las empresas están confundidas respecto al big data. La mayoría solo piensa en datos numéricos o en la caja negra de la PNL, y en motores de reconocimiento y motores que realizan minería de texto simple, así como otros tipos de reconocimiento de patrones”.

Problema de big data No. 3: La brecha de habilidades
Con demasiada frecuencia, las compañías piensan que las habilidades internas que han desarrollado para el almacenamiento de datos se traducirán en big data, cuando claramente no es así. Para empezar, el almacenamiento de datos y el manejo del big data tratan los datos de manera totalmente opuesta: el almacenamiento de datos realiza un esquema durante la escritura, lo que significa que los datos se limpian, procesan, estructuran y organizan antes de que ingresen al almacén de datos.

En big data, los datos se acumulan y se aplica el esquema durante la lectura; es decir, los datos se procesan a medida que se leen. Entonces, si el procesamiento de datos retrocede de una metodología a otra, puede apostar que las habilidades y herramientas lo hacen también. Y ese es solo un ejemplo.

«Las habilidades siempre van a ser un desafío. Si hablamos de big data dentro de treinta años, todavía habrá un desafío”, afirma Heudecker. «Muchas personas se apoyan en Hadoop. Mis clientes se enfrentan al desafío de encontrar recursos de Hadoop. Spark es sutilmente mejor porque ese stack es más pequeño y fácil de entrenar. Hadoop tiene docenas de componentes de software”.

Problema de big data No. 4: La brecha de la generación de la tecnología
Los proyectos de big data a menudo toman silos de datos antiguos e intentan fusionarlos con nuevas fuentes de datos, como los sensores o el tráfico web o las redes sociales. Eso no es totalmente culpa de la empresa, que recopiló esos datos en un tiempo anterior a la idea de la analítica de big data, pero aun así es un problema.

«Casi la mayor habilidad que falta, es la habilidad para entender cómo combinar estos dos actores para que trabajen juntos para resolver problemas complejos”, afirmó la consultora Greenbaum. «Los silos de datos pueden ser una barrera para los proyectos de big data porque no existe nada estandarizado. Entonces, cuando comienzan a considerar la planificación, descubren que estos sistemas no se han implementado de ninguna manera que permita que estos datos se reutilicen”, afirma.

«Con diferentes arquitecturas, es necesario realizar el procesamiento de manera diferente”, señala Christopher de Talend. «Las habilidades tecnológicas y las diferencias en las arquitecturas fueron una razón común que impidieron que uno pueda tomar las herramientas actuales para los almacenes de datos on premises, y los integren con un proyecto de big data. Esto se debe a que esas tecnologías serán demasiado costosas para procesar datos nuevos. En consecuencia, necesita Hadoop y Spark y aprender nuevos lenguajes”.

Solución de Big data No. 1: Planifique con anticipación
Es un viejo cliché, pero aplica aquí: si no puede planificar, está planificando para el fracaso. «Las empresas exitosas son las que tienen un resultado”, anota Heudecker de Gartner. «Elija algo pequeño, y alcanzable y nuevo. No tome un caso de uso previo porque tiene limitaciones”.

«Primero deben pensar en los datos y modelar sus organizaciones de una manera que sea legible para una máquina, con el fin de que los datos le sirvan a esa organización”, añadió Morrison de PwC.

Solución de Big data No. 2: Trabaje en conjunto
Con demasiada frecuencia, los grupos de interés se quedan fuera de los proyectos de big data -justamente las personas que usarían los resultados. Si todos los grupos de interés colaboran, pueden superar muchos obstáculos, anota Heudecker. «Si las personas capacitadas están trabajando juntas y trabajando con el área comercial para ofrecer resultados viables, eso puede ayudar”, afirma.

Heudecker observó que las compañías que tienen éxito en big data invierten fuertemente en las habilidades necesarias. Considera que esto es lo más importante en las empresas basadas en datos, como los servicios financieros, Uber, Lyft y Netflix, donde la fortuna de la empresa se basa en tener datos buenos y procesables.

«Haga que ayudar a curar y recopilar datos y limpiarlos se convierta en un deporte de equipo. Hacer eso también puede aumentar la integridad de los datos”, señala Christopher de Talend.

Solución de big data No. 3: Concéntrese
Las personas parecen tener la idea de que un proyecto de big data debe ser enorme y ambicioso. Como todo lo que está aprendiendo por primera vez, la mejor manera de tener éxito es comenzar poco a poco, y luego expandirse gradualmente en ambición y alcance.

«Deberían definir muy detalladamente lo que están haciendo”, afirmó Heudecker. «Deben elegir un campo de problemas y ser dueños de éste, como detección de fraudes, microsegmentación de clientes o descubrir qué producto nuevo introducir en un mercado de millennials”.

«Al final del día, debe solicitar la información que desea o el proceso de negocio que se digitalizará”, comenta Christopher. «Uno no simplemente le arroja tecnología a un problema de negocios; tiene que definirlo por adelantado. El lago de datos es una necesidad, pero no le servirá recopilar datos si no van a ser utilizados por nadie en el área de negocios”.

En muchos casos, eso también significa no inflar de más a su propia empresa. «En todas las empresas que he estudiado, solo hay unos pocos cientos de conceptos y relaciones clave en los que se basa toda la empresa. Una vez que entiende eso, se da cuenta de que todas estas millones de distinciones son solo pequeñas variaciones de esos pocos cientos de cosas importantes”, afirma Morrison de PwC. «De hecho, usted descubre que muchas de las ligeras variaciones no son variaciones en absoluto. En realidad, son las mismas cosas con diferentes nombres, diferentes estructuras o diferentes etiquetas”, añade.

Solución de big data No. 4: Descarte lo legado
Si bien es posible que desee utilizar esos terabytes de datos recopilados y almacenados en su almacén de datos, el hecho es que quizás le vaya mejor si se concentra en los datos recién recopilados en los sistemas de almacenamiento diseñados para big data y diseñados para ser descargados.

«Definitivamente, recomendaría no estar necesariamente en deuda con una infraestructura tecnológica existente solo porque su empresa tenga una licencia para esta”, afirmó la consultora Greenbaum. «A menudo, los nuevos problemas complejos pueden requerir nuevas soluciones complejas. Descubrir herramientas antiguas en la empresa durante una década no es el camino correcto. Muchas empresas utilizan herramientas antiguas, y eso mata el proyecto”.

Morrison señaló: «Las empresas deben dejar de enredarse con su propia ropa interior y simplemente deshacerse de la arquitectura tradicional que crea más silos”. También comenta que deben dejar de esperar que los proveedores resuelvan sus problemas complejos de sistema. «Durante décadas, muchos parecen asumir que pueden comprar su salida a un problema de big data. Cualquier problema de big data es un problema de sistema. Cuando se trata de un cambio de sistemas complejos, usted tiene que construir su escapatoria”, afirma.

Andy Patrizio, InfoWorld.com