Causas por las que proyectos de ciencia de datos fracasan

Puede que la ciencia de los datos sea la herramienta más novedosa para resolver los problemas de las empresas, pero los proyectos mal estructurado pueden causar un daño importante, llevando a los responsables de la toma de decisiones por el camino equivocado.

0
173

Hoy en día, la ciencia de los datos rara vez deja de atraer el interés de los responsables de TI y de las empresas. Pero la mayoría de las veces falla. De hecho, las iniciativas de ciencia de datos, que aprovechan los métodos científicos, los procesos, los algoritmos y los sistemas tecnológicos para extraer una serie de informaciones de los datos estructurados y no estructurados, pueden fracasar de muchas maneras, lo que conlleva pérdidas de tiempo, dinero y otros recursos. Por lo tanto, los proyectos defectuosos pueden resultar más perjudiciales que beneficiosos para una empresa, llevando a los responsables de la toma de decisiones por el mal camino. Estas son algunas de las razones más comunes por las que los proyectos de ciencia de datos no salen como estaba previsto.

Mala calidad de los datos
Los datos malos crean una ciencia de datos mala, por lo que es fundamental dedicar tiempo a garantizar que los datos sean de alta calidad. «Los datos malos o sucios hacen que las iniciativas de ciencia de datos sean imposibles», dice Neal Riley, CIO de Adaptavit, una consultora de transformación digital. «Hay que asegurarse de que los datos están limpios y listos para los analistas de datos. Si no, es una completa pérdida de tiempo».

Cuando las empresas utilizan datos «sucios» para proyectos de ciencia de datos, acabarán «viendo modelos que salen con resultados extraños que no representan la realidad o procesos llevado de una forma en que mejoren las cosas», dice Riley. A veces, la calidad de los datos es deficiente debido a sesgos o discrepancias en los conjuntos de datos.

«En algunas organizaciones se utilizan múltiples sistemas para gestionar la empresa», afirma Brandon Jones, CIO de la aseguradora Worldwide Assurance for Employees of Public Agency (WAEPA). «En el caso de algunas empresas, puede que incluso se disponga de sistemas heredados a los que todavía se puede acceder como referencia o validación. En muchos casos, la empresa ha cambiado y se ha renovado, lo que ha dado lugar a diferentes procesos y/o formas de contar una métrica.»

Esta puede ser una de las principales causas de fracaso de la ciencia de los datos, afirma Jones. Los resultados podrían estar inflados debido a un doble recuento basado en un proceso empresarial modificado. «Para resolver este problema, las organizaciones deben definir el nivel de su programa de análisis de datos. Eso significa definir una fecha concreta en la que se puedan validar los datos, y esa es la norma común a partir de la cual trabajará la organización.»

No hay una definición clara del problema a resolver
¿Cómo puede tener éxito una iniciativa de ciencia de datos si los miembros del equipo no comprenden el problema empresarial que intentan resolver? Sin embargo, los equipos de ciencia de datos a veces tienen que lidiar con esta carencia cuando tienen que poner en marcha proyectos que implican ciencia de datos.

«La definición de un problema se deja a menudo en manos de los científicos de datos, cuando en realidad la definición de un problema incluye casos de negocio que definen el trabajo y el potencial retorno de la inversión», dice Michael Roytman, que dirige la ciencia de datos en la empresa de ciberseguridad Kenna Security.

Los usuarios empresariales que quieran aprovechar la ciencia de los datos deben plantearse preguntas en profundidad sobre el problema que intentan resolver, afirma Marc Johnson, consultor senior y CIO virtual de la empresa de consultoría sanitaria Impact Advisors.

«Al igual que en cualquier proyecto, hay que dedicar tiempo a definir el alcance del problema para identificar las fuentes de datos adecuadas», afirma Johnson. «Hace unos años, me pidieron que hiciera un proyecto de análisis de datos para una empresa con 20 años a sus espaldas. Sin embargo, no se investigó la base de clientes para ver si realmente había un mercado para este proyecto. No había ninguna métrica identificada para la que el cliente quisiera ver el análisis de datos. Todo se basaba en la competencia, que afirmaba tener un producto de análisis que todos los clientes querían. Al final, el proyecto estuvo dos años sin rumbo debido a la difusa definición del problema que intentábamos resolver», continúa Johnson.

Falta de datos relevantes
Otra forma segura de fracasar con la ciencia de datos es no proporcionar los tipos específicos de datos necesarios para abordar un problema concreto. Arrojar un gran volumen de datos a un problema no es la respuesta. «Hay una suposición de que los grandes datos conducirán a conocimientos útiles, pero en realidad eso ocurre muy raramente», dice Roytman. «Los conjuntos de datos inteligentes, personalizados y a menudo más pequeños tienen más probabilidades de proporcionar modelos generalizables más sólidos».

Dado que los datos se recopilan o se compran de varias fuentes, los equipos deben asegurarse de que cualquier cambio en los datos no sesgue los resultados y sacrifique la calidad de todo el conjunto de datos, afirma Johnson. También tienen que asegurarse de que no haya problemas de privacidad, legales o éticos con el conjunto de datos.

Falta de transparencia en los datos
Los equipos deben ser transparentes con los datos utilizados para crear un determinado modelo. «Los proyectos de ciencia de datos fracasan cuando la gente no confía en el modelo o no entiende la solución», dice Jack McCarthy, que dirige el departamento de TI del sistema judicial de Nueva Jersey. «La forma de evitarlo es conseguir que los procesos de los proyectos de ciencia de datos se entiendan y se comuniquen a las partes interesadas, que pueden no tener los conocimientos técnicos o estadísticos cuando se trata de ciencia de datos».

Los científicos de datos deben explicar de dónde proceden los datos, qué hicieron para calcular los modelos y proporcionar acceso a todos los datos pertinentes. «La transparencia puede ser la clave del éxito de un proyecto», dice McCarthy. Un ejemplo de ello es el algoritmo de evaluación de riesgos utilizado en Nueva Jersey. «Proporcionamos a todos los interesados un informe que muestra qué casos del historial de un acusado entran en una categoría concreta y cómo se evalúa cada uno», dice McCarthy. «El informe se facilita a todas las partes implicadas para que tengan la oportunidad de revisar cada caso. Todo se hace de forma transparente».

Reticencia a reconocer que los resultados son inciertos
A veces, el equipo de negocios de una empresa que requiere conocimientos particulares (o el propio equipo de ciencia de datos) no está dispuesto a concluir que los resultados eran inciertos, poco claros o no lo suficientemente fuertes para una aplicación comercial, dice Roytman.

El equipo de ciencia de datos de Kenna Security dedicó dos meses a crear un modelo de clasificación de vulnerabilidades que generara automáticamente una enumeración de puntos débiles comunes para una vulnerabilidad, dice Roytman. «El modelo ha funcionado; era una buena respuesta a un problema de la universidad. Pero no funcionaba lo suficientemente bien como para ser valioso para nuestros clientes. La precisión era demasiado baja. Así que desechamos el proyecto, aunque habíamos invertido tiempo y obtenido un buen resultado».

Ausencia de un apoyo ejecutivo
Los proyectos de ciencia de los datos necesitan un fuerte «patrocinador» a nivel de la C-suite para garantizar recursos y apoyo suficientes. «Ayuda si es el CIO», dice Riley. «Vemos la ciencia de los datos como una parte integral de nuestra operación, y me he asegurado de estar al frente del apoyo a nuestros esfuerzos». Aunque los directores de informática no son los «campeones internos» de la ciencia de los datos, deben ser responsables de la protección de todos los datos implicados, aunque su participación debe ir mucho más allá de la seguridad.

«Sacar el máximo partido a la información captada es lo que yo llamaría la responsabilidad de un CIO moderno», afirma Riley. «Con todos estos datos a nuestro alcance, tenemos los medios para aprender de ellos y utilizarlos de forma inteligente; y eso es algo que los CIO pueden utilizar para ayudar a sus organizaciones de forma transversal.»

Adaptavit ha sacado mucho provecho de los proyectos de ciencia de datos a la hora de determinar nuevas tácticas y cambios para mejorar el proceso de ventas, afirma Riley. «No tiene nada que ver con nuestro producto ni con la infraestructura informática, el marketing, nada de eso. La ciencia de los datos nos ha ayudado más desde el punto de vista de la optimización de los procesos empresariales, para gestionar y manejar mejor los clientes potenciales de las ventas internas.»

Falta de talento
El déficit de competencias afecta a muchos aspectos de las TI, y la ciencia de los datos no es una excepción. Muchas organizaciones simplemente no tienen las habilidades necesarias para mantener los proyectos u obtener el máximo valor de ellos.

«Los científicos de datos están muy solicitados, son difíciles de encontrar y son caros», dice Tracy Huitika, CIO de Beanworks, un proveedor de automatización de la contabilidad en la nube. «Este papel suele requerir un doctorado en física o ciencias, así como la capacidad de escribir código en R y Python».

Una de las principales razones por las que los proyectos de ciencia de datos fracasan, incluso cuando llegan a implantarse, es la falta de talento operativo para seguir gestionando el proyecto, afirma Johnson. «Llevar a un brillante científico de datos a crear el modelo sin un plan para ejecutar operaciones de mejora continua con ajustes a medida que el mercado evoluciona es como diseñar un automóvil y entregarle las llaves a un niño de 10 años.»

Las empresas deben contar con los conocimientos adecuados para mantener el modelo después de que entre en producción, ya sea contratando o recurriendo a expertos externos, como consultores de ciencia de datos.

La ciencia de los datos no era la solución adecuada
¿Y si un problema concreto no requiriera en absoluto la ciencia de los datos como solución? Un mal uso de esta disciplina puede llevar al fracaso, por lo que merece la pena reflexionar sobre cuándo no aplicar los métodos, procesos y herramientas de la ciencia de datos.

«Una de las principales causas que harán fracasar los proyectos es si la ciencia de los datos, los algoritmos y el aprendizaje automático ni siquiera son la solución adecuada», dice Riley. «Puede que no necesites un modelo de aprendizaje automático en absoluto. Nos vimos envueltos en una de esas situaciones en las que buscábamos modelos de ciencia de datos financieros para visualizar predictores del futuro éxito financiero de nuestro negocio. Resultó que lo mejor era el análisis de regresión».

CambioDigital OnLine

Custom Text
Artículo anteriorAdopción de 5G avanza en todo el mundo
Artículo siguienteLa mitad de los empleados que rechaza las actualizaciones en equipos corporativos lo hace con el apoyo del personal de TI