Causas por las que proyectos de ciencia de datos fracasan

Puede que la ciencia de los datos sea la herramienta más novedosa para resolver los problemas de las empresas, pero los proyectos mal estructurado pueden causar un daño importante, llevando a los responsables de la toma de decisiones por el camino equivocado.

Por

Prensa CambioDigital OnLine

25 junio 2021

245

Hoy en día, la ciencia de los datos rara vez deja de atraer el interés de los responsables de TI y de las empresas. Pero la mayoría de las veces falla. De hecho, las iniciativas de ciencia de datos, que aprovechan los métodos científicos, los procesos, los algoritmos y los sistemas tecnológicos para extraer una serie de informaciones de los datos estructurados y no estructurados, pueden fracasar de muchas maneras, lo que conlleva pérdidas de tiempo, dinero y otros recursos. Por lo tanto, los proyectos defectuosos pueden resultar más perjudiciales que beneficiosos para una empresa, llevando a los responsables de la toma de decisiones por el mal camino. Estas son algunas de las razones más comunes por las que los proyectos de ciencia de datos no salen como estaba previsto.

Mala calidad de los datos
Los datos malos crean una ciencia de datos mala, por lo que es fundamental dedicar tiempo a garantizar que los datos sean de alta calidad. «Los datos malos o sucios hacen que las iniciativas de ciencia de datos sean imposibles», dice Neal Riley, CIO de Adaptavit, una consultora de transformación digital. «Hay que asegurarse de que los datos están limpios y listos para los analistas de datos. Si no, es una completa pérdida de tiempo».

Cuando las empresas utilizan datos «sucios» para proyectos de ciencia de datos, acabarán «viendo modelos que salen con resultados extraños que no representan la realidad o procesos llevado de una forma en que mejoren las cosas», dice Riley. A veces, la calidad de los datos es deficiente debido a sesgos o discrepancias en los conjuntos de datos.

«En algunas organizaciones se utilizan múltiples sistemas para gestionar la empresa», afirma Brandon Jones, CIO de la aseguradora Worldwide Assurance for Employees of Public Agency (WAEPA). «En el caso de algunas empresas, puede que incluso se disponga de sistemas heredados a los que todavía se puede acceder como referencia o validación. En muchos casos, la empresa ha cambiado y se ha renovado, lo que ha dado lugar a diferentes procesos y/o formas de contar una métrica.»

Esta puede ser una de las principales causas de fracaso de la ciencia de los datos, afirma Jones. Los resultados podrían estar inflados debido a un doble recuento basado en un proceso empresarial modificado. «Para resolver este problema, las organizaciones deben definir el nivel de su programa de análisis de datos. Eso significa definir una fecha concreta en la que se puedan validar los datos, y esa es la norma común a partir de la cual trabajará la organización.»

No hay una definición clara del problema a resolver
¿Cómo puede tener éxito una iniciativa de ciencia de datos si los miembros del equipo no comprenden el problema empresarial que intentan resolver? Sin embargo, los equipos de ciencia de datos a veces tienen que lidiar con esta carencia cuando tienen que poner en marcha proyectos que implican ciencia de datos.

«La definición de un problema se deja a menudo en manos de los científicos de datos, cuando en realidad la definición de un problema incluye casos de negocio que definen el trabajo y el potencial retorno de la inversión», dice Michael Roytman, que dirige la ciencia de datos en la empresa de ciberseguridad Kenna Security.

Los usuarios empresariales que quieran aprovechar la ciencia de los datos deben plantearse preguntas en profundidad sobre el problema que intentan resolver, afirma Marc Johnson, consultor senior y CIO virtual de la empresa de consultoría sanitaria Impact Advisors.

«Al igual que en cualquier proyecto, hay que dedicar tiempo a definir el alcance del problema para identificar las fuentes de datos adecuadas», afirma Johnson. «Hace unos años, me pidieron que hiciera un proyecto de análisis de datos para una empresa con 20 años a sus espaldas. Sin embargo, no se investigó la base de clientes para ver si realmente había un mercado para este proyecto. No había ninguna métrica identificada para la que el cliente quisiera ver el análisis de datos. Todo se basaba en la competencia, que afirmaba tener un producto de análisis que todos los clientes querían. Al final, el proyecto estuvo dos años sin rumbo debido a la difusa definición del problema que intentábamos resolver», continúa Johnson.

Falta de datos relevantes
Otra forma segura de fracasar con la ciencia de datos es no proporcionar los tipos específicos de datos necesarios para abordar un problema concreto. Arrojar un gran volumen de datos a un problema no es la respuesta. «Hay una suposición de que los grandes datos conducirán a conocimientos útiles, pero en realidad eso ocurre muy raramente», dice Roytman. «Los conjuntos de datos inteligentes, personalizados y a menudo más pequeños tienen más probabilidades de proporcionar modelos generalizables más sólidos».

Dado que los datos se recopilan o se compran de varias fuentes, los equipos deben asegurarse de que cualquier cambio en los datos no sesgue los resultados y sacrifique la calidad de todo el conjunto de datos, afirma Johnson. También tienen que asegurarse de que no haya problemas de privacidad, legales o éticos con el conjunto de datos.

Falta de transparencia en los datos
Los equipos deben ser transparentes con los datos utilizados para crear un determinado modelo. «Los proyectos de ciencia de datos fracasan cuando la gente no confía en el modelo o no entiende la solución», dice Jack McCarthy, que dirige el departamento de TI del sistema judicial de Nueva Jersey. «La forma de evitarlo es conseguir que los procesos de los proyectos de ciencia de datos se entiendan y se comuniquen a las partes interesadas, que pueden no tener los conocimientos técnicos o estadísticos cuando se trata de ciencia de datos».

Los científicos de datos deben explicar de dónde proceden los datos, qué hicieron para calcular los modelos y proporcionar acceso a todos los datos pertinentes. «La transparencia puede ser la clave del éxito de un proyecto», dice McCarthy. Un ejemplo de ello es el algoritmo de evaluación de riesgos utilizado en Nueva Jersey. «Proporcionamos a todos los interesados un informe que muestra qué casos del historial de un acusado entran en una categoría concreta y cómo se evalúa cada uno», dice McCarthy. «El informe se facilita a todas las partes implicadas para que tengan la oportunidad de revisar cada caso. Todo se hace de forma transparente».

Reticencia a reconocer que los resultados son inciertos
A veces, el equipo de negocios de una empresa que requiere conocimientos particulares (o el propio equipo de ciencia de datos) no está dispuesto a concluir que los resultados eran inciertos, poco claros o no lo suficientemente fuertes para una aplicación comercial, dice Roytman.

El equipo de ciencia de datos de Kenna Security dedicó dos meses a crear un modelo de clasificación de vulnerabilidades que generara automáticamente una enumeración de puntos débiles comunes para una vulnerabilidad, dice Roytman. «El modelo ha funcionado; era una buena respuesta a un problema de la universidad. Pero no funcionaba lo suficientemente bien como para ser valioso para nuestros clientes. La precisión era demasiado baja. Así que desechamos el proyecto, aunque habíamos invertido tiempo y obtenido un buen resultado».

Ausencia de un apoyo ejecutivo
Los proyectos de ciencia de los datos necesitan un fuerte «patrocinador» a nivel de la C-suite para garantizar recursos y apoyo suficientes. «Ayuda si es el CIO», dice Riley. «Vemos la ciencia de los datos como una parte integral de nuestra operación, y me he asegurado de estar al frente del apoyo a nuestros esfuerzos». Aunque los directores de informática no son los «campeones internos» de la ciencia de los datos, deben ser responsables de la protección de todos los datos implicados, aunque su participación debe ir mucho más allá de la seguridad.

«Sacar el máximo partido a la información captada es lo que yo llamaría la responsabilidad de un CIO moderno», afirma Riley. «Con todos estos datos a nuestro alcance, tenemos los medios para aprender de ellos y utilizarlos de forma inteligente; y eso es algo que los CIO pueden utilizar para ayudar a sus organizaciones de forma transversal.»

Adaptavit ha sacado mucho provecho de los proyectos de ciencia de datos a la hora de determinar nuevas tácticas y cambios para mejorar el proceso de ventas, afirma Riley. «No tiene nada que ver con nuestro producto ni con la infraestructura informática, el marketing, nada de eso. La ciencia de los datos nos ha ayudado más desde el punto de vista de la optimización de los procesos empresariales, para gestionar y manejar mejor los clientes potenciales de las ventas internas.»

Falta de talento
El déficit de competencias afecta a muchos aspectos de las TI, y la ciencia de los datos no es una excepción. Muchas organizaciones simplemente no tienen las habilidades necesarias para mantener los proyectos u obtener el máximo valor de ellos.

«Los científicos de datos están muy solicitados, son difíciles de encontrar y son caros», dice Tracy Huitika, CIO de Beanworks, un proveedor de automatización de la contabilidad en la nube. «Este papel suele requerir un doctorado en física o ciencias, así como la capacidad de escribir código en R y Python».

Una de las principales razones por las que los proyectos de ciencia de datos fracasan, incluso cuando llegan a implantarse, es la falta de talento operativo para seguir gestionando el proyecto, afirma Johnson. «Llevar a un brillante científico de datos a crear el modelo sin un plan para ejecutar operaciones de mejora continua con ajustes a medida que el mercado evoluciona es como diseñar un automóvil y entregarle las llaves a un niño de 10 años.»

Las empresas deben contar con los conocimientos adecuados para mantener el modelo después de que entre en producción, ya sea contratando o recurriendo a expertos externos, como consultores de ciencia de datos.

La ciencia de los datos no era la solución adecuada
¿Y si un problema concreto no requiriera en absoluto la ciencia de los datos como solución? Un mal uso de esta disciplina puede llevar al fracaso, por lo que merece la pena reflexionar sobre cuándo no aplicar los métodos, procesos y herramientas de la ciencia de datos.

«Una de las principales causas que harán fracasar los proyectos es si la ciencia de los datos, los algoritmos y el aprendizaje automático ni siquiera son la solución adecuada», dice Riley. «Puede que no necesites un modelo de aprendizaje automático en absoluto. Nos vimos envueltos en una de esas situaciones en las que buscábamos modelos de ciencia de datos financieros para visualizar predictores del futuro éxito financiero de nuestro negocio. Resultó que lo mejor era el análisis de regresión».

CambioDigital OnLine

Transformación Digital Inteligente: Cómo ABSIDE se convirtió en el motor de…

Los agentes de IA de los clientes están llegando… ¿Están preparados?

Samsung impulsa reto de bienestar digital para equipar escuela técnica en…

PagoDirecto expande su solución digital con reconocimiento de placas, pasarelas de…

Proveedores de chips de Japón sufren caída histórica de ventas en…

El mercado global de almacenamiento externo repunta con fuerza en 2026

El sector de las memorias impulsa los ingresos por semiconductores sobre…

La demanda de pantallas OLED para notebooks alcanzará los US$ 11.500…

Kunal Shah asume la dirección global de WhatsApp tras la salida…

IA en la oficina: Zoom busca cerrar la brecha entre reuniones…

La carrera de la IA: DeepSeek se dispara con una valoración…

Facebook al estilo de Google: la red social lanza la modalidad…

El smartphone global alcanzará un precio promedio histórico de US$565 en…

Más de 3.000 millones de suscripciones 5G y el tráfico de…

Android 17 avanza hacia un sistema más contextual

La apuesta de Qualcomm por una realidad extendida con inteligencia local

Filtraciones de datos que podrían ser una trampa

Pasos esenciales de Kaspersky para proteger los datos ante la pérdida…

IBM actualiza su ecosistema Z ante los desafíos de la IA

5 de cada 10 víctimas de abuso digital señalan a alguien…

Red Hat actualiza su plataforma empresarial con capacidades poscuánticas y mejoras…

Apple soluciona el fallo que permitía leer mensajes eliminados en el…

Apple unifica sus servicios empresariales en una nueva plataforma

SUSE incorpora IA y virtualización avanzada para unificar la gestión de…

Causas por las que proyectos de ciencia de datos fracasan

OTROS ARTÍCULOS RELACIONADOS

Gartner identifica a los líderes que están redefiniendo la gestión de...

Datos, gobernanza y automatización: el nuevo eje de la alianza entre...

RTX Spark marca la entrada de NVIDIA en el mercado de...

Palo Alto Networks completa la adquisición de Portkey para Proteger Agentes...

KPMG anticipa un 2026 marcado por identidades no humanas y presión...

La nueva geometría de la infraestructura empresarial

Un tribunal federal desestima la demanda de Elon Musk contra OpenAI...

¡SÍGUENOS EN LAS REDES SOCIALES!

NOTICIAS MÁS VISTAS

macOS Catalina: ¿qué hacer con las aplicaciones de 32 bits?

Inter comienza 2021 con nuevos planes de servicio

Historia de Android: todas las versiones desde la 1.0 hasta Android...

CATEGORÍAS MÁS CONSULTADAS

Transformación Digital Inteligente: Cómo ABSIDE se convirtió en el motor de...