Herramientas de preparación de datos

El arma secreta de su estrategia de analítica

0
47

Para cosechar los beneficios de la analítica de datos, primero se debe lograr una correcta preparación de los datos. Para muchas organizaciones, esto es un cuello de botella significativo, invirtiendo hasta el 70% de su tiempo en tareas de preparación de datos, según una investigación reciente de Gartner.

«Encontrar, acceder, limpiar, transformar y compartir los datos con las personas adecuadas y de manera oportuna sigue siendo uno de los obstáculos que mayor tiempo consumen en la gestión de datos y la analítica”, señala Ehtisham Zaidi, analista director senior del equipo de datos y analítica de Gartner, y autor principal de Market Guide for Data Preparation Tools de Gartner.

Para las organizaciones que buscan transformar su negocio con analítica, el problema principal no se trata tanto de dominar la inteligencia artificial, sino de dominar la segmentación de datos, comenta Jonathan Martin, director de marketing de Hitachi Vantara.

«La pieza de preparación de datos es la pieza más desafiante”, asegura. «¿Cómo identifico dónde están todos estos datos? ¿Puedo construir una cartera? ¿Puedo diseñar los pipelines para conectar todas esas fuentes de datos de una manera automatizada, administrada y gobernada que nos permita llevar esos datos al lugar correcto, la persona correcta y la máquina correcta en el marco de tiempo adecuado?”.

A continuación, se detalla por qué la preparación de datos sigue siendo un desafío analítico significativo, cómo las herramientas de preparación de datos han evolucionado para abordar estos problemas, y qué buscar al elegir herramientas de preparación de datos para su negocio.

Desafíos de la preparación de datos
Múltiples factores contribuyen al desafío de la preparación de datos.

Primero, el número y la complejidad de las fuentes de datos y los tipos de datos necesarios para respaldar las iniciativas de analítica están aumentando exponencialmente. El acceso a estas fuentes de datos a través de un ecosistema de datos distribuidos, interno y externo a la organización, requiere tiempo, recursos, habilidades y herramientas importantes para lograrlo.

«Es la complejidad de los entornos de datos en la actualidad,” señala Stewart Bond, director de investigación del servicio de Data Integration e Integrity Software en IDC. «Hay muchos tipos de datos: datos transaccionales, datos maestros, datos de redes sociales, datos estructurados, datos no estructurados, datos de archivos de registro, datos de gráficos. Existen todo tipo de datos diferentes y, también, todo tipo de tecnologías diferentes en donde se almacenan estos datos”.

En segundo lugar, la cantidad de solicitudes de acceso e integración de datos de autoservicio está abrumando a los equipos de TI -una señal de que el modelo de TI centralizado para la integración de datos ya no funciona, afirma Zaidi.

«TI necesita proporcionar acceso e integración de datos a través de herramientas que sean fáciles de usar y comprender para los usuarios de negocios, y aquí es donde la demanda de preparación de datos se intensifica aún más”, comenta.

En tercer lugar, los requisitos de datos siguen cambiando, ya que los analistas de negocios, integradores ciudadanos, usuarios de línea de negocios, ingenieros de datos y científicos de datos tienen diferentes demandas de datos para sus proyectos.

«Esto hace que preparar datos y ponerlos a disposición de diferentes personas para sus demandas cambiantes, sea prácticamente imposible”, señala Zaidi.

Herramientas de preparación de datos de próxima generación
A medida que las herramientas de preparación de datos han madurado, los puntos débiles han cambiado mucho, agrega. Lo pesado solía ser qué fuentes de datos conectar y qué datos preparar; en la actualidad, las organizaciones se centran en la gobernanza de datos, el linaje, la trazabilidad y la calidad. También se enfrentan a garantizar que las personas adecuadas con las habilidades necesarias tengan acceso a los datos correctos utilizando herramientas de preparación de datos.

Bond lo resume como una cuestión de «inteligencia de datos” -los metadatos sobre los datos.

«Se trata de la inteligencia de saber dónde están los datos, qué significan, quién los usa, quién puede acceder a ellos, por qué los tenemos, cuánto tiempo necesitamos conservarlos y cómo los usan las personas”, anota.

Afortunadamente, el mercado de herramientas de preparación de datos está evolucionando para incluir nuevas características para abordar estos problemas. Las herramientas de la generación anterior se limitaban a admitir requisitos simples de transformación de datos que necesitaban los usuarios de negocios para las tareas de preparación de datos del último tramo. Las herramientas de próxima generación ahora incorporan capacidades para compartir hallazgos y modelos preparados con equipos de TI para la operacionalización, así como características de administración de datos como la catalogación de datos, que permite a los usuarios ver y buscar activos de datos conectados.

«Ahora, algunas herramientas también vienen integradas con características avanzadas de calidad de datos que faltaban en las herramientas de la generación anterior”, comenta Zaidi. «Estas incluyen capacidades de creación de perfiles, etiquetado, anotación, deduplicación, emparejamiento de lógica difusa, vinculación y fusión. Estas características hacen que sea más fácil para los equipos de TI y de administración de datos mejorar la calidad y garantizar la gobernanza y el cumplimiento para la adopción generalizada y el uso de modelos de datos preparados”.

Aquí, el aprendizaje automático (ML, por sus siglas en inglés) es clave. Las capacidades basadas en ML no solo pueden automatizar el emparejamiento, la unión, la creación de perfiles, el etiquetado y la anotación de datos antes de la preparación, sino que algunas herramientas pueden resaltar atributos sensibles, anomalías y valores atípicos, y colaborar con herramientas de gestión de metadatos para evitar que datos sensibles sean expuestos.

«Estas herramientas de preparación de datos aumentadas de aprendizaje automático, les permiten a los usuarios de diferentes niveles de habilidades, adoptar la preparación de datos y, a la vez, garantizar la gobernanza y el cumplimiento”, explica Zaidi.

Qué buscar en una herramienta de preparación de datos
A medida que las organizaciones evalúan las herramientas modernas de preparación de datos, Zaidi señala que deberían buscar capacidades clave:

  • Ingestión de datos y creación de perfiles.Busque un entorno visual que permita a los usuarios ingerir, buscar, muestrear y preparar activos de datos de manera interactiva.
  • Catalogación de datos y gestión básica de metadatos.Las herramientas deberían permitirle crear y buscar metadatos.
  • Modelado y transformación de datos.Las herramientas deben soportar la mezcla y combinación de datos, la limpieza de datos, el filtrado y los cálculos, grupos y jerarquías definidos por el usuario.
  • Seguridad de datos.Las herramientas deben incluir características de seguridad como enmascaramiento de datos, autenticación de plataforma y filtrado de seguridad a nivel de usuario/grupo/rol.
  • Calidad básica de datos y apoyo a la gobernanza.Las herramientas de preparación de datos deben integrarse con herramientas que respalden la gobernanza/administración de datos y las capacidades para la calidad de los datos, los permisos de los usuarios y el linaje de datos.
  • Enriquecimiento de datos.Las herramientas deben respaldar capacidades básicas de enriquecimiento de datos, incluida la extracción de entidades y la captura de atributos de los datos integrados.
  • Colaboración de usuarios y operacionalización. Las herramientas deberían facilitar el intercambio de consultas y conjuntos de datos, incluyendo la publicación, el intercambio y la promoción de modelos con características de gobernanza, como las calificaciones de los usuarios respecto al conjunto de datos o la marca de agua oficial.

Además, Zaidi destaca las siguientes capacidades diferenciadoras para tener en cuenta:

  • Acceso/conectividad a la fuente de datos.Las herramientas deben incluir API y conectividad basada en estándares, incluyendo el acceso nativo a la aplicación en la nube y fuentes de datos, como la popular base de datos PaaS y almacenes de datos en la nube, fuentes de datos locales, datos relacionales y no estructurados, y bases de datos no relacionales.
  • Aprendizaje automático. Las herramientas deberían admitir el uso de IA de aprendizaje automático para mejorar o incluso automatizar el proceso de preparación de datos.
  • Opciones de implementación híbrida y multi-cloud. Las herramientas de preparación de datos deben soportar la implementación en la nube, en las instalaciones o en una configuración de plataforma de integración híbrida.
  • Ofertas o plantillas específicas de dominio o verticales.Las herramientas deben proporcionar plantillas u ofertas empaquetadas para datos y modelos específicos de dominio o verticales que puedan acelerar el tiempo de preparación de datos.

En última instancia, Zaidi dice que una de las primeras cosas que debe considerar es si su organización utilizará una herramienta de preparación de datos independiente o con un proveedor que incorpore la preparación de datos en sus herramientas más amplias de analítica/BI, ciencia de datos o integración de datos. Considere las herramientas independientes si el propósito general del caso de uso depende de la integración de datos para una variedad de herramientas de analítica/BI y ciencia de datos. Por otro lado, si necesita preparación de datos solo dentro del contexto de una plataforma o ecosistema en particular, puede tener más sentido optar por la capacidad de preparación de datos integrada en herramientas.

Resumen del mercado de preparación de datos
Gartner divide a los proveedores de herramientas de preparación de datos en cuatro categorías, en donde todas se encuentran en constante cambio ya que las capacidades de preparación de datos se están integrando en todas las herramientas de analítica y gestión de datos.

  • Herramientas independientes de preparación de datos. Los proveedores en este espacio se centran en permitir una integración más estrecha con los procesos posteriores, como el acceso a la API y el soporte para múltiples herramientas de analítica/BI, ciencia de datos e integración de datos. Las herramientas en este ámbito incluyen ofertas de proveedores como Altair, Datameer, Lore IO, Modak Analytics, Paxata y Trifacta.
  • Herramientas de integración de datos.Los proveedores de esta categoría se han centrado históricamente en la integración y gestión de datos. Esto incluye ofertas de proveedores como Cambridge Semantics, Denodo, Infogix, Informatica, SAP, SAS, Talend y TMMData.
  • Analítica moderna y plataformas de BI. Estos proveedores se centran en la preparación de datos como parte de un flujo de trabajo de analítica de extremo a extremo. Debido a que la preparación de datos es crítica para la analítica y el BI modernos, todos los proveedores en este ámbito están incorporando capacidades de preparación de datos, señala Zaidi. Los proveedores de esta categoría incluyen Alteryx, Tableau, Cambridge Semantics, Infogix, Microsoft, MicroStrategy, Oracle, Qlik, SAP, SAS, TIBCO Software y TMMData.
  • Plataformas de ciencia de datos y aprendizaje automático.Gartner señala que estos proveedores proporcionan capacidades de preparación de datos como parte de un proceso integral de ciencia de datos y ML. Los proveedores representativos incluyen Alteryx, Cambridge Semantics, Dataiku, IBM, Infogix, Rapid Insight, SAP y SAS.

Además de las cuatro categorías generales anteriores, Gartner ve surgir nuevas categorías con capacidades de preparación de datos, que incluyen las siguientes plataformas y proveedores representativos:

  • Plataformas de habilitación de gestión de datos/lagos de datos: Informatica, Talend, Unifi y Zaloni
  • Plataformas de ingeniería de datos: Infoworks
  • Herramientas de calidad de datos: Experian
  • Especialistas en integración de datos: Alooma, Nexla, StreamSets y Striim.

6 herramientas clave de preparación de datos
Las siguientes seis herramientas de preparación de datos proporcionan una imagen más detallada de lo que está disponible actualmente.

Alteryx Designer: Esta herramienta de preparación de datos independiente también forma parte de la plataforma Analytics and Data Science de Alteryx, lo que significa que también está integrada como una capacidad dentro de una plataforma de analítica y BI moderna más amplia, y como una capacidad dentro de una plataforma más amplia de ciencia de datos y aprendizaje automático. Ofrece un flujo de trabajo drag-and-drop para crear perfiles, preparar y combinar datos sin código SQL. Tiene licencia por suscripción anual y el precio se establece por usuario nominal.

Anzo de Cambridge Semantics: Anzo es la plataforma de extremo a extremo de descubrimiento e integración de datos de Cambridge Semantics, y cruza las cuatro categorías de Gartner. Anzo aplica una capa de estructura de datos semántica basada en gráficos sobre la infraestructura de datos existente para mapear datos empresariales, exponer conexiones entre conjuntos de datos, permitir la exploración y el descubrimiento visual, y combinar múltiples conjuntos de datos. Anzo se ofrece mediante suscripción, con un precio basado en la cantidad de núcleos y de usuarios.

Datameer Enterprise: Datameer Enterprise es una plataforma de preparación de datos e ingeniería de datos que se encuentra solamente en la categoría independiente de Gartner. Se centra en reunir fuentes de datos sin procesar y dispares, para crear un único almacén de datos mediante un proceso de integración dirigido por un asistente. Datameer ofrece una interfaz similar a una hoja de cálculo y capacidades de exploración visual. A los clientes se les cobra según la potencia de cálculo o el volumen de datos. El precio para los clientes de la nube se establece por hora o mediante una licencia anual.

Data3Sixty Analyze de Infogix: Data3Sixty Analyze de Infogix es una solución basada en la web que nace de la adquisición de Lavastorm por parte de Infogix. Al igual que Datameer, cruza las cuatro categorías de Gartner. Data3Sixty utiliza roles para definir usuarios. Los diseñadores pueden crear y editar flujos de datos, los exploradores solo pueden ejecutar flujos de datos, y los programadores pueden crear y modificar programaciones para el procesamiento automatizado. Infogix vende Data3Sixty de dos maneras: como un producto de escritorio basado en suscripción y como producto basado en servidor que se ofrece tanto en forma perpetua como por suscripción.

Data Preparation de Talend: Talend ofrece tres herramientas de preparación de datos: Data Preparation (una versión de escritorio de código abierto), Data Preparation Cloud (una versión comercial que se ofrece como parte de la plataforma Talend Cloud), y otra versión de Data Preparation de Talend (una versión comercial que forma parte de la oferta on-premises de Talend Data Fabric). Data Preparation de Talend es una herramienta independiente, mientras que Talend Cloud y Talend Data Fabric son ejemplos de preparación de datos integrados como una capacidad dentro de una herramienta más amplia de integración/gestión de datos. Talend utiliza algoritmos de aprendizaje automático para la estandarización, limpieza, reconocimiento de patrones y reconciliación. La versión de código abierto es gratuita. Las versiones comerciales siguen un modelo de suscripción basado en licencias de usuario nominal.

Trifacta Wrangler: Trifacta Wrangle es una plataforma de preparación de datos independiente que viene en varias ediciones para soportar entornos de computación en la nube y locales. Ofrece capacidades de ML integradas para recomendar datos con los que conectarse, inferir la estructura y el esquema de datos, recomendar uniones, definir el acceso de usuarios y automatizar las visualizaciones para la exploración/calidad de los datos. Trifacta Wrangler se ofrece en una versión gratuita, Wrangler Pro se cobra en base a la capacidad de cómputo y el número de usuarios, Wrangler Enterprise está disponible tanto en versión local como versión en la nube donde el precio depende de la escala de cómputo/procesamiento y el número de usuarios, y Google Cloud Dataprep de Trifacta se cobra por consumo de cómputo.

Thor Olavsrud, CIO.com