Por qué las empresas necesitan un catálogo de datos

0
14

Las bases de datos relacionales, los lagos de datos y los almacenes de datos NoSQL son potentes para insertar, actualizar, consultar, buscar y procesar datos. Pero el aspecto irónico de trabajar con plataformas de gestión de datos es que, generalmente, no proporcionan herramientas robustas o interfaces de usuario para compartir lo que hay dentro de ellas. Son más como bóvedas de datos. Usted sabe que hay datos valiosos dentro, pero no tiene una manera fácil de evaluarlos desde el exterior.

El desafío empresarial es lidiar con una multitud de bóvedas de datos: múltiples bases de datos empresariales, almacenes de datos más pequeños, centros de datos, nubes, aplicaciones, herramientas de BI, API, hojas de cálculo y fuentes de datos abiertas.

Por supuesto, puede consultar los metadatos de una base de datos relacional para obtener una lista de tablas, procedimientos almacenados, índices y otros objetos de la base de datos para obtener un directorio. Pero ese es un enfoque que requiere mucho tiempo, mucha experiencia técnica y solamente produce una lista básica de una fuente de datos única.

Puede usar herramientas que realizarán ingeniería inversa de modelos de datos o proporcionarán formas de navegar por los metadatos. Pero, a menudo, estas herramientas están diseñadas para tecnólogos y se utilizan principalmente para auditar, documentar o analizar bases de datos.

En otras palabras, estos enfoques para consultar el contenido de las bases de datos y las herramientas para extraer sus metadatos son insuficientes para las necesidades comerciales actuales basadas en datos por varias razones:

Las tecnologías requieren demasiada experiencia técnica y es poco probable que sean utilizadas por usuarios finales con menor experiencia técnica.

Los métodos son demasiado manuales para empresas con múltiples bases de datos de big data, tecnologías de bases de datos dispares y nubes híbridas operativas.

Los enfoques no son particularmente útiles para científicos de datos o científicos de datos ciudadanos que desean trabajar en colaboración, o llevar a cabo experimentos de aprendizaje automático con conjuntos de datos primarios y derivados.

La estrategia de auditar metadatos de la base de datos no les facilita a los equipos de gestión de datos establecer una gobernanza proactiva de los datos.

Una única fuente de verdad de los activos de datos de una organización
Hoy en día, los catálogos de datos han existido durante algún tiempo y se han vuelto más estratégicos a medida que las organizaciones aumentan la escala de sus plataformas de big data, operan en nubes híbridas, invierten en ciencia de datos y programas de aprendizaje automático, y patrocinan comportamientos organizacionales basados en datos.

El primer concepto por entender sobre los catálogos de datos es que son herramientas para que toda la organización aprenda y colabore en torno a las fuentes de datos. Son importantes para las organizaciones que intentan estar más orientadas a los datos, aquellas con científicos de datos que experimentan con el aprendizaje automático y otras que incorporan análisis en aplicaciones orientadas al cliente.

Los ingenieros de bases de datos, los desarrolladores de software y otros tecnólogos asumen la responsabilidad de integrar los catálogos de datos con las principales fuentes de datos empresariales. También usan y contribuyen al catálogo de datos, especialmente cuando se crean o actualizan bases de datos.

En ese sentido, los catálogos de datos que interactúan con la mayoría de los activos de datos de una empresa son una fuente única de verdad. Ayudan a responder qué datos existen, cómo encontrar las mejores fuentes de datos, cómo protegerlos y quién tiene experiencia. El catálogo de datos incluye herramientas para descubrir fuentes de datos, capturar metadatos sobre esas fuentes, buscarlas y proporcionar algunas capacidades de gestión de metadatos.

Muchos catálogos de datos van más allá de la noción de un directorio estructurado. Frecuentemente, los catálogos de datos incluyen relaciones entre fuentes de datos, entidades y objetos. La mayoría de los catálogos rastrean diferentes clases de metadatos, especialmente en materia de confidencialidad, privacidad y seguridad. Capturan y comparten información sobre cómo diferentes personas, áreas y aplicaciones utilizan las fuentes de datos. La mayoría de los catálogos de datos también incluyen herramientas para definir diccionarios de datos; algunos paquetes de herramientas para perfilar datos, limpiar datos y realizar otras funciones de administración de datos. Los catálogos de datos especializados también permiten o interactúan con la gestión de datos maestros y las capacidades de linaje de datos.

Catálogo de datos de productos y servicios
El mercado está lleno de herramientas y plataformas de catálogo de datos. Algunos productos surgieron de otras capacidades de infraestructura y gestión de datos empresariales. Otros representan una nueva generación de capacidades y se centran en la facilidad de uso, la colaboración y los diferenciadores de aprendizaje automático. Naturalmente, la elección dependerá de la escala, la experiencia del usuario, la estrategia de ciencia de datos, la arquitectura de datos y otros requisitos de la organización.

Aquí hay una muestra de productos de catálogo de datos:

Azure Data Catalog son servicios de catalogación de datos integrados en plataformas de nube pública.

Muchas plataformas de integración de datos tienen capacidades de catalogación de datos, incluyendo a Informatica Enterprise Data CatalogTalend Data CatalogSAP Data Hub e IBM Infosphere Information Governance Catalog.

Algunos catálogos de datos están diseñados para plataformas de big data y nubes híbridas, como Cloudera Data Platform e InfoWorks DataFoundry, que soporta operaciones de datos y orquestación.

Existen plataformas independientes con capacidades de aprendizaje automático, incluyendo a Unifi Data CatalogAlation Data CatalogCollibra CatalogWaterline Data, e IBM Watson Knowledge Catalog.

Herramientas de administración de datos maestros como Stibo Systems y Reltio, así como plataformas de datos de clientes como Arm Treasure Data también pueden funcionar como catálogos de datos.

Las capacidades de aprendizaje automático generan conocimientos y experimentación
Los fundamentos son los catálogos de datos, capaces de automatizar el descubrimiento de datos, permiten la búsqueda en el repositorio y proporcionan herramientas de colaboración. Los catálogos de datos más avanzados incluyen capacidades de aprendizaje automático, procesamiento de lenguaje natural, así como implementaciones de código bajo.

Según la plataforma, las capacidades de aprendizaje automático adoptan varias formas. Por ejemplo, Unifi tiene un motor de recomendación incorporado que revisa cómo son las personas utilizando, uniendo y etiquetando conjuntos de datos primarios y derivados. Captura métricas de utilización, y hace uso del aprendizaje automático para hacer recomendaciones cuando otros usuarios finales consultan conjuntos y patrones de datos similares. Unifi también utiliza algoritmos de aprendizaje automático para perfilar datos, identificar información sensible de identificación personal y etiquetar fuentes de datos.

Collibra está utilizando el aprendizaje automático para ayudar a los administradores de datos a clasificar los datos. Automatic Data Classification analiza nuevos conjuntos de datos y coincide con 40 clasificaciones listas para usar, como direcciones, finanzas información e identificadores de producto.

Waterline Data ha patentado tecnología de huellas digitales que automatiza el descubrimiento, clasificación y gestión de datos empresariales. Una de sus áreas de enfoque es identificar y etiquetar datos confidenciales; afirman reducir el tiempo necesario para el etiquetado en 80%.

Las distintas plataformas tienen diferentes estrategias y capacidades técnicas en torno al procesamiento de datos. Algunos solo funcionan a nivel de catálogo de datos y metadatos, mientras que otros tienen capacidades extendidas de preparación, integración, limpieza y otras operaciones operativas de datos.

InfoWorks DataFoundry es un sistema de orquestación y operaciones de datos empresariales que tiene integración directa con algoritmos de aprendizaje automático. Cuenta con una interfaz de programación visual de código bajo que permite a los usuarios finales conectar datos con algoritmos de aprendizaje automático, como el agrupamiento k-medias y la clasificación de bosques aleatorios.

Estamos en las primeras etapas de plataformas proactivas, como los catálogos de datos que proporcionan gobernanza, capacidades operativas y herramientas de descubrimiento para empresas con activos de datos en crecimiento. A medida que las organizaciones obtienen más valor de negocio de los datos y la analítica, habrá una mayor necesidad de aumentar la escala y administrar las prácticas de datos. Las capacidades de aprendizaje automático probablemente serán un área en la que competirán diferentes plataformas de catálogo de datos.

Isaac Sacolick, InfoWorld.com