¿Qué es la minería de datos y cómo descubrir patrones y tendencias en los datos?

La minería de datos, a veces denominada "descubrimiento de conocimientos", es el proceso de cribar grandes volúmenes de datos para obtener correlaciones, patrones y tendencias.

0
13

La minería de datos, a veces utilizada como sinónimo de «descubrimiento de conocimientos», es el proceso de cribar grandes volúmenes de datos para obtener correlaciones, patrones y tendencias. Es un subconjunto de la ciencia de los datos que utiliza técnicas estadísticas y matemáticas junto con el aprendizaje automático y los sistemas de bases de datos. El Grupo de Interés Especial en Descubrimiento de Conocimientos y Minería de Datos (SigKDD) de la Association for Computing Machinery lo define como la ciencia que consiste en extraer conocimientos útiles de los enormes depósitos de datos digitales creados por la tecnología de la información.

La idea de extraer patrones de los datos no es nueva, pero el concepto moderno de minería de datos empezó a tomar forma en los años 80 y 90 con el uso de técnicas de gestión de bases de datos y aprendizaje automático para aumentar los procesos manuales.

Extracción y análisis de datos
Los términos análisis de datos y minería de datos se confunden a menudo, pero el análisis de datos puede entenderse como un subconjunto de la minería de datos.

La minería de datos se centra en la limpieza de los datos en bruto, la búsqueda de patrones, la creación de patrones y la comprobación de dichos patrones, según el proveedor de análisis Tableau. El análisis de datos, por su parte, es la parte de la minería de datos centrada en la extracción de información de los datos. Su objetivo es aplicar el análisis estadístico y la tecnología a los datos para encontrar tendencias y resolver problemas.

El valor empresarial de la minería de datos
Las empresas de un amplio abanico de sectores utilizan la minería de datos para examinar sus datos y comprender las tendencias y tomar mejores decisiones empresariales. Las empresas de medios de comunicación y telecomunicaciones utilizan los datos de los clientes para comprender mejor su comportamiento.

Las compañías de seguros utilizan la minería de datos para evaluar mejor sus productos y crear otros nuevos. Los educadores utilizan ahora la minería de datos para descubrir patrones en el rendimiento de los estudiantes e identificar áreas problemáticas en las que pueden necesitar una atención especial. Los minoristas, por su parte, utilizan la minería de datos para conocer mejor a sus clientes y crear campañas muy específicas.

Algunos ejemplos de casos de uso de la minería de datos son:

– Catholic Relief Services (CRS) utiliza la minería de datos y el aprendizaje automático para ayudar a prestar ayuda humanitaria en todo el mundo. Ha desarrollado Indicadores de Medición para el Análisis de la Resiliencia (MIRA), un protocolo de recogida de datos de alta frecuencia que recoge información sobre los «choques» relacionados con el clima en las comunidades del sureste de África. Introduce los datos en algoritmos de aprendizaje automático para determinar qué hogares correrán el riesgo de sufrir escasez de alimentos debido a esas perturbaciones.
– Bank of America utiliza la minería de datos, el aprendizaje automático y la inteligencia artificial para identificar con mayor precisión a los inversores de las ofertas públicas iniciales (IPO). Ha creado Predictive Intelligence Analytics Machine (PRIAM), un sistema de predicción de operaciones impulsado por la IA que utiliza una red de algoritmos de aprendizaje automático supervisado para comprender las tendencias en las relaciones entre los banqueros y los inversores del mercado de capitales.
– Ellie Mae, empresa de servicios hipotecarios, utiliza la minería de datos en los ataques de ransomware para identificar indicadores de compromiso (IOC). Estos IOC se combinan con la inteligencia sobre amenazas, el análisis predictivo y la inteligencia artificial para impulsar el proyecto Autonomous Threat Hunting for Advanced Persistent Threats (caza autónoma de amenazas persistentes avanzadas) de la empresa.

Técnicas de minería de datos
La minería de datos utiliza una serie de herramientas y técnicas. Según Talend, especialista en integración e integridad de datos, las funciones más utilizadas son las siguientes:

– Limpieza y preparación de datos. Antes de poder analizar y procesar los datos, hay que identificar y eliminar los errores, así como identificar los datos que faltan.
– La minería de datos suele explotar la inteligencia artificial para tareas asociadas a la planificación, el aprendizaje, el razonamiento y la resolución de problemas.
– Aprendizaje de las reglas de asociación. También conocidas como análisis de la cesta de mercado, estas herramientas se utilizan para buscar relaciones entre las variables de un conjunto de datos. Un minorista puede utilizarlos para determinar qué productos suelen comprarse juntos.
– El clustering se utiliza para particionar un conjunto de datos en subclases significativas para entender la estructura de los datos.
– Análisis de datos. El análisis de datos es el proceso de extracción de información de los datos.
– Data Warehousing. Un almacén de datos es una colección de datos empresariales. Es la base de la mayoría de la minería de datos.
Machine Learning. El aprendizaje automático ayuda a automatizar el proceso de búsqueda de patrones en los datos. Esta técnica se utiliza con un conjunto de datos concreto para predecir valores como las ventas, las temperaturas o los precios de las acciones.

Proceso de extracción de datos
El Cross Industry Standard Process for Data Mining (CRISP-DM) es un modelo de proceso de seis pasos que se publicó en 1999 para estandarizar los procesos de minería de datos en todas las industrias. Las seis fases de CRISP-DM son: comprensión del negocio, comprensión de los datos, preparación de los datos, modelización, evaluación y distribución.

Comprensión de los negocios
Esta fase consiste en comprender los objetivos, los requisitos y el alcance del proyecto. Consta de cuatro tareas:

– Determinar los objetivos de la empresa entendiendo lo que los interesados quieren conseguir
– Evaluar la situación para determinar la disponibilidad de recursos, los requisitos del proyecto, los riesgos y las contingencias
– Determinar qué aspecto tiene el éxito desde el punto de vista técnico
– Definir planes detallados para cada herramienta del proyecto y seleccionar tecnologías y herramientas.

Entender los datos
La siguiente etapa consiste en identificar, recopilar y analizar los conjuntos de datos necesarios para alcanzar los objetivos del proyecto. Comprende cuatro actividades: recogida inicial de datos, descripción de datos, exploración de datos y verificación de la calidad de los datos.

Preparación de los datos
Suele ser la parte más importante de cualquier proyecto y consta de cinco actividades:

– Selección de los conjuntos de datos y documentación de los motivos de inclusión/exclusión
– Limpieza de los datos
– Construir datos derivando nuevos atributos de los datos existentes
– Integración de datos de múltiples fuentes
– Formatear los datos.

Modelado
La creación de modelos a partir de datos consta de cuatro actividades: selección de técnicas de modelización, generación de diseños de prueba, creación de modelos y evaluación de modelos.

Evaluación
Aunque la fase de modelización incluye la evaluación del modelo técnico, en esta fase se trata de determinar el modelo que mejor responde a las necesidades de la empresa. Comprende tres actividades: evaluar los resultados, revisar el proceso y determinar los próximos pasos.

Despliegue
La última etapa se refiere al despliegue del modelo. Incluye cuatro actividades: elaborar y documentar un plan de aplicación del modelo, desarrollar un plan de seguimiento y mantenimiento, elaborar un informe final y revisar el proyecto.

Software y herramientas de extracción de datos
Las empresas utilizan diversos programas y herramientas de extracción de datos. Algunos de los programas y herramientas más populares son:

IBM SPSS Modeler. La solución Visual Data Science and Machine Learning de IBM puede utilizarse para la preparación de datos, el descubrimiento, el análisis predictivo, la gestión de modelos y la implementación.
– La plataforma de código abierto Knime se utiliza para el análisis de datos, la elaboración de informes y la integración.
Oracle Data Mining (ODM). ODM forma parte de Oracle Database Enterprise Edition y ofrece algoritmos de análisis y minería de datos para la clasificación, predicción, regresión, asociaciones, selección de características, detección de anomalías, extracción de características y análisis especializados.
Minería de datos naranja.
Orange Data Mining. Orange es un conjunto de herramientas de código abierto para la visualización de datos, el aprendizaje automático y la minería de datos.
R. Este lenguaje de programación de código abierto y entorno de software libre es muy utilizado por los mineros de datos. Fundado por Revolution Analytics,  R también cuenta con soporte comercial y extensiones. Microsoft adquirió Revolution Analytics en 2015 y ha integrado R con sus ofertas de SQL Server, Power BI, Azure SQL Managed Instance, Azure Cortana Intelligence, Microsoft ML Server y Visual Studio 2017. Oracle, IBM y Tibco también admiten R en sus ofertas.
– Diseñada para equipos, la plataforma de ciencia de datos RapidMiner admite la preparación de datos, el aprendizaje automático y el despliegue de modelos predictivos.
 – SAS Enterprise Miner. SAS Enterprise Miner está diseñado para crear modelos predictivos y descriptivos sobre grandes volúmenes de datos procedentes de fuentes de la organización.
– El Stack BI de Sisense cubre todo, desde las bases de datos hasta el ETL y la analítica, pasando por la visualización.

Minería de datos
La minería de datos suele ser realizada por científicos de datos o analistas de datos. Estos son algunos de los títulos de trabajo más populares relacionados con la minería de datos y el salario medio en dólares para cada puesto según los datos más recientes de escala de salarios:

Analista de business intelligence: 52K-90K
Arquitecto de business intelligence: 72K-140K
Desarrollador de business intelligence: 62K-109K
Analista de datos: 43K-90K
Ingeniero de datos: 44K-141K
Científico de datos: 66K-130K
Analista de datos senior: 63K-108K
Estadístico: 44K-159K

Redacción CambioDigital OnLine – CWI.it

Artículo anteriorClaves para formar un equipo de análisis eficaz
Artículo siguienteLa UE y Estados Unidos debaten esta semana sobre competencia, chips e IA