Minería de datos: métodos y ejemplos prácticos

de | 15 de junio de 2020 | Conceptos básicos

La minería de datos es uno de los términos básicos en el contexto de la digitalización y la ciencia de datos. Aparece sobre todo en el contexto de proyectos de Big Data y métodos de análisis de datos. En general, el término se refiere al tratamiento sistemático y matemático-estadístico de los datos. El objetivo es siempre encontrar patrones, relaciones y correlaciones en grandes cantidades de datos. Este artículo ofrece una visión general de la teoría subyacente e ilustra el tema con 3 ejemplos prácticos. Sin embargo, la minería de datos no es una herramienta de aplicación universal, sino un conjunto de Algoritmosque prometen soluciones muy eficaces en determinados casos.

¿Qué es la minería de datos?

El término se utiliza en el entorno de Grandes datos minería de datos. La minería de datos engloba los métodos de exploración con los que se obtienen -en parte de forma totalmente automatizada y en parte sólo semiautomatizada- conocimientos a partir de grandes cantidades de datos. El objetivo es, Dependencias, Leyes y Muestra en datos brutos de otro modo inconexos o desestructurados. De acuerdo con el término inglés "mining", una metáfora de la minería, a veces también se utiliza en este contexto el término "prospección". Los métodos de minería de datos son procedimientos estadísticos que permiten Datos analizarse con arreglo a determinados criterios. Éstos pueden dividirse a grandes rasgos en cuatro categorías:
  • Segmentación o agrupación
  • Asociación
  • Clasificación
  • Predicción
En función del caso de uso, estos métodos pueden o deben combinarse entre sí. Así pues, la minería de datos engloba toda una serie de métodos que permiten tratar los datos de forma sensata y rentable. En la industria se generan grandes cantidades de datos, especialmente en el contexto de Supervisión o en el marco de la producción en red.

Tipos de minería de datos

La minería de datos es el término genérico que designa el intento sistemático de identificar correlaciones, patrones y tendencias en conjuntos de datos. La minería de datos utiliza una serie de métodos asistidos por ordenador que funcionan con algoritmos estadísticos. La minería de datos es cada vez más importante, sobre todo debido a la creciente cantidad de datos (big data).

Segmentación

La segmentación o agrupación es un método en el que se agrupan objetos con características comunes similares. Los objetos del grupo resultante son, por tanto, homogéneos.

Asociación

Asociación significa descubrimiento de dependencias. La asociación incluye el análisis de asociación y el análisis de secuencias. Los análisis de asociación ayudan a los usuarios a derivar determinadas reglas de conjuntos de datos sin tener que especificar una variable objetivo. Un ámbito de aplicación es el análisis de la cesta de la compra. Con la ayuda de la asociación, la compra de un artículo B puede derivarse de la compra de un artículo A. Los análisis de secuencias amplían los análisis de asociación mediante determinadas reglas o estadísticas.

Clasificación

En la clasificación, los objetos de datos individuales se asignan a clases específicas. La clase debe definirse de antemano y los objetos se colocan en ella en función de características que también se definen de antemano. La base está formada por conjuntos de datos con diversas características independientes y una variable objetivo dependiente.

Predicción

En la minería de datos, la predicción es una previsión de características desconocidas previamente basada en conocimientos adquiridos con anterioridad. La base es un conjunto de datos de entrenamiento. Con él se pueden entrenar modelos que hagan predicciones sobre la evolución de determinadas variables dependientes.

Especializaciones en minería de datos

La mayoría de los enfoques de la minería de datos pueden aplicarse universalmente a distintos tipos de datos. Además, existen especializaciones en minería de datos que se utilizan para datos específicos.

Textmining

El Textmining es un método de minería de datos aplicado específicamente a la indexación de conjuntos de datos de texto. Los datos de texto plantean un reto especial porque no son triviales. Debido a su carácter multidimensional y no estructurado, los datos de texto requieren primero una preparación especial para su posterior procesamiento. En este proceso, los datos de texto deben reducirse en algunas características dimensionales y estructurarse. Para extraer información y patrones de los documentos de texto pueden utilizarse complejos procedimientos estadísticos y de lingüística de datos. Las fuentes de lenguaje natural también son objeto de la minería de textos. Una aplicación típica son los métodos asistidos por ordenador para detectar plagios textuales.

Webmining

La minería web se utiliza para explotar diversos datos de Internet. El objeto del análisis de datos no son sólo las páginas web propiamente dichas, sino también las relaciones entre las páginas (por ejemplo, en forma de hipervínculos). El análisis de datos de la minería web identifica agrupaciones y valores atípicos entre los datos web. Los conjuntos de datos web se encuentran en un estado constante de dinamismo, lo que plantea un reto particular en la minería web.

Análisis de series temporales

El análisis de series temporales es una de las especialidades de la minería de datos cuyo objetivo es una previsión. Se trata de determinar las series temporales futuras para, por ejemplo, poder deducir predicciones sobre tendencias futuras.

Tareas típicas

En el curso de estas evaluaciones de datos, pueden crearse o desarrollarse nuevos campos y modelos de negocio. En el sector del automóvil, por ejemplo, pueden realizarse análisis de flotas que permitan ofrecer a los clientes un modelo de servicio (posventa) completamente nuevo. Si patrones llamativos en los datos indican el posible defecto de un componente, éste puede sustituirse incluso antes de que cause daños (Mantenimiento predictivo). Otras tareas características del Minería de datos son:
  • Detección de valores atípicosIdentificación de conjuntos de datos inusuales: Valores atípicos, errores, cambios
  • Análisis de conglomerados: Agrupación de objetos basada en similitudes
  • Clasificación: los elementos no asignados se asignan a clases existentes
  • Análisis de asociaciónIdentificación de correlaciones y dependencias en los datos en forma de reglas como "De A y B suele seguirse C".
  • Análisis de regresiónIdentificación de relaciones entre (varias) variables dependientes e independientes
  • ResumenReducción del conjunto de datos a una descripción más compacta sin pérdida significativa de información.

Así se ve en la práctica

Ya hemos utilizado la minería de datos en numerosos proyectos de clientes. A modo de ejemplo, se presentan aquí tres casos de uso, que típico Escenarios operativos para la extracción de datos. 1. reducción de los plazos de reparación Para uno de nuestros clientes de la industria automovilística, se trataba de la Reducción de los plazos de reparación. La solución consistió en procesar los datos de garantía adecuados con la ayuda de un Análisis de asociación identificar combinaciones llamativas de pasos de trabajo que estuvieran asociadas a un tiempo de trabajo libre no deseado. Esto nos permitió identificar potenciales de optimización en el proceso del taller. 2. detección de fallos en robots de pintura En otro caso de uso, también en el sector de la automoción, se trataba de nuevo de desarrollar e implantar el Detección de errores en robots de pintura para mejorar. El objetivo era desarrollar un sistema de detección precoz para evitar por completo las costosas reelaboraciones. A partir del análisis de los datos de registro, desarrollamos patrones de error, que posteriormente se Procedimiento de clasificación ser reconocido. 3. valor del ciclo de vida del cliente El tercer ejemplo procede del sector bancario. Un banco alemán se dirigió a nosotros con el deseo de Valor del ciclo de vida del cliente de sus clientes. En lugar de tomar como base únicamente un determinado valor monetario, en el futuro también deberían evaluarse las actividades de los clientes. Tras crear una base de datos adecuada fusionando varias fuentes de datos, pudimos identificar los tipos de clientes y evaluarlos con la ayuda del Procedimiento de agrupación en cinco categorías. Estos tres casos de uso de los métodos de minería de datos ilustran una cosa por encima de todo. La pregunta concreta está en el centro de Proyectos de ciencia de datosdonde la minería de datos se utiliza como enfoque de solución. Si existe tanto un reto apropiado como una base de datos adecuada (Big Data), la minería de datos puede ser una herramienta eficaz para promover perspectivas rentables.

Problemas y límites de la minería de datos

Si se aplican cuidadosamente las diversas técnicas de análisis y evaluación de la minería de datos, estos métodos ofrecen valiosos conocimientos y ventajas competitivas. Todos estos métodos conllevan retos específicos. Uno de los problemas más importantes de la minería de datos es que cada metodología debe definirse primero manualmente. Corresponde al ser humano definir las variables dependientes e independientes, las clases y las técnicas de análisis que se van a utilizar. Así pues, los resultados de la minería de datos están fundamentalmente falseados por determinadas presuposiciones, ideas y objetivos. Por esta razón, las empresas suelen encargar a especialistas externos en datos e IA, como el Alexander Thamm GmbH con las tareas de minería de datos.

Autor:inside

Michaela Tiedemann

Michaela Tiedemann forma parte del equipo de Alexander Thamm GmbH desde sus inicios. Ha participado activamente en el proceso de transformación de una empresa emergente, espontánea y dinámica en una empresa de éxito. Con la fundación de su propia familia, comenzó para Michaela Tiedemann un capítulo completamente nuevo. Sin embargo, dejar su trabajo no era una opción para la nueva madre. En su lugar, desarrolló una estrategia para conciliar su trabajo como Directora de Marketing con su papel de madre.

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *