La minería de datos es uno de los términos básicos en el contexto de la digitalización y la ciencia de datos. Aparece sobre todo en el contexto de proyectos de Big Data y métodos de análisis de datos. En general, el término se refiere al tratamiento sistemático y matemático-estadístico de los datos. El objetivo es siempre encontrar patrones, relaciones y correlaciones en grandes cantidades de datos. Este artículo ofrece una visión general de la teoría subyacente e ilustra el tema con 3 ejemplos prácticos.
Sin embargo, la minería de datos no es una herramienta de aplicación universal, sino un conjunto de Algoritmosque prometen soluciones muy eficaces en determinados casos.
¿Qué es la minería de datos?
El término se utiliza en el entorno de Grandes datos minería de datos. La minería de datos engloba los métodos de exploración con los que se obtienen -en parte de forma totalmente automatizada y en parte sólo semiautomatizada- conocimientos a partir de grandes cantidades de datos. El objetivo es, Dependencias, Leyes y Muestra en datos brutos de otro modo inconexos o desestructurados. De acuerdo con el término inglés "mining", una metáfora de la minería, a veces también se utiliza en este contexto el término "prospección". Los métodos de minería de datos son procedimientos estadísticos que permiten Datos analizarse con arreglo a determinados criterios. Éstos pueden dividirse a grandes rasgos en cuatro categorías:- Segmentación o agrupación
- Asociación
- Clasificación
- Predicción
Tipos de minería de datos
La minería de datos es el término genérico que designa el intento sistemático de identificar correlaciones, patrones y tendencias en conjuntos de datos. La minería de datos utiliza una serie de métodos asistidos por ordenador que funcionan con algoritmos estadísticos. La minería de datos es cada vez más importante, sobre todo debido a la creciente cantidad de datos (big data).Segmentación
La segmentación o agrupación es un método en el que se agrupan objetos con características comunes similares. Los objetos del grupo resultante son, por tanto, homogéneos.Asociación
Asociación significa descubrimiento de dependencias. La asociación incluye el análisis de asociación y el análisis de secuencias. Los análisis de asociación ayudan a los usuarios a derivar determinadas reglas de conjuntos de datos sin tener que especificar una variable objetivo. Un ámbito de aplicación es el análisis de la cesta de la compra. Con la ayuda de la asociación, la compra de un artículo B puede derivarse de la compra de un artículo A. Los análisis de secuencias amplían los análisis de asociación mediante determinadas reglas o estadísticas.Clasificación
En la clasificación, los objetos de datos individuales se asignan a clases específicas. La clase debe definirse de antemano y los objetos se colocan en ella en función de características que también se definen de antemano. La base está formada por conjuntos de datos con diversas características independientes y una variable objetivo dependiente.Predicción
En la minería de datos, la predicción es una previsión de características desconocidas previamente basada en conocimientos adquiridos con anterioridad. La base es un conjunto de datos de entrenamiento. Con él se pueden entrenar modelos que hagan predicciones sobre la evolución de determinadas variables dependientes.Especializaciones en minería de datos
La mayoría de los enfoques de la minería de datos pueden aplicarse universalmente a distintos tipos de datos. Además, existen especializaciones en minería de datos que se utilizan para datos específicos.Textmining
El Textmining es un método de minería de datos aplicado específicamente a la indexación de conjuntos de datos de texto. Los datos de texto plantean un reto especial porque no son triviales. Debido a su carácter multidimensional y no estructurado, los datos de texto requieren primero una preparación especial para su posterior procesamiento. En este proceso, los datos de texto deben reducirse en algunas características dimensionales y estructurarse. Para extraer información y patrones de los documentos de texto pueden utilizarse complejos procedimientos estadísticos y de lingüística de datos. Las fuentes de lenguaje natural también son objeto de la minería de textos. Una aplicación típica son los métodos asistidos por ordenador para detectar plagios textuales.Webmining
La minería web se utiliza para explotar diversos datos de Internet. El objeto del análisis de datos no son sólo las páginas web propiamente dichas, sino también las relaciones entre las páginas (por ejemplo, en forma de hipervínculos). El análisis de datos de la minería web identifica agrupaciones y valores atípicos entre los datos web. Los conjuntos de datos web se encuentran en un estado constante de dinamismo, lo que plantea un reto particular en la minería web.Análisis de series temporales
El análisis de series temporales es una de las especialidades de la minería de datos cuyo objetivo es una previsión. Se trata de determinar las series temporales futuras para, por ejemplo, poder deducir predicciones sobre tendencias futuras.Tareas típicas
En el curso de estas evaluaciones de datos, pueden crearse o desarrollarse nuevos campos y modelos de negocio. En el sector del automóvil, por ejemplo, pueden realizarse análisis de flotas que permitan ofrecer a los clientes un modelo de servicio (posventa) completamente nuevo. Si patrones llamativos en los datos indican el posible defecto de un componente, éste puede sustituirse incluso antes de que cause daños (Mantenimiento predictivo). Otras tareas características del Minería de datos son:- Detección de valores atípicosIdentificación de conjuntos de datos inusuales: Valores atípicos, errores, cambios
- Análisis de conglomerados: Agrupación de objetos basada en similitudes
- Clasificación: los elementos no asignados se asignan a clases existentes
- Análisis de asociaciónIdentificación de correlaciones y dependencias en los datos en forma de reglas como "De A y B suele seguirse C".
- Análisis de regresiónIdentificación de relaciones entre (varias) variables dependientes e independientes
- ResumenReducción del conjunto de datos a una descripción más compacta sin pérdida significativa de información.
0 comentarios