¿Qué es un procedimiento de clasificación?

Los procedimientos de clasificación son métodos y también criterios que sirven para dividir (clasificar) objetos y situaciones en clases. Muchos métodos pueden aplicarse simplemente como un algoritmo y se denominan clasificación automática. Los procedimientos de clasificación están siempre relacionados con la aplicación y existen muchos métodos diferentes. Los procedimientos de clasificación desempeñan un papel en el reconocimiento de patrones, en la inteligencia artificialen ciencias de la documentación y recuperación de la información.

¿Cuáles son los tipos de procedimientos de clasificación?

Existen métodos de clasificación con diferentes propiedades. Hay métodos automáticos y manuales, numéricos y no numéricos, estadísticos y sin distribución, supervisados y no supervisados, de dimensión fija y de aprendizaje, y paramétricos y no paramétricos.

En Minería de datos Para la clasificación de objetos, los árboles de decisión, las redes neuronales, la Clasificación Bayes y también se utiliza el método del vecino más próximo. La mayoría de las veces, los procedimientos de clasificación tienen una estructura en dos fases. Hay una fase de aprendizaje con Datos de formación y, por último, la fase de clasificación.

Árboles de decisión

En este procedimiento, los datos recorren un árbol de decisión. En cada nodo se comprueban los valores característicos de los objetos y se determina qué camino del árbol debe seguirse. Finalmente, siempre se llega a un nodo hoja, que es entonces la clase del objeto. El árbol de decisión se crea básicamente con la ayuda de objetos de entrenamiento. Se utiliza un algoritmo recursivo de divide y vencerás. La ventaja es que todas las reglas determinadas pueden interpretarse con bastante facilidad. A Análisis de conglomerados pueden comprenderse mejor con las clases identificadas aplicando árboles de decisión.

Redes neuronales

En Redes neuronales constan de diferentes nodos (Neuronas), que están conectadas entre sí. Una red neuronal de este tipo consta de varias capas. Estos nodos de todas las capas individuales están conectados entre sí en las transiciones de capa. Cada conexión tiene su propio peso de borde. Al principio del entrenamiento, estos pesos se determinan aleatoriamente. El peso de la arista puede decidir a qué nodo puede ir a continuación un objeto para ser asignado finalmente a un nodo de salida. Cada nodo de salida de la capa de salida representa una clase. En función de la ruta de activación de un objeto, se activa un determinado nodo de salida. Por último, el aprendizaje tiene lugar mediante la verificación, comparando los resultados reales y objetivo con los datos de entrenamiento. Los errores se retroalimentan fácilmente a la red neuronal y así se ajustan sucesivamente los pesos de los bordes. Los valores atípicos en los datos se detectan especialmente bien. Los resultados de la clasificación, en cambio, se determinan de forma difícilmente comprensible.

Clasificación Bayes

En la clasificación bayesiana, una clase se asigna en función de las probabilidades de todas las características. Cada objeto se asigna a su clase determinando la probabilidad de aparición de la combinación de características respectiva. Cada ocurrencia se estima aproximadamente mediante los datos de entrenamiento respectivos. La ventaja es que se consigue una gran precisión en la clasificación cuando este método se aplica a grandes cantidades de datos. La desventaja, sin embargo, es que en el caso de que se asuma erróneamente una distribución o independencia de características, los resultados respectivos se vuelven inexactos y se falsean por completo.

Procedimiento vecino próximo

Con este método, los objetos pueden compararse con precisión entre sí y asignarse finalmente a una clase. La comparación se realiza con objetos de entrenamiento similares. La base de la comparación es la medida de distancia o similitud previamente definida. Ahora, la clase más frecuente en la que se producen las comparaciones de objetos se considera la clase resultante. Una ventaja es la aplicabilidad a las características cualitativas y cuantitativas correspondientes de los objetos. Una desventaja es la fase de clasificación, que requiere mucho tiempo, porque siempre hay que utilizar todos los datos de entrenamiento para cada comparación.

Ejemplos del campo de la ciencia de datos

En Área de minería de datos son análisis de Grandes datos se lleva a cabo. De este modo, se procesan eficazmente grandes cantidades de datos y se obtienen resultados fiables y fácilmente interpretables. El objetivo es un tiempo de procesamiento corto. Debe ser posible procesar distintos tipos de estructuras de datos, como análisis de texto, tratamiento de imágenes, números, coordenadas y similares.

Minería de textos se utiliza para extraer conocimientos interesantes y no triviales de textos completamente desestructurados o débilmente estructurados. Aquí intervienen la recuperación de información y la minería de datos, aprendizaje automáticoLa minería de textos se basa en el análisis de textos, la estadística y la lingüística computacional. En la minería de textos se utilizan análisis de clusters, clasificación de textos y la construcción del correspondiente sistema de pregunta-respuesta.

¿Cuál es la diferencia entre clasificación y regresión?

Regresión es la predicción de valores continuos. El entrenamiento se realiza con la ayuda de Retropropagación. Se trata de un procedimiento de optimización que utiliza un método de gradiente para calcular directamente el error de una propagación hacia delante y ajustar las ponderaciones en función del error. Al realizar la retropropagación, se obtienen las ponderaciones "correctas". En la clasificación, en cambio, se puede predecir la pertenencia a un grupo.

Matemáticamente, la regresión y la clasificación no difieren demasiado entre sí. De hecho, muchos métodos de clasificación pueden utilizarse también para la regresión con sólo unos pocos ajustes, y viceversa.

Las redes neuronales artificiales, los métodos del vecino más próximo y los árboles de decisión son ejemplos de los que se utilizan en la práctica tanto para la clasificación como para la regresión. Sin embargo, lo que difiere en cada caso es la finalidad de la aplicación: Con la regresión, se quieren predecir valores continuos (como la temperatura de una máquina) y con la clasificación, distinguir clases (como "la máquina se sobrecalienta" o "no se sobrecalienta").

El método más común para abordar los problemas de clasificación en el aprendizaje automático supervisado es la regresión logística.