¿Qué es la selección de características?
La selección de características es necesaria para el aprendizaje automático. Es el proceso de selección de un subconjunto de características relevantes (variables o predictores) para su uso en la construcción de modelos. Sus técnicas se utilizan por diversas razones:
- Simplificar los modelos para que sean más fáciles de interpretar para los investigadores/usuarios.
- Tiempos de entrenamiento más cortos
- Para evitar los inconvenientes de la dimensionalidad
- Mejora de la compatibilidad de los datos con una clase de modelo de aprendizaje
- Codificación de simetrías inherentes situadas en el espacio de entrada
La "selección de características" también se denomina "selección de variables", "selección de atributos" o "selección de subconjuntos de variables".
Los datos pueden ser redundantes o irrelevantes. La selección de características puede utilizarse para descartar datos que no son necesarios. También debe distinguirse de la extracción de características. La extracción de características crea nuevas características a partir de funciones de las características originales. En cambio, la selección de rasgos devuelve un subconjunto de rasgos. Las técnicas de selección de rasgos suelen utilizarse cuando hay relativamente muchos rasgos y relativamente pocos ejemplos o datos. Algunos ejemplos de aplicaciones de la selección de características son el análisis de texto escrito y los datos de microarrays de ADN, en los que hay miles de características y unos cientos de patrones.
Puede realizar una selección de características Algoritmo como una combinación de tecnologías de búsqueda de nuevos subconjuntos de características, mientras que existe una medida de evaluación que otorga puntos por diferentes conjuntos de características. Por ejemplo, el algoritmo más sencillo es el que encuentra una tasa de error mínima. La elección de la métrica de evaluación influye mucho en el algoritmo y existe esta métrica de evaluación que distingue tres algoritmos de selección diferentes: Wrappers, Filtros y Métodos incrustados.
¿Qué problema resuelve la selección de características?
Los métodos de selección de características pueden utilizarse para crear modelos predictivos precisos. Ayudan a seleccionar características que ofrecen una precisión buena o mejor y requieren menos datos. Así, los métodos de selección de características adecuados pueden utilizarse para identificar y eliminar atributos innecesarios, irrelevantes y redundantes de los datos. Esto no reduce la precisión de un modelo predictivo. Reduce la complejidad de un modelo y facilita su comprensión.
Las ventajas
Se puede ahorrar memoria y acelerar el cálculo.
¿Qué hay que tener en cuenta?
Es importante que se comprenda mejor qué datos se utilizan y qué características son tales que no se siguen utilizando. Hay que estudiar qué información se necesita para el futuro. Hay que eliminar la información irrelevante que no tenga repercusiones. La simplificación del modelo debe facilitar su comprensión.