¿Qué es el aprendizaje semisupervisado?
Un algoritmo se entrena con datos etiquetados y no etiquetados. De este modo, el aprendizaje semisupervisado permite ahorrar tiempo y dinero. En el ámbito de la Inteligencia artificial es necesario un proceso de aprendizaje que permita al sistema aprender inteligentemente las relaciones. A diferencia del aprendizaje supervisado, el aprendizaje semisupervisado es capaz de clasificar los datos con rapidez y eficacia como en el aprendizaje no supervisado.
Existe una gran variedad de escenarios en los que los datos con etiquetas no están fácilmente disponibles. Por ejemplo, el aprendizaje semisupervisado puede lograr resultados óptimos con una fracción de datos etiquetados, como cientos de ejemplos de entrenamiento. El aprendizaje semisupervisado puede manejar esos tipos de conjuntos de datos que eligen el aprendizaje supervisado o el aprendizaje no supervisado, sin tener que hacer concesiones.
¿Cuándo se utiliza el aprendizaje semisupervisado?
A el aprendizaje semisupervisado o semisupervisado implica la estimación de funciones a partir de datos debidamente etiquetados y no etiquetados. Con este enfoque, no se necesitan tantos datos etiquetados, cuya creación suele ser relativamente cara. Los datos no etiquetados son mucho más baratos y también pueden utilizarse para el aprendizaje. El reto consiste en recopilar estos Datos de formaciónpara proporcionar una proporción de datos etiquetados y no etiquetados de gran importancia global para el algoritmo.
El objetivo es asignar una etiqueta correcta a los datos sin etiquetar. Esto puede lograrse con la llamada propagación de etiquetas. Este método tiene similitudes con un Análisis de conglomerados on. Los datos pueden dividirse en clusters y, dentro de cada cluster, los datos sin etiquetar pueden asignarse fácilmente las mismas etiquetas.
¿Qué es la difusión de etiquetas?
La difusión de etiquetas es una forma de algoritmo de aprendizaje semisupervisado. Este algoritmo de Dengyong Zhou et al. apareció en su artículo titulado "Learning with Local and with Global Consistency" en 2003. Así, la intuición para un enfoque más amplio del aprendizaje semisupervisado es que los puntos cercanos en el espacio de entrada deben tener la misma etiqueta y los puntos en la misma estructura o colector en el espacio de entrada deben tener la misma etiqueta.
La propagación de etiquetas está prácticamente tomada de una técnica de la psicología experimental denominada red de activación por propagación. De este modo, los puntos del conjunto de datos se conectan simplemente en función de las distancias relativas en el espacio de entrada en un grafo de este tipo. La matriz de pesos de este grafo se normaliza simétricamente, de forma similar a la agrupación espectral. A continuación, la información pasa por el grafo, que se ajusta para captar la estructura en el espacio de entrada. Así, finalmente, la etiqueta de cada punto no etiquetado se establece en la misma clase en la que acaba de obtener la mayor cantidad de información durante el proceso de iteración. El uso de la dispersión de etiquetas ayuda a ahorrar costes.