El efecto de las etiquetas corruptas en el rendimiento de la visión por ordenador

Un estudio empírico de gran relevancia para las aplicaciones médicas de la IA

Encuentre aquí todos los datos de este estudio.

Resumen

Ya sean radiografías de pulmones o imágenes del globo ocular, los conjuntos de datos médicos nunca son perfectos. Un pequeño número de diagnósticos erróneos suele ir acompañado de un número mucho mayor de etiquetas o anotaciones incorrectas que pueden atribuirse a una documentación incorrecta de las imágenes. El uso de estos conjuntos de datos erróneos para el entrenamiento de redes neuronales convolucionales afecta a la calidad de clasificación del modelo. Para investigar y cuantificar este efecto, creamos artificialmente un conjunto de datos con un 100% de etiquetas correctas e inyectamos varios porcentajes de etiquetas corruptas en el conjunto de entrenamiento. Por último, medimos el rendimiento del modelo en la clasificación de imágenes. Los resultados muestran que, en general, los modelos más complejos obtienen mejores resultados. Sin embargo, la disminución del rendimiento del modelo con el aumento de etiquetas corruptas en los datos de entrenamiento no depende únicamente de la complejidad del modelo. En varios casos, el rendimiento del modelo se estabiliza y a veces incluso aumenta ligeramente con niveles muy bajos de etiquetas corruptas. La fuerte correlación entre el rendimiento del modelo y la proporción de etiquetas corruptas puede servir de base para evaluar la proporción de etiquetas corruptas desconocidas en los conjuntos de datos existentes.

Introducción

La visión por ordenador ya tiene un impacto tangible en muchas industrias. Especialmente en la atención sanitaria, el potencial para el uso de la Inteligencia Artificial (IA) es alto. Hace tiempo que los algoritmos y las redes neuronales convolucionales (CNN) son capaces de detectar la neumonía (Patel et al. 2019; Rajpurkar et al. 2017; Stephen et al. 2019; Varshni et al. 2019), el cáncer de piel (Esteva et al. 2017), la malaria (Yang et al. 2017) y muchas otras enfermedades con una precisión mayor o al menos igual que la de los mejores especialistas en el campo respectivo. En la figura 1 se muestran ejemplos de imágenes médicas utilizadas para entrenar CNN de clasificación de enfermedades.

Sin embargo, estos modelos están sujetos a limitaciones porque los médicos suelen discrepar notablemente en el diagnóstico de las imágenes médicas. Por ejemplo, en la evaluación de la retinopatía diabética. Los médicos observaron imágenes del globo ocular y clasificaron la deficiencia visual en una escala de 1 a 5 como -en este orden- visión completa, ligeramente deficiente, deficiente, visión significativamente deficiente y ciego. Las valoraciones de los expertos médicos suelen diferir en varias escalas (Griffith et al. 1993; McKenna et al. 2018; Sussman et al. 1982). Además, los hallazgos médicos se documentan ocasionalmente de forma incorrecta, o las etiquetas (anotaciones indistintamente) se extraen de los hallazgos utilizando modelos NLP. Esto añade más fuentes de error (Olatunji et al. 2019), además de posibles diagnósticos incorrectos, por ejemplo en radiografías de pulmón (Brady et al. 2012; Busby et al. 2018; Cohen et al. 2020; Oakden-Rayner 2019). La Figura 2 muestra ejemplos de exploraciones de pacientes con complejo de esclerosis tuberosa (CET) con anotaciones detectadas y omitidas.

Figura 2: Imágenes FLAIR de sujetos con CET y las lesiones detectadas (en azul) y no detectadas (en rojo) por un anotador experimentado en la primera lectura (Karimi et al. 2020).

Se dice que los humanos aprenden de sus errores, lo cual sólo es cierto si se reconocen los errores. Esto sólo puede aplicarse marginalmente a la Inteligencia Artificial. Estos algoritmos dependen de que los datos de entrada (a menudo imágenes en el campo médico) estén correctamente etiquetados, es decir, que reciban los diagnósticos correctos, para producir el mejor rendimiento en datos no vistos. El efecto exacto de las etiquetas incorrectas en un conjunto de datos de imágenes utilizado para entrenar algoritmos de aprendizaje automático es difícil de evaluar, pero su impacto negativo general en el rendimiento del modelo se ha demostrado y documentado en varios entornos (Moosavi-Dezfooli et al. 2017; Pengfei Chen et al. 2019; Quinlan 1986; Speth y Hand. Emily M. 2019; Yu et al. 2018; Wang et al. 2018; Zhu y Wu 2004). En entornos como la atención sanitaria, cada punto de rendimiento ganado es valioso y potencialmente salvador de vidas.

En este trabajo, nos centramos en estudiar el deterioro de la clasificación de imágenes en el rendimiento del modelo debido a etiquetas corruptas (es decir, la atribución errónea de una etiqueta a una observación) en el conjunto de datos de entrenamiento. Generamos artificialmente "enfermedades" en las imágenes con ayuda del aumento de la visión por ordenador y, en consecuencia, las etiquetamos 100% correctamente sin discrepancias médicas. A continuación, introducimos y aumentamos constantemente la proporción de etiquetas corruptas y medimos el efecto de la proporción de etiquetas corruptas (CLR) en el rendimiento del modelo. De este modo, esperamos extraer y generalizar la conclusión de dicho efecto para una posible inferencia.

Fondo

Entrenamiento de etiquetas ruidosas

Las redes neuronales de aprendizaje profundo en general, así como las CNN en particular, suelen entrenarse en grandes conjuntos de datos con etiquetas anotadas. Este proceso se denomina aprendizaje supervisado. La fuente de errores en tales conjuntos de datos, que son utilizados por el algoritmo para aprender ciertas relaciones y patrones dentro de los datos, puede ser múltiple y difícil de eludir en muchos entornos empresariales. A menudo, los datos etiquetados correctamente son costosos o generalmente difíciles de obtener (Guan et al. 2018; Pechenizkiy et al. 2006) o el etiquetado, incluso por expertos, aún puede dar como resultado datos ruidosos (Smyth 1996).

Ya se han explorado otros enfoques de aprendizaje profundo para superar estos problemas, como el aprendizaje con etiquetas ruidosas (Joulin et al. 2016; Natarajan et al. 2013; Song et al. 2022; Veit et al. 2017), el aprendizaje autosupervisado (Pinto et al. 2016; Wang y Gupta 2015) o el aprendizaje no supervisado (Krizhevsky 2009; Le 2013 - 2013). Estos enfoques y sus rendimientos medidos demuestran que los modelos de aprendizaje profundo pueden tolerar una pequeña cantidad de ruido en el conjunto de entrenamiento.

Numerosos estudios han analizado el impacto de los datos ruidosos en los métodos de aprendizaje profundo. En general, estos estudios pueden clasificarse en dos grupos (Rolnick et al. 2017). En primer lugar, los enfoques que se centran en modelos robustos al ruido para aprender utilizando anotaciones ruidosas (Beigman y Klebanov 2009; Joulin et al. 2016; Krause et al. 2015; Manwani y Sastry 2011; Misra et al. 2015; Natarajan et al. 2013; Reed et al. 2014; Rolnick et al. 2017; Liu et al. 2020). Algunos de ellos se centran explícitamente en la clasificación de imágenes y las CNN (Ali et al. 2017; Xiao et al. 2015). Este primer grupo es comparativamente más grande, ya que el enfoque robusto al ruido tiene más potencial de escalado, así como puede conducir de manera óptima a una implementación de "entrenar y olvidar" tales modelos debido a su robustez. En segundo lugar, los enfoques que se centran en identificar y eliminar o corregir etiquetas de datos corruptas (Aha et al. 1991; Brodley y Friedl 1999; Skalak 1994). Karimi y sus colegas ofrecen una descripción detallada de varios métodos de ambos grupos (Karimi et al. 2020).

Efecto de etiquetas corrompidas

Nuestro estudio difiere de los enfoques anteriores, ya que el experimento se configura para tener un control total sobre el proceso de etiquetado y, por tanto, sobre las propias etiquetas de los datos. A continuación, modificamos el CLR en los datos de entrenamiento y, en consecuencia, medimos los cambios del rendimiento del modelo. Además, en comparación con otros estudios similares (Veit et al. 2016; Sukhbaatar et al. 2014), la arquitectura del modelo utilizada para entrenar en los datos limpios y luego parcialmente corruptos no se modifica. Del mismo modo, esperamos que centrarse en el cambio de rendimiento, y no en el nivel de rendimiento en sí, proporcione información valiosa.

Los más cercanos son dos estudios que experimentan con el cambio incremental de la proporción de etiquetas corruptas y su efecto en el rendimiento del modelo (van Horn et al. 2015; Zhang et al. 2016). El primero de ellos concluye que el aumento del error de clasificación debido a la corrupción de etiquetas en los datos de entrenamiento es sorprendentemente bajo, independientemente del número de clases o del algoritmo de visión por ordenador. Llegan a la conclusión de que para CLRs bajos (≤ 15%) el aumento del error de clasificación es menor que la proporción en la que aumenta el CLR. Cuando se introduce corrupción no solo en los datos de entrenamiento, sino también en el conjunto de datos de prueba, se observa una caída significativa en el rendimiento del modelo (van Horn et al. 2015). Como el rendimiento del modelo se mide en función del CLR con intervalos grandes (5%, 15%, 50%) ampliaremos este estudio utilizando intervalos más pequeños y centrándonos en el intervalo 0 % ≤ CLR ≤ 10%. El segundo estudio corrompe de forma independiente las etiquetas de los trenes en función de una probabilidad determinada con un incremento escalonado de 10%ejecutando el experimento con dos arquitecturas de CNN diferentes en dos conjuntos de datos distintos (Zhang et al. 2016). Llegan a la conclusión de que el ruido de etiqueta ralentiza el tiempo de convergencia del ajuste con un nivel creciente de ruido de etiqueta. Una vez más, elegimos un cambio más granular en CLR y evaluamos la magnitud del cambio en el rendimiento del modelo mientras se utiliza la misma arquitectura de modelo en el mismo conjunto de datos a través de las diferentes proporciones. De este modo, esperamos que sea una ampliación significativa de estos dos estudios.

Experimento

Aumento del conjunto de datos y etiquetado

El conjunto de datos de base utilizado son los conjuntos de datos unidos PascalVoc, públicos y de libre acceso, de 2007 y 2012, en los que se etiquetan y anotan originalmente determinados objetos, como personas, bicicletas, sillas, botellas o sofás. Utilizando estas imágenes como base, se reproducen artificialmente en ellas patrones típicos de determinadas patologías. El objetivo es que estos patrones sean creados de forma que resulten inequívocos en ciertos casos, y poco o nada reconocibles para el ojo humano en otros. Algunos de los resultados se muestran en las figuras 3a a 3c.

Figura 3a: Facilidad (arriba) y dificultad (abajo) para detectar cambios de píxeles de la clase "Distorsión". Para cada imagen de izquierda a derecha: imagen original, imagen original con región dibujada del cambio, imagen original con región dibujada que incluye valores de píxel cambiados - e imagen cambiada con la que se entrenaron las redes neuronales.
Figura 3b: Facilidad (arriba) y dificultad (abajo) para detectar cambios de píxel de la clase "Desenfoque". Para cada imagen de izquierda a derecha: véase la Figura 3a.
Figura 3c: Fácil (arriba) y difícil (abajo) de detectar el cambio de píxel de la clase "Blob". Para cada imagen de izquierda a derecha: véase la Figura 3a.

Los respectivos cambios de imagen se basan en dos pasos. En primer lugar, se elige una sección aleatoria de la imagen, ya sea un rectángulo o un polígono de cuatro lados. A continuación, dentro de la sección de imagen seleccionada, se cambian aleatoriamente los valores de los píxeles de la imagen, y las imágenes se etiquetan en función del tipo de cambio del valor de los píxeles. Los cambios consisten en cuatro clases principales y 14 subclases, como se indica en la tabla 1. Para la corrupción de etiquetas, la anotación de una imagen se cambia aleatoriamente a una de las clases principales o subclases no correctas, respectivamente.


Clase principal (con descripción)

Subclases
Distorsión
Los valores de los píxeles de la región de interés cambian aleatoriamente dentro de un intervalo especificado.
- R: Sólo canal rojo
- G: Sólo canal verde
- B: Sólo canal azul
- Todos: Todos los canales
Desenfoque
Los valores de los píxeles de la región en cuestión se difuminan.
- Sin subclases
Blob
Se añade un número aleatorio de puntos de tamaño aleatorio a la región en cuestión.
- R: Puntos rojos
- G: Puntos verdes
- B: Puntos azules
- Todos: Puntos de color aleatorio
Color-X-Change
En la región en cuestión, los canales de color se intercambian aleatoriamente.
- RBG: RGB (secuencia rojo-verde-azul) se convierte en RBG
- BGR: RGB se convierte en BGR
- PSG: RGB se convierte en GRB
BRG: RGB se convierte en BRG
- BBR: RGB se convierte en GBR
Tabla 1: Clases principales y subclases utilizadas en el proyecto

En general, 22,077 Las imágenes están modificadas y etiquetadas. La distribución de las clases principales y subclases se muestra en la figura 4. La distribución de las clases principales es más o menos igual, con alrededor del 5,500 imágenes por clase. Para las subclases, se da un desequilibrio debido a Desenfoque-clase que no tiene subclases, lo que resulta en ~ 5,500 imágenes. Para todas las demás subclases, entre 1,100 y 1,400 las imágenes se modifican y se etiquetan. Dado que este estudio se centra en el cambio en el rendimiento del modelo y no en la optimización del rendimiento del modelo o el rendimiento de la predicción de una clase determinada, no se tratará con más detalle el impacto del desequilibrio de clases en el rendimiento general. Todas las imágenes, incluidos los polígonos creados, se redimensionan tras la alteración a una anchura y altura de píxeles de 244 antes de cargarse en las redes neuronales, lo que da como resultado una forma de entrada de (244, 244, 3) .

Figura 4: Distribución de las clases y subclases principales

Arquitectura del modelo base y preentrenado

En la configuración del experimento se utilizan dos modelos. Una CNN básica (bCNN) de desarrollo propio con 7,2 millones de euros así como una ResNet50 preentrenada (resnet) con 27,8 millones de euros parámetros. La bCNN consta de nueve capas convolucionales, cada una de las cuales está encapsulada por capas de normalización por lotes, agrupación y abandono (tarifa = 0.1) ). Un cuadrático tamaño_del_núcleo = 3 y como función de activación LeakyReLu con un α = 0,3. Tras el aplanamiento, se añaden dos capas densas ocultas, de nuevo acompañadas de normalización por lotes, capas de abandono (tarifa = 0,1 ) y el LeakyReLu función de activación (α = 0.3 ). Para la capa de salida, softmax se selecciona la función de activación. El modelo ResNet (He et al. 2015) se amplía con una única capa densa oculta (relu función de activación) y una capa de salida que utiliza la softmax función de activación. En GitHub se puede consultar una descripción detallada de la arquitectura del modelo.

Configuración de entrenamiento de modelos con CLR creciente

Las redes neuronales se entrenan para clasificar las imágenes a lo largo de múltiples iteraciones del experimento. En cada iteración, el CLR se incrementa gradualmente dentro de los datos de entrenamiento y el rendimiento del modelo se mide utilizando un conjunto de prueba no corrompido. La división aleatoria de los datos de prueba de entrenamiento es 77.5% a 22.5%El resultado es 13,700 imágenes para formación y 4,952 para las pruebas. Durante la fase de entrenamiento del modelo, los datos de entrenamiento se dividen aleatoriamente utilizando 20% (3,425 imágenes) de las imágenes de entrenamiento para la validación. El entrenamiento de un único modelo consiste en 20 epochs y tamaño de lote de 32. Cada iteración del experimento incluye el entrenamiento de ambos modelos en una de las tareas de clasificación (ya sean cuatro clases principales o 14 subclases) para diez CLR diferentes con 0% ≤ CLR ≤ 10% .

Dentro de cada ejecución, el CLR más alto incluye las etiquetas ya corrompidas del ratio anterior, es decir, 10% CLR incluye todas las etiquetas corruptas del 7.5% CLR que incluye todas las etiquetas corruptas del 5% CLR, etc. 20 iteraciones para cada tarea de clasificación, lo que da como resultado 800 modelos entrenados (véase el cuadro 2) y >400 horas de cálculo. El rendimiento del modelo de clasificación se midió mediante la exactitud, la precisión media ponderada, la recuperación media ponderada y la puntuación f1 media ponderada.

Parámetros del experimentoEstados de los parámetros del experimentoNº de Estados
ModelobCNN, ResNet502
Tarea de clasificaciónClasificación de la clase principal,
clasificación de subclases
2
Ratio de etiquetas corruptas0.0%, 0.25%, 0.5%, 1.0%, 2.0%, 3.0%,
4.0%, 5.0%, 7.5%, 10.0%
10
Iteraciones de formación2020
= 800 modelos
Tabla 2: Resumen de la configuración del experimento

Resultados

Disminución del rendimiento del modelo basado en CLR

En general, el rendimiento del modelo disminuyó continuamente con el aumento del CLR. La precisión media de las pruebas fue de 0,842 (std = 0,016) para la bCNN con 14 clases y 0% CLR, mientras que la precisión media es de 0,878 (std = 0,064) para la misma tarea de clasificación y configuración CLR. La precisión media disminuye a 0,68 (std = 0,036 - bCNN, 10% CLR, predicción de 14 clases) y 0,76 (std = 0,04 - ResNet, 10% CLR, 14 predicción de clase).

Figura 5a: Métricas medidas de las pruebas de clasificación, incluidos los valores atípicos
Figura 5b*: Métricas de prueba de clasificación medidas, excluidos los valores atípicos (umbral de puntuación z de 3,0 para cada métrica).

* Número de resultados de modelos eliminados utilizando un umbral de puntuación z >3,0 calculado por métrica - de 800 resultados de modelos: exactitud de 8 modelos eliminados, precisión media ponderada de 2 modelos eliminados, recuperación media ponderada de 8 modelos eliminados, puntuación F1 media ponderada de 6 modelos eliminados. puntuación F1 de 6 modelos eliminados

Para la predicción de cuatro clases, la precisión media de la prueba bCNN con 0% CLR es 0,901 (std = 0.018). Para la misma configuración (0% CLR, predicción de cuatro clases), la ResNet alcanza una precisión media de 0,937 (std = 0.028 ). La precisión media disminuye a 0,789 (std = 0,072 - bCNN, 10% CLR, predicción de 4 clases) y 0,831 (std = 0.04  - ResNet, 10% CLR, predicción de 4 clases) respectivamente. La figura 5a ofrece una visión general del rendimiento de los distintos modelos y tareas de clasificación en función de las métricas de los datos de prueba.

No sólo una disminución constante de más de 10 puntos porcentuales para cada configuración en la precisión media, sino también un aumento de la varianza del rendimiento del modelo a medida que aumenta el CLR. Este comportamiento se mantiene para la precisión media ponderada, la recuperación media ponderada y la puntuación F1 media ponderada en todas las configuraciones. En el apéndice A se ofrece un resumen detallado.

Anomalías de rendimiento del modelo CLR de bajo nivel

Para la red neuronal ResNet entrenada con 14 la desviación estándar de la precisión, la recuperación media ponderada y la puntuación F1 media ponderada son sorprendentemente altas para un CLR de 0.0%, 0.25%, 0.5% y 1.0% en comparación con las otras configuraciones (figura 5a, para más detalles, véase el apéndice A). Al mismo tiempo, se puede reconocer una característica inusual en el cambio de rendimiento medio del CLR para la ResNet de 14 clases: un pico peculiar en las métricas de rendimiento de la prueba cuando sólo se corrompe deliberadamente un pequeño número de etiquetas, es decir, en CLR = 0,5%. Incluso cuando se eliminan los valores atípicos (véase la figura 5b), este patrón persiste.

Figura 6: Delta medio de la precisión de la prueba para el CLR en comparación con su línea de base (0% CLR)

La figura 6 muestra el delta de precisión media de cada configuración de entrenamiento en comparación con su línea de base media (modelo entrenado con 0% CLR para la misma tarea de clasificación). Para ambos modelos, bCNN y ResNet, puede observarse un nuevo estancamiento visual para los mismos CLR de nivel bajo (0,0% ≤ CLR ≤ 1,0% ) mencionado anteriormente cuando se entrenó para clasificar cuatro etiquetas, así como la ResNet entrenada en 14 clases.

Relación entre el rendimiento de la clasificación y el CLR

Se ejecutó una regresión lineal simple para sondear la predicción del CLR basada en una precisión dada, utilizando los resultados de la clasificación como entrada. La tabla 3 confirma una correlación negativa de moderada a fuerte entre la precisión de la prueba de clasificación (regresor) y el CLR (regresor) para todas las configuraciones del experimento con -0,75 ≤ 0,1 %. r ≤ -0,5, excepto para el modelo bCNN entrenado en 14 clases con una relación negativa muy fuerte de r < -0.9 .

ModeloTarea de clasificaciónPearson rp-valorCoeficienteRMSE trenPrueba RMSE
bCNN4 clases-0.64758< 0.00001-2.159622.398082.77765
ResNet4 clases-0.72335< 0.00001-2.326662.162452.31352
bCNN14 clases-0.90859< 0.00001-2.869651.373721.17014
ResNet14 clases-0.54147< 0.00001-1.510712.926372.16982
Tabla 3: Resultados de regresión de la precisión de las pruebas de clasificación sobre CLR

Los coeficientes, que pueden interpretarse como valores más altos que indican modelos más robustos y valores más bajos que indican modelos más susceptibles a las etiquetas falsas, muestran el mayor efecto de CLR en la precisión para la bCNN con 14 clases. Aunque los modelos utilizados para elegir y clasificar un menor número de clases obtienen un mejor rendimiento total de precisión, esta observación no se traduce automáticamente en una mayor robustez de los modelos con respecto a las etiquetas corruptas. Su rendimiento disminuye significativamente más rápido que el de la ResNet entrenada para reconocer 14 clases.

Debate

Con una mayor proporción de etiquetas corruptas en los datos de entrenamiento, el rendimiento del modelo se vuelve menos fiable. El rendimiento disminuye más rápidamente que en estudios similares anteriores (van Horn et al., 2015), lo que puede deberse a la complejidad comparativamente baja de la arquitectura del modelo utilizado en el presente estudio, medida por los parámetros que pueden entrenarse. Además, cuando el modelo debe clasificar menos tipos de clases, el rendimiento es mejor en los distintos niveles de CLR. Esto se debe probablemente a que las diferencias en las características, y por tanto en los patrones subyacentes utilizados para la diferenciación de clases, son mayores entre las clases principales que entre las subclases, especialmente entre las subclases que pertenecen a la misma clase principal. Es plausible que, a medida que aumenta la similitud (menos diferencias en los patrones subyacentes), disminuya el poder predictivo del modelo, independientemente del número de etiquetas falsificadas.

Los modelos con un mayor número de parámetros entrenables obtienen mejores resultados que los que tienen menos, en todos los niveles del CLR examinados. El tamaño de una red determina cuánto puede recordar en términos de patrones observados durante el entrenamiento. En este caso, un mayor número de parámetros entrenables conduce a un mejor reconocimiento de los patrones dentro de las imágenes, así como de la relación entre estos patrones y sus respectivas clases. Estos resultados respaldan investigaciones anteriores (Moosavi-Dezfooli et al. 2017; Pengfei Chen et al. 2019; Speth y Hand. Emily M. 2019; Wang et al. 2018; Yu et al. 2018; van Horn et al. 2015; Zhang et al. 2016). Dado que se implementó un modelo con parámetros preentrenados, se incrementó aún más el potencial para afinar el reconocimiento de patrones de relaciones ya aprendidas. Esto coincide con estudios anteriores (Chandeep Sharma 2022; Hassan et al. 2021; Hussain et al. 2019; Wang et al. 2019).

Una implicación del pico de rendimiento observado en valores bajos de CLR para algunas de las configuraciones experimentales estudiadas es que el modelo es más capaz de discriminar entre patrones frecuentes y menos frecuentes de imágenes correctamente etiquetadas de la misma clase cuando el número de imágenes mal etiquetadas es extremadamente bajo. De este modo, se incrementa la robustez para la clasificación de datos no vistos al centrarse en las diferencias de clase más importantes. Como no todas las configuraciones muestran este comportamiento, no se puede concluir con certeza esta implicación.

Al igual que la anomalía descrita anteriormente, la meseta en el rendimiento de la clasificación al mismo nivel bajo de CLR permite cierta interpretación. La inclusión de etiquetas falsas no disminuye inmediatamente el reconocimiento de patrones de los modelos, sino que apoya potencialmente la identificación de relaciones entre la imagen y las clases respectivas mediante la estimulación de patrones y el énfasis en las diferencias de clase. Sólo el modelo con menos parámetros entrenables por clases no muestra el comportamiento descrito y disminuye de forma constante. Basándose en estas observaciones, se podría llegar a la conclusión de que inyectar un número muy bajo de etiquetas corruptas en los datos de entrenamiento podría aumentar el rendimiento del modelo. Los resultados sugieren que esto sólo es factible si el modelo es lo suficientemente complejo en términos de proporción de parámetros entrenables por clase.

A partir de los resultados de la regresión, se puede hacer una estimación inicial sobre las etiquetas falsificadas existentes en un conjunto de datos, aunque se desconozca el CLR. Por ejemplo, los modelos entrenados en un conjunto de datos con un CLR incierto pueden volver a entrenarse insertando intencionadamente diferentes proporciones de etiquetas falsificadas. A continuación, se pueden hacer inferencias sobre los datos y su posible proporción de etiquetas falsificadas utilizadas en el modelo original. La fuerte correlación entre la precisión y el CLR podría servir potencialmente como indicador para predecir el número de etiquetas falsificadas y, por tanto, representa un resultado interesante para futuras investigaciones.

Conclusión

Este estudio se centra en el efecto de las etiquetas corruptas en los datos de entrenamiento de los modelos de clasificación de imágenes. En general, los modelos más complejos obtienen mejores resultados con distintos porcentajes de etiquetas corruptas en los datos de entrenamiento y en distintas tareas de clasificación que los modelos menos complejos. Al mismo tiempo, los resultados sugieren que la robustez no viene automáticamente acompañada de una mayor complejidad de la arquitectura del modelo, ya que la disminución del rendimiento del modelo no parece depender únicamente de la complejidad del modelo. Se observa un resultado sorprendente en una de las cuatro configuraciones de entrenamiento, lo que abre nuevos interrogantes. Los próximos estudios pueden basarse en los resultados actuales y centrarse en el estancamiento del rendimiento y el posible aumento a niveles muy bajos de las proporciones de etiquetas corruptas, potencialmente como una fuente para mejorar el rendimiento general del modelo.

Los datos demuestran que es posible utilizar la estrecha relación entre el rendimiento del modelo y la proporción de etiquetas corruptas para inferir CLR desconocidos en conjuntos de datos existentes insertando deliberadamente etiquetas corruptas y midiendo el cambio en el rendimiento. Se recomienda seguir validando esta hipótesis aumentando el número de arquitecturas de modelo medidas o probando configuraciones similares con diferentes conjuntos de datos.


Encuentre aquí todos los datos de este estudio.

Referencias

Apéndice A - Métricas de clasificación

ModeloClasesRelación (%)Precisión
- media
Puntuación F1 media ponderada
- media
Precisión media ponderada
- media
Recuperación media ponderada
- media
Precisión
- std
Puntuación f1 media ponderada
- std
Precisión media ponderada
- std
Recuperación media ponderada
- std
bCNN1400.8415850.8415690.8562740.8415850.0157650.0164280.0118580.015765
bCNN140.250.8342430.8336360.8490780.8342430.0181190.0168620.0104450.018119
bCNN140.50.8331510.832320.8517270.8331510.0231180.0244430.0178860.023118
bCNN1410.8267510.8241820.8404380.8267510.0185870.0206290.0168990.018587
bCNN1420.809130.8066450.8265340.809130.0205470.0229430.0181270.020547
bCNN1430.8028990.7994140.8235010.8028990.0144770.0129630.0096510.014477
bCNN1440.7746050.7706010.8016670.7746050.0237450.0267350.0176960.023745
bCNN1450.7713670.770330.7997150.7713670.0203060.0186440.0123590.020306
bCNN147.50.733660.7294350.7657260.733660.0266680.0236960.0154360.026668
bCNN14100.6801020.6784630.7385860.6801020.0357190.034110.0291990.035719
bCNN400.900640.900430.9096980.900640.0168160.0179510.0113570.016816
bCNN40.250.8830760.8816320.8958880.8830760.0307110.0335350.0240190.030711
bCNN40.50.8850720.8854360.8960210.8850720.0342720.0342660.023380.034272
bCNN410.8885540.889290.8988190.8885540.0261460.0246040.0162080.026146
bCNN420.8741720.8730420.8886470.8741720.0356090.037350.0244180.035609
bCNN430.8778050.8753020.8872720.8778050.0250130.0281070.0186830.025013
bCNN440.852090.8498060.8674630.852090.0323180.0344610.0222450.032318
bCNN450.831250.8289420.8538320.831250.0516350.0558760.0317750.051635
bCNN47.50.8098460.8065840.8350890.8098460.0574210.0624270.0272090.057421
bCNN4100.7888740.7857680.8288950.7888740.0715610.0754340.0345340.071561
ResNet1400.8779370.8768130.8948090.8779370.0638850.0657840.0444380.063885
ResNet140.250.845030.8468510.8816670.845030.0925820.087070.0447180.092582
ResNet140.50.8907570.8900490.9032570.8907570.0354350.038720.0248770.035435
ResNet1410.8464040.8426250.8772760.8464040.1179770.1338920.0462020.117977
ResNet1420.8644010.8653660.8823050.8644010.0280410.0257460.0174960.028041
ResNet1430.8446350.8454580.864190.8446350.0341560.0344330.0236730.034156
ResNet1440.8268450.828750.854090.8268450.0249810.0252260.0199440.024981
ResNet1450.8151360.8161680.8391490.8151360.0226550.0211140.0176760.022655
ResNet147.50.775640.77640.8067980.775640.031820.0305920.0176210.03182
ResNet14100.7599020.7572830.7851850.7599020.040120.0398180.0300530.04012
ResNet400.9372930.9372030.9425570.9372930.0280260.0283430.0215260.028026
ResNet40.250.9346010.9348330.9407290.9346010.0289550.028550.018460.028955
ResNet40.50.9206330.9205040.9308770.9206330.0290710.0294740.0199210.029071
ResNet410.9169990.9170560.9275080.9169990.0416020.0418080.0284020.041602
ResNet420.921480.9212420.9263840.921480.025390.0264960.0210560.02539
ResNet430.9156440.9156530.9199140.9156440.0248330.025170.0213720.024833
ResNet440.8831510.882140.8936190.8831510.0325760.0356870.0234650.032576
ResNet450.872440.8714020.883910.872440.0414920.0431270.0334440.041492
ResNet47.50.8461410.8447220.8581830.8461410.0341550.0359940.0266630.034155
ResNet4100.8308730.8300420.8423990.8308730.0397270.0403150.0392170.039727

Autor:inside

Daniel Czwalinna

Daniel lleva más de 5 años en Consultoría. Se unió a [at] a principios de 2020 y actualmente trabaja como Científico de Datos Senior. Su trabajo se centra en Computer Vision aunque le interesa todo lo relacionado con la ingeniería ML. En su tiempo libre, le apasiona la fotografía y el boulder.

0 comentarios