Un estudio empírico de gran relevancia para las aplicaciones médicas de la IA
Encuentre aquí todos los datos de este estudio.
Inhaltsverzeichnis
Resumen
Ya sean radiografías de pulmones o imágenes del globo ocular, los conjuntos de datos médicos nunca son perfectos. Un pequeño número de diagnósticos erróneos suele ir acompañado de un número mucho mayor de etiquetas o anotaciones incorrectas que pueden atribuirse a una documentación incorrecta de las imágenes. El uso de estos conjuntos de datos erróneos para el entrenamiento de redes neuronales convolucionales afecta a la calidad de clasificación del modelo. Para investigar y cuantificar este efecto, creamos artificialmente un conjunto de datos con un 100% de etiquetas correctas e inyectamos varios porcentajes de etiquetas corruptas en el conjunto de entrenamiento. Por último, medimos el rendimiento del modelo en la clasificación de imágenes. Los resultados muestran que, en general, los modelos más complejos obtienen mejores resultados. Sin embargo, la disminución del rendimiento del modelo con el aumento de etiquetas corruptas en los datos de entrenamiento no depende únicamente de la complejidad del modelo. En varios casos, el rendimiento del modelo se estabiliza y a veces incluso aumenta ligeramente con niveles muy bajos de etiquetas corruptas. La fuerte correlación entre el rendimiento del modelo y la proporción de etiquetas corruptas puede servir de base para evaluar la proporción de etiquetas corruptas desconocidas en los conjuntos de datos existentes.
Introducción
La visión por ordenador ya tiene un impacto tangible en muchas industrias. Especialmente en la atención sanitaria, el potencial para el uso de la Inteligencia Artificial (IA) es alto. Hace tiempo que los algoritmos y las redes neuronales convolucionales (CNN) son capaces de detectar la neumonía (Patel et al. 2019; Rajpurkar et al. 2017; Stephen et al. 2019; Varshni et al. 2019), el cáncer de piel (Esteva et al. 2017), la malaria (Yang et al. 2017) y muchas otras enfermedades con una precisión mayor o al menos igual que la de los mejores especialistas en el campo respectivo. En la figura 1 se muestran ejemplos de imágenes médicas utilizadas para entrenar CNN de clasificación de enfermedades.
Figura 1: Imágenes radiológicas de pacientes COVID-19 (Winther et al. 2020) utilizadas para la clasificación de la enfermedad.
Sin embargo, estos modelos están sujetos a limitaciones porque los médicos suelen discrepar notablemente en el diagnóstico de las imágenes médicas. Por ejemplo, en la evaluación de la retinopatía diabética. Los médicos observaron imágenes del globo ocular y clasificaron la deficiencia visual en una escala de 1 a 5 como -en este orden- visión completa, ligeramente deficiente, deficiente, visión significativamente deficiente y ciego. Las valoraciones de los expertos médicos suelen diferir en varias escalas (Griffith et al. 1993; McKenna et al. 2018; Sussman et al. 1982). Además, los hallazgos médicos se documentan ocasionalmente de forma incorrecta, o las etiquetas (anotaciones indistintamente) se extraen de los hallazgos utilizando modelos NLP. Esto añade más fuentes de error (Olatunji et al. 2019), además de posibles diagnósticos incorrectos, por ejemplo en radiografías de pulmón (Brady et al. 2012; Busby et al. 2018; Cohen et al. 2020; Oakden-Rayner 2019). La Figura 2 muestra ejemplos de exploraciones de pacientes con complejo de esclerosis tuberosa (CET) con anotaciones detectadas y omitidas.
Se dice que los humanos aprenden de sus errores, lo cual sólo es cierto si se reconocen los errores. Esto sólo puede aplicarse marginalmente a la Inteligencia Artificial. Estos algoritmos dependen de que los datos de entrada (a menudo imágenes en el campo médico) estén correctamente etiquetados, es decir, que reciban los diagnósticos correctos, para producir el mejor rendimiento en datos no vistos. El efecto exacto de las etiquetas incorrectas en un conjunto de datos de imágenes utilizado para entrenar algoritmos de aprendizaje automático es difícil de evaluar, pero su impacto negativo general en el rendimiento del modelo se ha demostrado y documentado en varios entornos (Moosavi-Dezfooli et al. 2017; Pengfei Chen et al. 2019; Quinlan 1986; Speth y Hand. Emily M. 2019; Yu et al. 2018; Wang et al. 2018; Zhu y Wu 2004). En entornos como la atención sanitaria, cada punto de rendimiento ganado es valioso y potencialmente salvador de vidas.
En este trabajo, nos centramos en estudiar el deterioro de la clasificación de imágenes en el rendimiento del modelo debido a etiquetas corruptas (es decir, la atribución errónea de una etiqueta a una observación) en el conjunto de datos de entrenamiento. Generamos artificialmente "enfermedades" en las imágenes con ayuda del aumento de la visión por ordenador y, en consecuencia, las etiquetamos 100% correctamente sin discrepancias médicas. A continuación, introducimos y aumentamos constantemente la proporción de etiquetas corruptas y medimos el efecto de la proporción de etiquetas corruptas (CLR) en el rendimiento del modelo. De este modo, esperamos extraer y generalizar la conclusión de dicho efecto para una posible inferencia.
Fondo
Entrenamiento de etiquetas ruidosas
Las redes neuronales de aprendizaje profundo en general, así como las CNN en particular, suelen entrenarse en grandes conjuntos de datos con etiquetas anotadas. Este proceso se denomina aprendizaje supervisado. La fuente de errores en tales conjuntos de datos, que son utilizados por el algoritmo para aprender ciertas relaciones y patrones dentro de los datos, puede ser múltiple y difícil de eludir en muchos entornos empresariales. A menudo, los datos etiquetados correctamente son costosos o generalmente difíciles de obtener (Guan et al. 2018; Pechenizkiy et al. 2006) o el etiquetado, incluso por expertos, aún puede dar como resultado datos ruidosos (Smyth 1996).
Ya se han explorado otros enfoques de aprendizaje profundo para superar estos problemas, como el aprendizaje con etiquetas ruidosas (Joulin et al. 2016; Natarajan et al. 2013; Song et al. 2022; Veit et al. 2017), el aprendizaje autosupervisado (Pinto et al. 2016; Wang y Gupta 2015) o el aprendizaje no supervisado (Krizhevsky 2009; Le 2013 - 2013). Estos enfoques y sus rendimientos medidos demuestran que los modelos de aprendizaje profundo pueden tolerar una pequeña cantidad de ruido en el conjunto de entrenamiento.
Numerosos estudios han analizado el impacto de los datos ruidosos en los métodos de aprendizaje profundo. En general, estos estudios pueden clasificarse en dos grupos (Rolnick et al. 2017). En primer lugar, los enfoques que se centran en modelos robustos al ruido para aprender utilizando anotaciones ruidosas (Beigman y Klebanov 2009; Joulin et al. 2016; Krause et al. 2015; Manwani y Sastry 2011; Misra et al. 2015; Natarajan et al. 2013; Reed et al. 2014; Rolnick et al. 2017; Liu et al. 2020). Algunos de ellos se centran explícitamente en la clasificación de imágenes y las CNN (Ali et al. 2017; Xiao et al. 2015). Este primer grupo es comparativamente más grande, ya que el enfoque robusto al ruido tiene más potencial de escalado, así como puede conducir de manera óptima a una implementación de "entrenar y olvidar" tales modelos debido a su robustez. En segundo lugar, los enfoques que se centran en identificar y eliminar o corregir etiquetas de datos corruptas (Aha et al. 1991; Brodley y Friedl 1999; Skalak 1994). Karimi y sus colegas ofrecen una descripción detallada de varios métodos de ambos grupos (Karimi et al. 2020).
Efecto de etiquetas corrompidas
Nuestro estudio difiere de los enfoques anteriores, ya que el experimento se configura para tener un control total sobre el proceso de etiquetado y, por tanto, sobre las propias etiquetas de los datos. A continuación, modificamos el CLR en los datos de entrenamiento y, en consecuencia, medimos los cambios del rendimiento del modelo. Además, en comparación con otros estudios similares (Veit et al. 2016; Sukhbaatar et al. 2014), la arquitectura del modelo utilizada para entrenar en los datos limpios y luego parcialmente corruptos no se modifica. Del mismo modo, esperamos que centrarse en el cambio de rendimiento, y no en el nivel de rendimiento en sí, proporcione información valiosa.
Los más cercanos son dos estudios que experimentan con el cambio incremental de la proporción de etiquetas corruptas y su efecto en el rendimiento del modelo (van Horn et al. 2015; Zhang et al. 2016). El primero de ellos concluye que el aumento del error de clasificación debido a la corrupción de etiquetas en los datos de entrenamiento es sorprendentemente bajo, independientemente del número de clases o del algoritmo de visión por ordenador. Llegan a la conclusión de que para CLRs bajos (≤ 15%) el aumento del error de clasificación es menor que la proporción en la que aumenta el CLR. Cuando se introduce corrupción no solo en los datos de entrenamiento, sino también en el conjunto de datos de prueba, se observa una caída significativa en el rendimiento del modelo (van Horn et al. 2015). Como el rendimiento del modelo se mide en función del CLR con intervalos grandes (5%, 15%, 50%) ampliaremos este estudio utilizando intervalos más pequeños y centrándonos en el intervalo 0 % ≤ CLR ≤ 10%. El segundo estudio corrompe de forma independiente las etiquetas de los trenes en función de una probabilidad determinada con un incremento escalonado de 10%ejecutando el experimento con dos arquitecturas de CNN diferentes en dos conjuntos de datos distintos (Zhang et al. 2016). Llegan a la conclusión de que el ruido de etiqueta ralentiza el tiempo de convergencia del ajuste con un nivel creciente de ruido de etiqueta. Una vez más, elegimos un cambio más granular en CLR y evaluamos la magnitud del cambio en el rendimiento del modelo mientras se utiliza la misma arquitectura de modelo en el mismo conjunto de datos a través de las diferentes proporciones. De este modo, esperamos que sea una ampliación significativa de estos dos estudios.
Experimento
Aumento del conjunto de datos y etiquetado
El conjunto de datos de base utilizado son los conjuntos de datos unidos PascalVoc, públicos y de libre acceso, de 2007 y 2012, en los que se etiquetan y anotan originalmente determinados objetos, como personas, bicicletas, sillas, botellas o sofás. Utilizando estas imágenes como base, se reproducen artificialmente en ellas patrones típicos de determinadas patologías. El objetivo es que estos patrones sean creados de forma que resulten inequívocos en ciertos casos, y poco o nada reconocibles para el ojo humano en otros. Algunos de los resultados se muestran en las figuras 3a a 3c.
Los respectivos cambios de imagen se basan en dos pasos. En primer lugar, se elige una sección aleatoria de la imagen, ya sea un rectángulo o un polígono de cuatro lados. A continuación, dentro de la sección de imagen seleccionada, se cambian aleatoriamente los valores de los píxeles de la imagen, y las imágenes se etiquetan en función del tipo de cambio del valor de los píxeles. Los cambios consisten en cuatro clases principales y 14 subclases, como se indica en la tabla 1. Para la corrupción de etiquetas, la anotación de una imagen se cambia aleatoriamente a una de las clases principales o subclases no correctas, respectivamente.
Clase principal (con descripción) | Subclases |
---|---|
Distorsión Los valores de los píxeles de la región de interés cambian aleatoriamente dentro de un intervalo especificado. | - R: Sólo canal rojo - G: Sólo canal verde - B: Sólo canal azul - Todos: Todos los canales |
Desenfoque Los valores de los píxeles de la región en cuestión se difuminan. | - Sin subclases |
Blob Se añade un número aleatorio de puntos de tamaño aleatorio a la región en cuestión. | - R: Puntos rojos - G: Puntos verdes - B: Puntos azules - Todos: Puntos de color aleatorio |
Color-X-Change En la región en cuestión, los canales de color se intercambian aleatoriamente. | - RBG: RGB (secuencia rojo-verde-azul) se convierte en RBG - BGR: RGB se convierte en BGR - PSG: RGB se convierte en GRB - BRG: RGB se convierte en BRG - BBR: RGB se convierte en GBR |
En general, 22,077 Las imágenes están modificadas y etiquetadas. La distribución de las clases principales y subclases se muestra en la figura 4. La distribución de las clases principales es más o menos igual, con alrededor del 5,500 imágenes por clase. Para las subclases, se da un desequilibrio debido a Desenfoque-clase que no tiene subclases, lo que resulta en ~ 5,500 imágenes. Para todas las demás subclases, entre 1,100 y 1,400 las imágenes se modifican y se etiquetan. Dado que este estudio se centra en el cambio en el rendimiento del modelo y no en la optimización del rendimiento del modelo o el rendimiento de la predicción de una clase determinada, no se tratará con más detalle el impacto del desequilibrio de clases en el rendimiento general. Todas las imágenes, incluidos los polígonos creados, se redimensionan tras la alteración a una anchura y altura de píxeles de 244 antes de cargarse en las redes neuronales, lo que da como resultado una forma de entrada de (244, 244, 3) .
Arquitectura del modelo base y preentrenado
En la configuración del experimento se utilizan dos modelos. Una CNN básica (bCNN) de desarrollo propio con 7,2 millones de euros así como una ResNet50 preentrenada (resnet) con 27,8 millones de euros parámetros. La bCNN consta de nueve capas convolucionales, cada una de las cuales está encapsulada por capas de normalización por lotes, agrupación y abandono (tarifa = 0.1) ). Un cuadrático tamaño_del_núcleo = 3 y como función de activación LeakyReLu con un α = 0,3. Tras el aplanamiento, se añaden dos capas densas ocultas, de nuevo acompañadas de normalización por lotes, capas de abandono (tarifa = 0,1 ) y el LeakyReLu función de activación (α = 0.3 ). Para la capa de salida, softmax se selecciona la función de activación. El modelo ResNet (He et al. 2015) se amplía con una única capa densa oculta (relu función de activación) y una capa de salida que utiliza la softmax función de activación. En GitHub se puede consultar una descripción detallada de la arquitectura del modelo.
Configuración de entrenamiento de modelos con CLR creciente
Las redes neuronales se entrenan para clasificar las imágenes a lo largo de múltiples iteraciones del experimento. En cada iteración, el CLR se incrementa gradualmente dentro de los datos de entrenamiento y el rendimiento del modelo se mide utilizando un conjunto de prueba no corrompido. La división aleatoria de los datos de prueba de entrenamiento es 77.5% a 22.5%El resultado es 13,700 imágenes para formación y 4,952 para las pruebas. Durante la fase de entrenamiento del modelo, los datos de entrenamiento se dividen aleatoriamente utilizando 20% (3,425 imágenes) de las imágenes de entrenamiento para la validación. El entrenamiento de un único modelo consiste en 20 epochs y tamaño de lote de 32. Cada iteración del experimento incluye el entrenamiento de ambos modelos en una de las tareas de clasificación (ya sean cuatro clases principales o 14 subclases) para diez CLR diferentes con 0% ≤ CLR ≤ 10% .
Dentro de cada ejecución, el CLR más alto incluye las etiquetas ya corrompidas del ratio anterior, es decir, 10% CLR incluye todas las etiquetas corruptas del 7.5% CLR que incluye todas las etiquetas corruptas del 5% CLR, etc. 20 iteraciones para cada tarea de clasificación, lo que da como resultado 800 modelos entrenados (véase el cuadro 2) y >400 horas de cálculo. El rendimiento del modelo de clasificación se midió mediante la exactitud, la precisión media ponderada, la recuperación media ponderada y la puntuación f1 media ponderada.
Parámetros del experimento | Estados de los parámetros del experimento | Nº de Estados |
---|---|---|
Modelo | bCNN, ResNet50 | 2 |
Tarea de clasificación | Clasificación de la clase principal, clasificación de subclases | 2 |
Ratio de etiquetas corruptas | 0.0%, 0.25%, 0.5%, 1.0%, 2.0%, 3.0%, 4.0%, 5.0%, 7.5%, 10.0% | 10 |
Iteraciones de formación | 20 | 20 |
= 800 modelos |
Resultados
Disminución del rendimiento del modelo basado en CLR
En general, el rendimiento del modelo disminuyó continuamente con el aumento del CLR. La precisión media de las pruebas fue de 0,842 (std = 0,016) para la bCNN con 14 clases y 0% CLR, mientras que la precisión media es de 0,878 (std = 0,064) para la misma tarea de clasificación y configuración CLR. La precisión media disminuye a 0,68 (std = 0,036 - bCNN, 10% CLR, predicción de 14 clases) y 0,76 (std = 0,04 - ResNet, 10% CLR, 14 predicción de clase).
* Número de resultados de modelos eliminados utilizando un umbral de puntuación z >3,0 calculado por métrica - de 800 resultados de modelos: exactitud de 8 modelos eliminados, precisión media ponderada de 2 modelos eliminados, recuperación media ponderada de 8 modelos eliminados, puntuación F1 media ponderada de 6 modelos eliminados. puntuación F1 de 6 modelos eliminados
Para la predicción de cuatro clases, la precisión media de la prueba bCNN con 0% CLR es 0,901 (std = 0.018). Para la misma configuración (0% CLR, predicción de cuatro clases), la ResNet alcanza una precisión media de 0,937 (std = 0.028 ). La precisión media disminuye a 0,789 (std = 0,072 - bCNN, 10% CLR, predicción de 4 clases) y 0,831 (std = 0.04 - ResNet, 10% CLR, predicción de 4 clases) respectivamente. La figura 5a ofrece una visión general del rendimiento de los distintos modelos y tareas de clasificación en función de las métricas de los datos de prueba.
No sólo una disminución constante de más de 10 puntos porcentuales para cada configuración en la precisión media, sino también un aumento de la varianza del rendimiento del modelo a medida que aumenta el CLR. Este comportamiento se mantiene para la precisión media ponderada, la recuperación media ponderada y la puntuación F1 media ponderada en todas las configuraciones. En el apéndice A se ofrece un resumen detallado.
Anomalías de rendimiento del modelo CLR de bajo nivel
Para la red neuronal ResNet entrenada con 14 la desviación estándar de la precisión, la recuperación media ponderada y la puntuación F1 media ponderada son sorprendentemente altas para un CLR de 0.0%, 0.25%, 0.5% y 1.0% en comparación con las otras configuraciones (figura 5a, para más detalles, véase el apéndice A). Al mismo tiempo, se puede reconocer una característica inusual en el cambio de rendimiento medio del CLR para la ResNet de 14 clases: un pico peculiar en las métricas de rendimiento de la prueba cuando sólo se corrompe deliberadamente un pequeño número de etiquetas, es decir, en CLR = 0,5%. Incluso cuando se eliminan los valores atípicos (véase la figura 5b), este patrón persiste.
La figura 6 muestra el delta de precisión media de cada configuración de entrenamiento en comparación con su línea de base media (modelo entrenado con 0% CLR para la misma tarea de clasificación). Para ambos modelos, bCNN y ResNet, puede observarse un nuevo estancamiento visual para los mismos CLR de nivel bajo (0,0% ≤ CLR ≤ 1,0% ) mencionado anteriormente cuando se entrenó para clasificar cuatro etiquetas, así como la ResNet entrenada en 14 clases.
Relación entre el rendimiento de la clasificación y el CLR
Se ejecutó una regresión lineal simple para sondear la predicción del CLR basada en una precisión dada, utilizando los resultados de la clasificación como entrada. La tabla 3 confirma una correlación negativa de moderada a fuerte entre la precisión de la prueba de clasificación (regresor) y el CLR (regresor) para todas las configuraciones del experimento con -0,75 ≤ 0,1 %. r ≤ -0,5, excepto para el modelo bCNN entrenado en 14 clases con una relación negativa muy fuerte de r < -0.9 .
Modelo | Tarea de clasificación | Pearson r | p-valor | Coeficiente | RMSE tren | Prueba RMSE |
---|---|---|---|---|---|---|
bCNN | 4 clases | -0.64758 | < 0.00001 | -2.15962 | 2.39808 | 2.77765 |
ResNet | 4 clases | -0.72335 | < 0.00001 | -2.32666 | 2.16245 | 2.31352 |
bCNN | 14 clases | -0.90859 | < 0.00001 | -2.86965 | 1.37372 | 1.17014 |
ResNet | 14 clases | -0.54147 | < 0.00001 | -1.51071 | 2.92637 | 2.16982 |
Los coeficientes, que pueden interpretarse como valores más altos que indican modelos más robustos y valores más bajos que indican modelos más susceptibles a las etiquetas falsas, muestran el mayor efecto de CLR en la precisión para la bCNN con 14 clases. Aunque los modelos utilizados para elegir y clasificar un menor número de clases obtienen un mejor rendimiento total de precisión, esta observación no se traduce automáticamente en una mayor robustez de los modelos con respecto a las etiquetas corruptas. Su rendimiento disminuye significativamente más rápido que el de la ResNet entrenada para reconocer 14 clases.
Debate
Con una mayor proporción de etiquetas corruptas en los datos de entrenamiento, el rendimiento del modelo se vuelve menos fiable. El rendimiento disminuye más rápidamente que en estudios similares anteriores (van Horn et al., 2015), lo que puede deberse a la complejidad comparativamente baja de la arquitectura del modelo utilizado en el presente estudio, medida por los parámetros que pueden entrenarse. Además, cuando el modelo debe clasificar menos tipos de clases, el rendimiento es mejor en los distintos niveles de CLR. Esto se debe probablemente a que las diferencias en las características, y por tanto en los patrones subyacentes utilizados para la diferenciación de clases, son mayores entre las clases principales que entre las subclases, especialmente entre las subclases que pertenecen a la misma clase principal. Es plausible que, a medida que aumenta la similitud (menos diferencias en los patrones subyacentes), disminuya el poder predictivo del modelo, independientemente del número de etiquetas falsificadas.
Los modelos con un mayor número de parámetros entrenables obtienen mejores resultados que los que tienen menos, en todos los niveles del CLR examinados. El tamaño de una red determina cuánto puede recordar en términos de patrones observados durante el entrenamiento. En este caso, un mayor número de parámetros entrenables conduce a un mejor reconocimiento de los patrones dentro de las imágenes, así como de la relación entre estos patrones y sus respectivas clases. Estos resultados respaldan investigaciones anteriores (Moosavi-Dezfooli et al. 2017; Pengfei Chen et al. 2019; Speth y Hand. Emily M. 2019; Wang et al. 2018; Yu et al. 2018; van Horn et al. 2015; Zhang et al. 2016). Dado que se implementó un modelo con parámetros preentrenados, se incrementó aún más el potencial para afinar el reconocimiento de patrones de relaciones ya aprendidas. Esto coincide con estudios anteriores (Chandeep Sharma 2022; Hassan et al. 2021; Hussain et al. 2019; Wang et al. 2019).
Una implicación del pico de rendimiento observado en valores bajos de CLR para algunas de las configuraciones experimentales estudiadas es que el modelo es más capaz de discriminar entre patrones frecuentes y menos frecuentes de imágenes correctamente etiquetadas de la misma clase cuando el número de imágenes mal etiquetadas es extremadamente bajo. De este modo, se incrementa la robustez para la clasificación de datos no vistos al centrarse en las diferencias de clase más importantes. Como no todas las configuraciones muestran este comportamiento, no se puede concluir con certeza esta implicación.
Al igual que la anomalía descrita anteriormente, la meseta en el rendimiento de la clasificación al mismo nivel bajo de CLR permite cierta interpretación. La inclusión de etiquetas falsas no disminuye inmediatamente el reconocimiento de patrones de los modelos, sino que apoya potencialmente la identificación de relaciones entre la imagen y las clases respectivas mediante la estimulación de patrones y el énfasis en las diferencias de clase. Sólo el modelo con menos parámetros entrenables por clases no muestra el comportamiento descrito y disminuye de forma constante. Basándose en estas observaciones, se podría llegar a la conclusión de que inyectar un número muy bajo de etiquetas corruptas en los datos de entrenamiento podría aumentar el rendimiento del modelo. Los resultados sugieren que esto sólo es factible si el modelo es lo suficientemente complejo en términos de proporción de parámetros entrenables por clase.
A partir de los resultados de la regresión, se puede hacer una estimación inicial sobre las etiquetas falsificadas existentes en un conjunto de datos, aunque se desconozca el CLR. Por ejemplo, los modelos entrenados en un conjunto de datos con un CLR incierto pueden volver a entrenarse insertando intencionadamente diferentes proporciones de etiquetas falsificadas. A continuación, se pueden hacer inferencias sobre los datos y su posible proporción de etiquetas falsificadas utilizadas en el modelo original. La fuerte correlación entre la precisión y el CLR podría servir potencialmente como indicador para predecir el número de etiquetas falsificadas y, por tanto, representa un resultado interesante para futuras investigaciones.
Conclusión
Este estudio se centra en el efecto de las etiquetas corruptas en los datos de entrenamiento de los modelos de clasificación de imágenes. En general, los modelos más complejos obtienen mejores resultados con distintos porcentajes de etiquetas corruptas en los datos de entrenamiento y en distintas tareas de clasificación que los modelos menos complejos. Al mismo tiempo, los resultados sugieren que la robustez no viene automáticamente acompañada de una mayor complejidad de la arquitectura del modelo, ya que la disminución del rendimiento del modelo no parece depender únicamente de la complejidad del modelo. Se observa un resultado sorprendente en una de las cuatro configuraciones de entrenamiento, lo que abre nuevos interrogantes. Los próximos estudios pueden basarse en los resultados actuales y centrarse en el estancamiento del rendimiento y el posible aumento a niveles muy bajos de las proporciones de etiquetas corruptas, potencialmente como una fuente para mejorar el rendimiento general del modelo.
Los datos demuestran que es posible utilizar la estrecha relación entre el rendimiento del modelo y la proporción de etiquetas corruptas para inferir CLR desconocidos en conjuntos de datos existentes insertando deliberadamente etiquetas corruptas y midiendo el cambio en el rendimiento. Se recomienda seguir validando esta hipótesis aumentando el número de arquitecturas de modelo medidas o probando configuraciones similares con diferentes conjuntos de datos.
Encuentre aquí todos los datos de este estudio.
Referencias
- Aha, David W.; Kibler, Dennis; Albert, Marc K. (1991): Algoritmos de aprendizaje basados en instancias. En: Aprender Mach 6 (1), PP. 37-66. DOI: 10.1007/BF00153759.
- Ali, Tenvir; Jhandhir, Zeeshan; Ahmad, Awais; Khan, Murad; Khan, Arif Ali; Choi, Gyu Sang (2017): Detección de etiquetado fraudulento de muestras de arroz utilizando visión por ordenador y conocimiento difuso. En: Herramientas Multimed Appl 76 (23), pp. 24675-24704. DOI: 10.1007/s11042-017-4472-9.
- Beigman, Eyal; Klebanov, Beata Beigman (2009): Learning with annotation noise. En: Keh-Yih Su (ed.): Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP: Volume 1. the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference. Suntec, Singapur, 8/2/2009 - 8/7/2009. Estados Unidos: Association for Computational Linguistics (ACM Digital Library), p. 280.
- Brady, Adrian; Laoide, Risteárd Ó.; McCarthy, Peter; McDermott, Ronan (2012): Discrepancia y error en radiología: conceptos, causas y consecuencias. En: Revista Médica del Ulster 81 (1), pp. 3-9. DOI: Reseña.
- Brodley, C. E.; Friedl, M. A. (1999): Identificación de datos de formación mal etiquetados. En: jair 11, pp. 131-167. DOI: 10.1613/jair.606.
- Busby, Lindsay P.; Courtier, Jesse L.; Glastonbury, Christine M. (2018): Sesgo en radiología: el cómo y el porqué de los fallos y las interpretaciones erróneas. En: Radiographics : una publicación de la Radiological Society of North America, Inc. 38 (1), pp. 236-247. DOI: 10.1148/rg.2018170107.
- Chandeep Sharma (2022): Comparison of CNN and Pre-trained models: A Study. En:. Comparison of CNN and Pre-trained models: A Study. Disponible en https://www.researchgate.net/publication/359850786_Comparison_of_CNN_and_Pre-trained_models_A_Study.
- Cohen, Joseph Paul; Hashir, Mohammad; Brooks, Rupert; Bertrand, Hadrien (2020): On the limits of cross-domain generalization in automated X-ray prediction. Disponible en http://arxiv.org/pdf/2002.02497v2.
- Esteva, Andre; Kuprel, Brett; Novoa, Roberto A.; Ko, Justin; Swetter, Susan M.; Blau, Helen M.; Thrun, Sebastian (2017): Clasificación de cáncer de piel a nivel dermatológico con redes neuronales profundas. En: Naturaleza 542 (7639), pp. 115-118. DOI: 10.1038/nature21056.
- Griffith, S. P.; Freeman, W. L.; Shaw, C. J.; Mitchell, W. H.; Olden, C. R.; Figgs, L. D. et al. (1993): Screening for diabetic retinopathy in a clinical setting: a comparison of direct ophthalmoscopy by primary care physicians with fundus photography. En: Revista de medicina de familia 37 (1), pp. 49-56. DOI: Estudio.
- Guan, Melody; Gulshan, Varun; Dai, Andrew; Hinton, Geoffrey (2018): Quién dijo qué: Modelar etiquetadores individuales mejora la clasificación. En: AAAI 32 (1). DOI: 10.1609/aaai.v32i1.11756.
- Hassan, Sk Mahmudul; Maji, Arnab Kumar; Jasiński, Michał; Leonowicz, Zbigniew; Jasińska, Elżbieta (2021): Identification of Plant-Leaf Diseases Using CNN and Transfer-Learning Approach. En: Electrónica 10 (12), p. 1388. DOI: 10.3390/electronics10121388.
- He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015): Aprendizaje residual profundo para el reconocimiento de imágenes. Disponible en https://arxiv.org/pdf/1512.03385.
- Winther, Hinrich B.; Laser, Hans; Gerbel, Svetlana; Maschke, Sabine K.; B. Hinrichs, Jan; Vogel-Claussen, Jens; et al. (2020): Repositorio de imágenes COVID-19. figshare. Dataset. https://doi.org/10.6084/m9.figshare.12275009.v1
- Hussain, Mahbub; Bird, Jordan J.; Faria, Diego R. (2019): Un estudio sobre el aprendizaje de transferencia CNN para la clasificación de imágenes. En:. UK Workshop on Computational Intelligence: Springer, Cham, pp. 191-202. Disponible en https://link.springer.com/chapter/10.1007/978-3-319-97982-3_16.
- Joulin, Armand; van der Maaten, Laurens; Jabri, Allan; Vasilache, Nicolas (2016): Aprendizaje de características visuales a partir de grandes datos débilmente supervisados. En:. European Conference on Computer Vision: Springer, Cham, pp. 67-84. Disponible en https://link.springer.com/chapter/10.1007/978-3-319-46478-7_5.
- Karimi, Davood; Dou, Haoran; Warfield, Simon K.; Gholipour, Ali (2020): Aprendizaje profundo con etiquetas ruidosas: explorando técnicas y remedios en el análisis de imágenes médicas. En: Análisis de imágenes médicas 65, p. 101759. DOI: 10.1016/j.media.2020.101759.
- Krause, Jonathan; Sapp, Benjamin; Howard, Andrew; Zhou, Howard; Toshev, Alexander; Duerig, Tom et al. (2015): The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition. Disponible en https://arxiv.org/pdf/1511.06789.
- Krizhevsky, Alex (2009): Aprendizaje de múltiples capas de características a partir de imágenes diminutas. Disponible en http://www.cs.utoronto.ca/~kriz/learning-features-2009-tr.pdf.
- Le, Quoc V. (2013 - 2013): Building high-level features using large scale unsupervised learning. En: Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. ICASSP 2013 - 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Vancouver, BC, Canada, 5/26/2013 - 5/31/2013: IEEE, pp. 8595-8598.
- Liu, Sheng; Niles-Weed, Jonathan; Razavian, Narges; Fernandez-Granda, Carlos (2020): Early-Learning Regularization Prevents Memorization of Noisy Labels. Disponible en https://arxiv.org/pdf/2007.00151.
- Manwani, Naresh; Sastry, P. S. (2011): Tolerancia al ruido bajo minimización de riesgos (3). Disponible en https://arxiv.org/pdf/1109.5231.
- McKenna, Martha; Chen, Tingting; McAneney, Helen; Vázquez Membrillo, Miguel Ángel; Jin, Ling; Xiao, Wei et al. (2018): Precisión de oftalmólogos rurales capacitados frente a calificadores de imágenes no médicos en el diagnóstico de la retinopatía diabética en zonas rurales de China. En: Revista británica de oftalmología 102 (11), pp. 1471-1476. DOI: 10.1136/bjophthalmol-2018-312440.
- Misra, Ishan; Zitnick, C. Lawrence; Mitchell, Margaret; Girshick, Ross (2015): Seeing through the Human Reporting Bias: Clasificadores visuales a partir de etiquetas ruidosas centradas en humanos. Disponible en https://arxiv.org/pdf/1512.06974.
- Moosavi-Dezfooli, Seyed-Mohsen; Fawzi, Alhussein; Fawzi, Omar; Frossard, Pascal (2017): Perturbaciones adversariales universales. En: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): IEEE.
- Natarajan, Nagarajan; Dhillon, Inderjit S.; Ravikumar, Pradeep K.; Tewari, Ambuj (2013): Aprendizaje con etiquetas ruidosas. En: Avances en sistemas de procesamiento neuronal de la información 26. Disponible en https://proceedings.neurips.cc/paper/5073-learning-with-noisy-labels.
- Oakden-Rayner, Luke (2019): Exploración de conjuntos de datos de imágenes médicas públicas a gran escala. Disponible en https://arxiv.org/pdf/1907.12720.
- Olatunji, Tobi; Yao, Li; Covington, Ben; Rhodes, Alexander; Upton, Anthony (2019): Cautelas en la generación de etiquetas de imágenes médicas a partir de informes de radiología. Disponible en https://arxiv.org/pdf/1905.02283.
- Patel, Bhavik N.; Rosenberg, Louis; Willcox, Gregg; Baltaxe, David; Lyons, Mimi; Irvin, Jeremy et al. (2019): Asociación humano-máquina con inteligencia artificial para el diagnóstico de radiografías de tórax. En: Medicina digital NPJ 2, p. 111. DOI: 10.1038/s41746-019-0189-7.
- Pechenizkiy, M.; Tsymbal, A.; Puuronen, S.; Pechenizkiy, O. (2006): Class Noise and Supervised Learning in Medical Domains: The Effect of Feature Extraction. En: 19th IEEE Symposium on Computer-Based Medical Systems (CBMS'06). Actas. 19th IEEE International Symposium on Computer-Based Medical Systems. Salt Lake City, UT: IEEE, pp. 708-713.
- Pengfei Chen; Ben Ben Liao; Guangyong Chen; Shengyu Zhang (2019): Comprensión y utilización de redes neuronales profundas entrenadas con etiquetas ruidosas. En: Conferencia Internacional sobre Aprendizaje Automático, pp. 1062-1070. Disponible en http://proceedings.mlr.press/v97/chen19g.html?ref=https://githubhelp.com.
- Pinto, Lerrel; Gandhi, Dhiraj; Han, Yuanfeng; Park, Yong-Lae; Gupta, Abhinav (2016): El robot curioso: Aprendizaje de representaciones visuales a través de interacciones físicas. En:. European Conference on Computer Vision: Springer, Cham, pp. 3-18. Disponible en https://link.springer.com/chapter/10.1007/978-3-319-46475-6_1.
- Quinlan, J. R. (1986): Inducción de árboles de decisión. En: Aprender Mach 1 (1), PP. 81-106. DOI: 10.1007/BF00116251.
- Rajpurkar, Pranav; Irvin, Jeremy; Zhu, Kaylie; Yang, Brandon; Mehta, Hershel; Duan, Tony et al. (2017): CheXNet: Detección de neumonía a nivel de radiólogo en radiografías de tórax con aprendizaje profundo. Disponible en http://arxiv.org/pdf/1711.05225v3.
- Reed, Scott; Lee, Honglak; Anguelov, Dragomir; Szegedy, Christian; Erhan, Dumitru; Rabinovich, Andrew (2014): Training Deep Neural Networks on Noisy Labels with Bootstrapping. Disponible en https://arxiv.org/pdf/1412.6596.
- Rolnick, David; Veit, Andreas; Belongie, Serge; Shavit, Nir (2017): El aprendizaje profundo es robusto al ruido masivo de etiquetas. Disponible en http://arxiv.org/pdf/1705.10694v3.
- Skalak, David B. (1994): Prototype and Feature Selection by Sampling and Random Mutation Hill Climbing Algorithms. En: Willian Cohen y Haym Hirsh (eds.): Machine Learning. Actas de la Undécima Conferencia Internacional (ML 94). San Mateo, CA: Morgan Kaufmann, pp. 293-301.
- Smyth, Padhraic (1996): Bounds on the mean classification error rate of multiple experts. En: Cartas de reconocimiento de patrones 17 (12), PP. 1253-1257. DOI: 10.1016/0167-8655(96)00105-5.
- Song, Hwanjun; Kim, Minseok; Park, Dongmin; Shin, Yooju; Lee, Jae-Gil (2022): Learning From Noisy Labels With Deep Neural Networks: A Survey. En: Transacciones del IEEE sobre redes neuronales y sistemas de aprendizaje PP. DOI: 10.1109/TNNLS.2022.3152527.
- Speth, Jeremy; Hand. Emily M. (2019): Identificación automatizada de ruido de etiquetas para el reconocimiento de atributos faciales. Disponible en https://openaccess.thecvf.com/content_cvprw_2019/papers/uncertaintyandrobustnessindeepvisuallearning/speth_automated_label_noise_identification_for_facial_attribute_recognition_cvprw_2019_paper.pdf.
- Stephen, Okeke; Sain, Mangal; Maduh, Uchenna Joseph; Jeong, Do-Un (2019): Un enfoque eficiente de aprendizaje profundo para la clasificación de neumonía en la atención médica. En: Revista de ingeniería sanitaria 2019, P. 4180949. DOI: 10.1155/2019/4180949.
- Sukhbaatar, Sainbayar; Bruna, Joan; Paluri, Manohar; Bourdev, Lubomir; Fergus, Rob (2014): Training Convolutional Networks with Noisy Labels (Entrenamiento de redes convolucionales con etiquetas ruidosas). Disponible en https://arxiv.org/pdf/1406.2080.
- Sussman, E. J.; Tsiaras, W. G.; Soper, K. A. (1982): Diagnóstico de la enfermedad diabética ocular. En: JAMA 247 (23), S. 3231-3234.
- van Horn, Grant; Branson, Steve; Farrell, Ryan; Haber, Scott; Barry, Jessie; Ipeirotis, Panos et al. (2015): Building a bird recognition app and large scale dataset with citizen scientists: the fine print in fine-grained dataset collection. En: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 de junio de 2015, [Boston, MA, Estados Unidos]. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA, 6/7/2015 - 6/12/2015. [Piscataway (NJ): IEEE Computer Society], pp. 595-604.
- Varshni, Dimpy; Thakral, Kartik; Agarwal, Lucky; Nijhawan, Rahul; Mittal, Ankush (2019): Detección de neumonía usando extracción de características basada en CNN. En: 2019 Conferencia internacional del IEEE sobre tecnologías eléctricas, informáticas y de comunicaciones (ICECCT). 2019 Conferencia internacional del IEEE sobre tecnologías eléctricas, informáticas y de comunicación (ICECCT). Coimbatore, India, 20 feb 2019 - 22 feb 2019: IEEE, PP. 1-7.
- Veit, Andreas; Alldrin, Neil; Chechik, Gal; Krasin, Ivan; Gupta, Abhinav; Belongie, Serge (2017): Aprendizaje a partir de conjuntos de datos ruidosos a gran escala con supervisión mínima. En: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR): IEEE.
- Veit, Andreas; Wilber, Michael; Belongie, Serge (2016): Las redes residuales se comportan como conjuntos de redes relativamente superficiales. Disponible en https://arxiv.org/pdf/1605.06431.
- Wang, Fei; Chen, Liren; Li, Cheng; Huang, Shiyao; Chen, Yanjie; Qian, Chen; Loy, Chen Change (2018): El diablo del reconocimiento facial está en el ruido. En: Vittorio Ferrari (Ed.): Computer vision - ECCV 2018. 15th European conference, Múnich, Alemania, 8-14 de septiembre de 2018 : proceedingsnPart 9. Cham: Springer (Lecture notes in computer science, 11213), pp. 780-795.
- Wang, Shui-Hua; Xie, Shipeng; Chen, Xianqing; Guttery, David S.; Tang, Chaosheng; Sun, Junding; Zhang, Yu-Dong (2019): Identificación de alcoholismo basada en un modelo de aprendizaje de transferencia AlexNet. En: Fronteras de la psiquiatría 10, p. 205. DOI: 10.3389/fpsyt.2019.00205.
- Wang, Xiaolong; Gupta, Abhinav (2015): Aprendizaje no supervisado de representaciones visuales usando vídeos. En: 2015 IEEE International Conference on Computer Vision (ICCV): IEEE.
- Xiao, Tong; Xia, Tian; Yang, Yi; Huang, Chang; Wang, Xiaogang (2015): Aprendizaje a partir de datos etiquetados masivos ruidosos para la clasificación de imágenes. En: 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 7-12 de junio de 2015, [Boston, MA, Estados Unidos]. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA, 6/7/2015 - 6/12/2015. [Piscataway (NJ): IEEE Computer Society], pp. 2691-2699.
- Yang, Dahou; Subramanian, Gowtham; Duan, Jinming; Gao, Shaobing; Bai, Li; Chandramohanadas, Rajesh; Ai, Ye (2017): Un citómetro portátil basado en imágenes para la detección y cuantificación rápida de la malaria. En: PloS one 12 (6), e0179161. DOI: 10.1371/journal.pone.0179161.
- Yu, Xiyu; Liu, Tongliang; Gong, Mingming; Zhang, Kun; Batmanghelich, Kayhan; Tao, Dacheng (2018): Aprendizaje de transferencia con ruido de etiqueta: arXiv.
- Zhang, Chiyuan; Bengio, Samy; Hardt, Moritz; Recht, Benjamin; Vinyals, Oriol (2016): Entender el aprendizaje profundo requiere repensar la generalización. Disponible en https://arxiv.org/pdf/1611.03530.
- Zhu, Xingquan; Wu, Xindong (2004): Class Noise vs. Attribute Noise: A Quantitative Study. En: Revisión de la Inteligencia Artificial 22 (3), pp. 177-210. DOI: 10.1007/s10462-004-0751-8.
Apéndice A - Métricas de clasificación
Modelo | Clases | Relación (%) | Precisión - media | Puntuación F1 media ponderada - media | Precisión media ponderada - media | Recuperación media ponderada - media | Precisión - std | Puntuación f1 media ponderada - std | Precisión media ponderada - std | Recuperación media ponderada - std |
---|---|---|---|---|---|---|---|---|---|---|
bCNN | 14 | 0 | 0.841585 | 0.841569 | 0.856274 | 0.841585 | 0.015765 | 0.016428 | 0.011858 | 0.015765 |
bCNN | 14 | 0.25 | 0.834243 | 0.833636 | 0.849078 | 0.834243 | 0.018119 | 0.016862 | 0.010445 | 0.018119 |
bCNN | 14 | 0.5 | 0.833151 | 0.83232 | 0.851727 | 0.833151 | 0.023118 | 0.024443 | 0.017886 | 0.023118 |
bCNN | 14 | 1 | 0.826751 | 0.824182 | 0.840438 | 0.826751 | 0.018587 | 0.020629 | 0.016899 | 0.018587 |
bCNN | 14 | 2 | 0.80913 | 0.806645 | 0.826534 | 0.80913 | 0.020547 | 0.022943 | 0.018127 | 0.020547 |
bCNN | 14 | 3 | 0.802899 | 0.799414 | 0.823501 | 0.802899 | 0.014477 | 0.012963 | 0.009651 | 0.014477 |
bCNN | 14 | 4 | 0.774605 | 0.770601 | 0.801667 | 0.774605 | 0.023745 | 0.026735 | 0.017696 | 0.023745 |
bCNN | 14 | 5 | 0.771367 | 0.77033 | 0.799715 | 0.771367 | 0.020306 | 0.018644 | 0.012359 | 0.020306 |
bCNN | 14 | 7.5 | 0.73366 | 0.729435 | 0.765726 | 0.73366 | 0.026668 | 0.023696 | 0.015436 | 0.026668 |
bCNN | 14 | 10 | 0.680102 | 0.678463 | 0.738586 | 0.680102 | 0.035719 | 0.03411 | 0.029199 | 0.035719 |
bCNN | 4 | 0 | 0.90064 | 0.90043 | 0.909698 | 0.90064 | 0.016816 | 0.017951 | 0.011357 | 0.016816 |
bCNN | 4 | 0.25 | 0.883076 | 0.881632 | 0.895888 | 0.883076 | 0.030711 | 0.033535 | 0.024019 | 0.030711 |
bCNN | 4 | 0.5 | 0.885072 | 0.885436 | 0.896021 | 0.885072 | 0.034272 | 0.034266 | 0.02338 | 0.034272 |
bCNN | 4 | 1 | 0.888554 | 0.88929 | 0.898819 | 0.888554 | 0.026146 | 0.024604 | 0.016208 | 0.026146 |
bCNN | 4 | 2 | 0.874172 | 0.873042 | 0.888647 | 0.874172 | 0.035609 | 0.03735 | 0.024418 | 0.035609 |
bCNN | 4 | 3 | 0.877805 | 0.875302 | 0.887272 | 0.877805 | 0.025013 | 0.028107 | 0.018683 | 0.025013 |
bCNN | 4 | 4 | 0.85209 | 0.849806 | 0.867463 | 0.85209 | 0.032318 | 0.034461 | 0.022245 | 0.032318 |
bCNN | 4 | 5 | 0.83125 | 0.828942 | 0.853832 | 0.83125 | 0.051635 | 0.055876 | 0.031775 | 0.051635 |
bCNN | 4 | 7.5 | 0.809846 | 0.806584 | 0.835089 | 0.809846 | 0.057421 | 0.062427 | 0.027209 | 0.057421 |
bCNN | 4 | 10 | 0.788874 | 0.785768 | 0.828895 | 0.788874 | 0.071561 | 0.075434 | 0.034534 | 0.071561 |
ResNet | 14 | 0 | 0.877937 | 0.876813 | 0.894809 | 0.877937 | 0.063885 | 0.065784 | 0.044438 | 0.063885 |
ResNet | 14 | 0.25 | 0.84503 | 0.846851 | 0.881667 | 0.84503 | 0.092582 | 0.08707 | 0.044718 | 0.092582 |
ResNet | 14 | 0.5 | 0.890757 | 0.890049 | 0.903257 | 0.890757 | 0.035435 | 0.03872 | 0.024877 | 0.035435 |
ResNet | 14 | 1 | 0.846404 | 0.842625 | 0.877276 | 0.846404 | 0.117977 | 0.133892 | 0.046202 | 0.117977 |
ResNet | 14 | 2 | 0.864401 | 0.865366 | 0.882305 | 0.864401 | 0.028041 | 0.025746 | 0.017496 | 0.028041 |
ResNet | 14 | 3 | 0.844635 | 0.845458 | 0.86419 | 0.844635 | 0.034156 | 0.034433 | 0.023673 | 0.034156 |
ResNet | 14 | 4 | 0.826845 | 0.82875 | 0.85409 | 0.826845 | 0.024981 | 0.025226 | 0.019944 | 0.024981 |
ResNet | 14 | 5 | 0.815136 | 0.816168 | 0.839149 | 0.815136 | 0.022655 | 0.021114 | 0.017676 | 0.022655 |
ResNet | 14 | 7.5 | 0.77564 | 0.7764 | 0.806798 | 0.77564 | 0.03182 | 0.030592 | 0.017621 | 0.03182 |
ResNet | 14 | 10 | 0.759902 | 0.757283 | 0.785185 | 0.759902 | 0.04012 | 0.039818 | 0.030053 | 0.04012 |
ResNet | 4 | 0 | 0.937293 | 0.937203 | 0.942557 | 0.937293 | 0.028026 | 0.028343 | 0.021526 | 0.028026 |
ResNet | 4 | 0.25 | 0.934601 | 0.934833 | 0.940729 | 0.934601 | 0.028955 | 0.02855 | 0.01846 | 0.028955 |
ResNet | 4 | 0.5 | 0.920633 | 0.920504 | 0.930877 | 0.920633 | 0.029071 | 0.029474 | 0.019921 | 0.029071 |
ResNet | 4 | 1 | 0.916999 | 0.917056 | 0.927508 | 0.916999 | 0.041602 | 0.041808 | 0.028402 | 0.041602 |
ResNet | 4 | 2 | 0.92148 | 0.921242 | 0.926384 | 0.92148 | 0.02539 | 0.026496 | 0.021056 | 0.02539 |
ResNet | 4 | 3 | 0.915644 | 0.915653 | 0.919914 | 0.915644 | 0.024833 | 0.02517 | 0.021372 | 0.024833 |
ResNet | 4 | 4 | 0.883151 | 0.88214 | 0.893619 | 0.883151 | 0.032576 | 0.035687 | 0.023465 | 0.032576 |
ResNet | 4 | 5 | 0.87244 | 0.871402 | 0.88391 | 0.87244 | 0.041492 | 0.043127 | 0.033444 | 0.041492 |
ResNet | 4 | 7.5 | 0.846141 | 0.844722 | 0.858183 | 0.846141 | 0.034155 | 0.035994 | 0.026663 | 0.034155 |
ResNet | 4 | 10 | 0.830873 | 0.830042 | 0.842399 | 0.830873 | 0.039727 | 0.040315 | 0.039217 | 0.039727 |
0 comentarios