¿Qué es el bootstrapping?
El proceso de bootstrapping consiste en un método estadístico para estimar las funciones de distribuciónen el que se utiliza el denominado procedimiento de remuestreo. El remuestreo describe un procedimiento consistente en extraer repetidamente submuestras de una muestra inicial para obtener conclusiones sobre variables de la función de distribución original, como la media o la desviación típica.
El bootstrapping se utiliza cuando no se conoce la función de distribución de una estadística y, por tanto, debe estimarse. El requisito previo para el modo de funcionamiento es un determinado tamaño de la muestra inicial.
El nombre bootstrapping procede de la palabra inglesa bootstrap y tiene su origen en la historia del barón von Münchhausen. Como, según la historia, el barón von Münchhausen se sacó a sí mismo del pantano con sus propias botas, esta metáfora también se retoma para el método, en el sentido de que en el método bootstrap la submuestra se extrae de la propia muestra.
¿Qué son los métodos estadísticos en el bootstrapping?
Dado que el bootstrapping sólo describe un procedimiento general en estadística, también se han desarrollado diferentes procedimientos concretos de bootstrapping para distintos ámbitos de aplicación. En i.i.d Bootstrap (independiente e idénticamente distribuida), por ejemplo, el procedimiento consiste en extraer repetidamente un determinado tamaño de submuestra de la muestra inicial con reserva. Tras extraer el número definido de repeticiones de la muestra, la distribución aproximada puede utilizarse para generar un intervalo de confianza.
Dado que el bootstrap i.i.d no puede representar una correlación temporal de los datos, para estos casos se utiliza lo siguiente Bloque de arranque . En este método, los datos se dividen en bloques contiguos en un paso preparatorio. Al dividir la función de serie temporal de tendencia en un componente de tendencia y otro residual, se crea la base para llevar a cabo el método. La parte residual corresponde a la diferencia entre el punto de medición y el de estimación respectivos. Mediante la función de arrastrar y soltar, se dibujan repetidamente bloques residuales hasta alcanzar la longitud de la señal original o de la muestra inicial y, a continuación, se añaden a la serie temporal de tendencia. Aplicando repetidamente esta repetición de muestras, se puede representar finalmente con este procedimiento una función de correlación temporal mediante un bootstrap.
A diferencia de los métodos de bootstrappin no paramétricog, el bootstrapping paramétrico asume una determinada distribución de la muestra inicial. El bootstrapping no paramétrico aprovecha el hecho de la estadística no paramétrica de que para su aplicación no se hacen suposiciones sobre la distribución, ya que ésta sólo surge de la muestra considerada. En bootstrapping paramétrico uno se concentra en estimar los parámetros de la distribución supuesta.
¿Dónde se utiliza el proceso en el aprendizaje automático?
En la zona del aprendizaje automático el procedimiento se lleva a cabo en el marco del denominado Embolsado (abreviatura de "bootstrap aggregating"). El ensacado se utiliza en particular para Regresiones- y Árboles de clasificación El bootstrap se utiliza para reducir la varianza y mejorar así los valores de predicción. El bootstrapping se utiliza en el bagging para extraer muestras (bootstrap), que se entrenan con el modelo de predicción y finalmente se agregan a un valor de predicción (agregación). También en el ámbito de Aprendizaje por diferencias temporales en el entorno del aprendizaje por refuerzo, el procedimiento se utiliza optimizando iterativamente la función objetivo mediante la reducción de la varianza.
En Lenguaje de programación R ofrece una implementación para bootstrapping no paramétrico. Especificando los parámetros, se pueden calcular variables o vectores individuales. En un paso siguiente, también se pueden determinar los intervalos de confianza asociados.
Los programas estadísticos como SPPS de IBM o Stata también ofrecen procedimientos de aplicación de bootstrapping ampliamente automatizados. SPSS ofrece incluso un módulo propio con muchas funcionalidades. Tras introducir los parámetros individuales, se estima la distribución de muestreo utilizando el método descrito.