¿Qué es Random Forest?
Random Forest describe un algoritmo en el campo de la aprendizaje automático o el inteligencia artificialque es para Tareas de clasificación o regresión puede aplicarse. La clasificación o categorización consiste en clasificar o asignar una variable a una clase determinada. La regresión, por su parte, pretende estimar los valores de una variable basándose en su dependencia de otras variables.
El término Bosque Aleatorio fue introducido por el estadístico Leo Breiman y se basa en el uso de árboles de decisión. Al crear muchos árboles de decisión aleatorios, se crea un "bosque aleatorio" de árboles.
¿Cómo funciona un bosque aleatorio?
Para crear un bosque de árboles, primero hay que generar muchos árboles de decisión individuales. Estos La creación no está correlacionada y es aleatoria. Cada árbol consta de varias ramas/nodos, que finalmente dan lugar a un punto final/hoja/clase tras varios niveles. Un clasificador asigna el objeto de datos a una clase, que se vuelve a clasificar en la siguiente rama hasta que el objeto llega a un punto final.
Para evitar que los árboles de decisión se correlacionen entre sí, se aplica el denominado principio de bagging (abreviatura de bootstrap aggregation). Para ello, los árboles de decisión se crean utilizando el método Datos de formación varias veces con distribuciones diferentes. Esta varianza de los respectivos nodos de decisión es para excluir una correlación de los árboles de decisión entre sí.
Tras crear el número definido de árboles de decisión, el algoritmo funciona basándose en el método ensemble, considerando múltiples árboles de decisión para la predicción. Este método tiene la ventaja sobre el uso de un único árbol de decisión de que las decisiones de un gran número de predictores pueden contrarrestar los valores atípicos y aumentar así la fiabilidad del resultado. Así, la predicción de un regresor de bosque aleatorio corresponde a la media de las predicciones de los árboles de decisión individuales.
Random Forest pertenece básicamente a la categoría de los llamados Aprendizaje supervisado (aprendizaje supervisado). En este tipo de aprendizaje automático, los datos de entrenamiento del algoritmo están etiquetados, lo que significa que los datos de entrada ya están asignados a los datos de destino correctos. A partir de ahí, se supone que el sistema aprende a predecir correctamente los nuevos datos.
¿En qué software se puede implementar un bosque aleatorio?
Entre otras cosas, el método puede utilizarse en Scikit-learn, Lenguaje de programación RH2O o Weka.
- En Scikit-learn es una biblioteca de Python que se utiliza principalmente para algoritmos de clasificación y regresión, así como para visualizaciones en el campo del aprendizaje automático.
- En Lenguaje de programación R está clasificado como lenguaje interpretado, se desarrolló para cálculos estáticos y se utiliza mucho para cálculos estadísticos tanto en ciencia como en empresa. El nombre R se remonta a la primera letra del nombre de pila de sus fundadores Ross Ihaka y Robert Gentleman, así como a la simplicidad del lenguaje de programación S, en el que se basa en gran medida la sintaxis de R.
- H2O es un software de código abierto de la empresa H2O.ai y se utiliza principalmente para algoritmos en el campo de la estadística y el aprendizaje automático. El software también puede utilizarse en Microsoft Excel a través de una API, por ejemplo. Durante el cálculo del algoritmo, se muestran resultados aproximados, de modo que los parámetros pueden seguir modificándose durante el proceso de cálculo. La visualización del método es, en general, una de sus ventajas.
- Weka (Entorno Waikato para el análisis del conocimiento) fue desarrollado por la Universidad de Waikato en Nueva Zelanda y ofrece soluciones para las clasificaciones y en la Análisis de conglomerados también ámbitos de aplicación en redes neuronalesque puede combinarse con la aplicación de Random Forest.