¿Qué es el aprendizaje por diferencia temporal?
El aprendizaje por diferencia temporal (también llamado aprendizaje TD) describe una versión del aprendizaje por refuerzo.Es uno de los tres métodos de aprendizaje del aprendizaje automático, junto con el aprendizaje supervisado y el aprendizaje no supervisado.
Al igual que otros métodos de aprendizaje por refuerzo, el Aprendizaje por Diferencias Temporales no requiere que el algoritmo de aprendizaje tenga un punto de partida o de partida. Datos de formación necesario. El sistema, o un agente de software, aprende a través de un proceso de ensayo y error en el que recibe una recompensa por una secuencia de decisiones/acciones y alinea y ajusta su estrategia futura en consecuencia. El modelo del algoritmo se basa en el problema de decisión de Markov, en el que el beneficio para un agente software resulta de una secuencia de acciones.
A diferencia de otros métodos de aprendizaje, en el aprendizaje TD la función de evaluación se actualiza con la recompensa adecuada después de cada acción individual, en lugar de después de que se haya completado una secuencia de acciones. De este modo, la estrategia se aproxima iterativamente a la función óptima. Este proceso se denomina bootstrapping o jactancia y su objetivo es reducir la varianza en la búsqueda de una solución.
¿Qué algoritmos existen en el aprendizaje por TD?
Dentro del Aprendizaje por Diferencias Temporales, existen varios algoritmos para aplicar el método.
En Q-Learning el agente software evalúa la utilidad de una acción a realizar en lugar del nivel de utilidad de un estado y selecciona la acción con el mayor incremento de utilidad basándose en la función de evaluación actual. Por ello, el aprendizaje Q se denomina "función acción-valor" en lugar de "función estado-valor".
También con SARSA (abreviatura de "estado-acción-recompensa-estado-acción") es un algoritmo con una función de acción-valor. Además de esta similitud con Q-learning, SARSA se diferencia de Q-learning en que Q-learning es un algoritmo off-policy, mientras que SARSA es un algoritmo on-policy. En el caso de un algoritmo off-policy, se tiene en cuenta el estado siguiente para determinar la acción, mientras que en el caso de un algoritmo on-policy, el algoritmo tiene en cuenta tanto el estado siguiente como su acción actual y el agente se mantiene así fiel a su estrategia para calcular la acción posterior. Los algoritmos considerados hasta ahora sólo tienen en cuenta la recompensa inmediata de la acción siguiente.
Con la llamada Métodos TD de n pasos por otro lado, se incluyen las recompensas de los n pasos siguientes.
En TD Lambda TD(λ) es una extensión del algoritmo de aprendizaje por diferencia temporal. Existe la posibilidad de que no sólo un único estado conduzca al ajuste de la función de evaluación, sino que dentro de una secuencia puedan ajustarse los valores de varios estados. La tasa de decaimiento λ regula el alcance del posible cambio para cada estado individual, por lo que esta cantidad se aleja del estado considerado con cada iteración y disminuye exponencialmente. TD-Lambda también puede aplicarse a los métodos de aprendizaje Q y SARSA.
¿Para qué se utilizan estos algoritmos en la práctica?
Los ámbitos de aplicación del Aprendizaje por Diferencias Temporales en el contexto de los métodos de aprendizaje por refuerzo son múltiples. Un ejemplo llamativo de su uso es el juego TD-Gammon, que se basa en el juego Backgammon y se desarrolló utilizando un algoritmo TD-Lambda. Lo mismo puede decirse del juego AlphaGoque se basa en el juego de mesa japonés Go.
Una aplicación del Q-learning se encuentra en el marco del conducción autónoma en el tráfico rodado, ya que el sistema aprende de forma autónoma estrategias de adelantamiento y cambios de carril sin colisiones y, a continuación, mantiene una velocidad constante.
SARSA, por su parte, puede utilizarse para detectar fraudes con tarjetas de crédito, por ejemplo. El método SARSA calcula el algoritmo de detección del fraude, mientras que el método Clasificación- y Método de regresión de un Bosque aleatorio optimizar la precisión de la predicción de impagos de tarjetas de crédito.