El abanico de tareas que puede aprender una máquina es muy amplio. En general, distinguimos tres formas distintas en las que una máquina puede aprender estas tareas: Aprendizaje supervisadoAprendizaje no supervisado y aprendizaje por refuerzo. Esencialmente, los tres tipos de aprendizaje se diferencian en dos aspectos: 

  • Naturaleza y existencia de las denominadas variables objetivo
  • El modo en que se entrenan los modelos 

El aprendizaje por refuerzo es la tercera forma principal de aprendizaje de una máquina. El objetivo del aprendizaje por refuerzo es que un modelo tome decisiones óptimas en un entorno determinado. Por ejemplo, un algoritmo de aprendizaje por refuerzo para la conducción autónoma tendría como objetivo tomar decisiones que garanticen que todo el tráfico es seguro y fluye sin problemas. A diferencia del aprendizaje supervisado y no supervisado, en el que utilizamos datos existentes, el aprendizaje por refuerzo sitúa el modelo en un entorno que debe explorar por sí mismo y generar datos en el proceso. Esto puede compararse con una simulación. 

El aprendizaje por refuerzo atrae cada vez más la atención de la comunidad del aprendizaje automático. A diferencia de otros tipos de aprendizaje, no depende de la disponibilidad de datos existentes, ya que genera sus propios datos mediante simulaciones y, por tanto, puede utilizarse en una gran variedad de situaciones diferentes. Aunque el aprendizaje por refuerzo aún está en fase de investigación, podemos esperar que se utilice en avances revolucionarios en el desarrollo de la IA. 

La idea principal del aprendizaje por refuerzo es situar a un agente (software) en un entorno en el que pueda realizar acciones para maximizar el mejor efecto posible para sí mismo.