Inhaltsverzeichnis
Introducción
La inteligencia artificial (IA) está revolucionando muchas facetas de nuestra vida cotidiana y es un motor clave de los avances actuales en los negocios y la industria. Hoy en día, los algoritmos basados en IA resuelven problemas tediosos y casos de uso de forma inteligente y eficiente, superando a menudo el rendimiento humano en diversas áreas. El campo de la Aprendizaje por refuerzo (RL) es un pilar central de las aplicaciones modernas de IA. Abarca desde agentes de RL que vencen a jugadores humanos en juegos complejos como el Go o el ajedrez hasta modelos lingüísticos de última generación como el ChatGPT. No es de extrañar que la RL también suscite un interés creciente en la industria. El objetivo de este artículo es ofrecer una visión general de la aplicación de la RL en la industria y discutir el gran potencial de la RL como herramienta de optimización para diversos problemas empresariales.
Existen varios algoritmos de aprendizaje automático (AM) utilizados en la industria. En Aprendizaje supervisado (aprendizaje supervisado) intenta hacer predicciones específicas basadas en etiquetas predefinidas. Un ejemplo clásico es el reconocimiento de objetos, en el que la tarea consiste en clasificar si una imagen dada contiene objetos como peatones o semáforos. El entrenamiento se realiza proporcionando ejemplos etiquetados (imágenes) y buscando patrones que puedan utilizarse para clasificar ejemplos no vistos.
En Aprendizaje no supervisado (aprendizaje no supervisado) consiste en tratar de encontrar una estructura en los datos sin disponer de ejemplos. Por ejemplo, hay que averiguar qué imágenes contienen situaciones similares y agruparlas.
Mientras que el aprendizaje supervisado y no supervisado se centra en la comprensión de una situación, varios problemas (por ejemplo, los coches autoconducidos) no sólo tienen que ver con la comprensión, sino también con averiguar cómo reaccionar ante una situación (acelerar, frenar, dirigir, etc.). Estos problemas de optimización y control, en los que las acciones adecuadas se asignan a situaciones específicas, son el sello distintivo del aprendizaje por refuerzo. Para una introducción más general a los fundamentos teóricos del aprendizaje por refuerzo y sus conceptos clave, consulte nuestro Contribución al marco de referencia.
Para una introducción técnica en profundidad al aprendizaje por refuerzo que le ofrezca una comprensión básica del aprendizaje por refuerzo (RL) mediante un ejemplo práctico, consulte nuestra entrada de blog:
El aprendizaje por refuerzo en la empresa: ¿Dónde se utiliza el RL?
¿Qué tipos de problemas empresariales pueden resolverse con el aprendizaje por refuerzo? Como ya se ha dicho, la RL es una potente herramienta de optimización, lo que significa que es especialmente adecuada para problemas en los que conocemos la estructura y el estado deseado, pero no sabemos cuál es la mejor manera de alcanzarlo. Es importante destacar que, a diferencia de otras técnicas como el aprendizaje supervisado, con el RL no necesitamos conocer una "verdad básica" sobre cómo resolver un problema.
Imaginemos un robot que tiene que aprender a navegar desde un punto de partida determinado hasta una meta, evitando determinados obstáculos. Una posibilidad sería aprender utilizando trayectorias de ejemplo que definan el camino desde el punto de partida hasta la meta (seguir recto tres pasos, luego girar a la derecha, luego recto otra vez, ...), como en el aprendizaje supervisado. Esto significaría que el robot no aprende a encontrar secuencias óptimas por sí mismo, sino que le damos instrucciones específicas sobre cómo comportarse en distintos lugares. En principio, puede parecer una idea razonable, pero en la práctica es muy poco práctica. A menudo conocemos nuestro punto de partida y nuestro destino, pero no podemos especificar el camino exacto (u óptimo) desde el punto de partida hasta el de destino: necesitamos un agente que pueda aprender a encontrar un camino óptimo por sí mismo. E incluso si conociéramos la solución correcta, es poco probable que nuestro robot pudiera transferir sus conocimientos a otras situaciones similares, por lo que incluso un cambio minúsculo en el entorno hace que el robot sea inflexible e incapaz de funcionar.
En general, estas técnicas de aprendizaje supervisado ofrecen un marco potente para problemas como la visión por ordenador, pero resultan insuficientes para tareas de optimización secuencial más flexibles. En su lugar, nuestro robot debe explorar el entorno y aprender mediante el método de ensayo y error, basándose en la retroalimentación sobre los movimientos buenos y malos. Por tanto, no necesitamos proporcionar ejemplos resueltos como datos de entrenamiento, sino dotar a nuestro robot de un mecanismo flexible de aprendizaje continuo: Cuando el entorno cambia, esto se refleja en la nueva información que recibe nuestro robot, lo que le obliga a reaprender la trayectoria de principio a fin. Este enfoque es equivalente al aprendizaje por refuerzo, que proporciona un marco potente y general para resolver problemas del mundo real.
Para una introducción compacta a la definición y terminología del aprendizaje por refuerzo, lea nuestro artículo básico sobre la metodología:
Casos prácticos de aprendizaje por refuerzo en la industria
Pero, aparte de indicar a los robots cómo alcanzar objetivos, ¿cómo puede utilizarse el aprendizaje por refuerzo en casos de uso industrial realistas? Hay muchos ejemplos de casos de uso del aprendizaje por refuerzo en la industria, algunos de los cuales describiremos a continuación.
Dado que el aprendizaje por refuerzo ofrece un marco de optimización potente y general, tiene un gran potencial para resolver problemas con muchas partes móviles e interactuantes, como ocurre en el sector energético.En este caso, la RL puede utilizarse para optimizar procesos tanto desde la perspectiva del proveedor como del consumidor. Como proveedor, la RL puede ser útil para aprender a adaptarse a la futura demanda de energía prevista y para optimizar los programas de respuesta que animan a los clientes a ahorrar energía. Desde el punto de vista del consumidor, la RL es una herramienta de última generación para optimizar el consumo de energía encontrando el equilibrio adecuado entre la minimización de costes y el suministro de energía suficiente para procesos como la calefacción o la iluminación. También puede utilizarse para aprender a ajustar de forma óptima las turbinas eólicas o los paneles solares para maximizar la producción de energía, o para encontrar el equilibrio ideal entre minimizar el coste de cargar o almacenar energía y proporcionar energía suficiente, por ejemplo en baterías.
Caso práctico #1: Reducir el consumo de energía en los centros de datos
Un ejemplo de aplicación especialmente convincente para el uso de la RL en el sector energético es la reducción del consumo de energía en los centros de datos. En la actualidad, los centros de datos representan unas 2 % de la demanda mundial de energía, pero podrían ser responsables de unas 8 % del consumo mundial de energía en 2030 (y de unas 21 % si incluimos otros ámbitos de las tecnologías de la información y la comunicación, véase nutanix.com y www.nature.com). Para abordar este problema, Google DeepMind ha desarrollado un sistema basado en RL para reducir el consumo energético de los centros de datos. Como se muestra en la Figura 1, este sistema consta de tres pasos principales: Un sistema basado en la nube lee información del sistema de refrigeración del centro de datos para crear una representación de estado compleja. A partir de esta representación de estado, una red neuronal profunda predice la eficiencia energética y la temperatura futuras basándose en las medidas propuestas (es decir, cambios en el sistema de refrigeración), teniendo en cuenta el valor de las distintas medidas. Basándose en estos valores calculados, el sistema RL selecciona la mejor medida que optimiza la eficiencia energética al tiempo que cumple los requisitos de seguridad. Basándose en este sistema RL, la demanda energética de los centros de datos podría reducirse en 30 % (cf. Inteligencia artificial orientada a la seguridad para la refrigeración autónoma de centros de datos y el control industrial (deepmind.com) y la parte de energía consumida para refrigeración podría reducirse en 40 % (cf. La IA de DeepMind reduce la factura de refrigeración del centro de datos de Google en 40%).
Cada cinco minutos, el sistema basado en la nube toma una instantánea del sistema de refrigeración del centro de datos (estado s) a partir de miles de sensores físicos
La información (estado s) se introduce en una red neuronal profunda que predice la eficiencia energética y la temperatura futuras basándose en las medidas propuestas (valores Q).
Selección de medidas (políticas) que cumplan las limitaciones y minimicen el consumo de energía.
Las acciones óptimas se envían de vuelta al centro de datos, el sistema local las comprueba con sus propias especificaciones de seguridad
Figura 1: Sistema basado en RL para optimizar la demanda energética en centros de datos, desarrollado por Google Deepmind (Inteligencia artificial orientada a la seguridad para la refrigeración autónoma de centros de datos y el control industrial)
Además, Google DeepMind ha desarrollado más recientemente algoritmos basados en RL para optimizar la utilización de los recursos de los centros de datos de Google y aumentar la eficiencia del desarrollo de software (Optimización de sistemas informáticos con herramientas de IA más generales).
Caso práctico #2: Optimización en el ámbito del transporte y la logística
Hemos visto que la RL es un potente marco para resolver casos de uso en el sector energético y que desempeñará un papel fundamental para hacer más sostenible nuestra era digital. La RL también es fundamental en otros ámbitos en los que predominan los problemas de optimización secuencial. Por ejemplo, es una potente herramienta para resolver problemas de transporte y logística. Las empresas pueden utilizar la RL para optimizar el control del tráfico en el transporte público encontrando acciones secuenciales que minimicen los retrasos o mejoren la experiencia del cliente, por ejemplo, en el contexto de la gestión de los retrasos, la reducción de los cambios de tren necesarios o el control del cambio de semáforos.En logística, la RL se utiliza para optimizar los costes de la cadena de suministro, encontrar nuevas rutas de entrega óptimas y gestionar las existencias en los almacenes. El objetivo es garantizar la disponibilidad de los productos y, al mismo tiempo, reducir los plazos de almacenamiento y entrega.
La RL es un marco común de optimización de la cadena de suministro que utilizan empresas como Amazon. La idea básica es utilizar RL para encontrar la mejor distribución de productos a los almacenes y (si es necesario) la cantidad adecuada de mercancías en las fábricas (Optimizar la red de la cadena de suministro: reducir la complejidad para maximizar la eficiencia). En este caso, el espacio de estados está formado por los niveles de existencias y la demanda en los distintos almacenes, y las acciones reflejan la distribución y el movimiento de productos entre almacenes o desde los centros de producción a los almacenes. A continuación, se utiliza la RL para encontrar acciones que optimicen una función de recompensa, que suele ser un equilibrio entre los ingresos procedentes de los productos vendidos y diversos tipos de costes, como los de producción, almacenamiento o transporte y los (elevados) costes de penalización por no satisfacer la demanda de los clientes (Aprendizaje por refuerzo para optimizar la cadena de suministro). La figura 2 ofrece una visión general de esta especificación (adaptada de Aprendizaje por refuerzo para optimizar la cadena de suministro). La RL ha tenido mucho éxito en la resolución de estas tareas de optimización de la cadena de suministro y es un área de gran interés reciente para la investigación (Aprendizaje por refuerzo para la gestión de la cadena de suministro, Revisión de los algoritmos de aprendizaje por refuerzo y sus aplicaciones en la gestión de la cadena de suministro).
Figura 2. un sistema de optimización de la cadena de suministro basado en RL (cf. Aprendizaje por refuerzo para optimizar la cadena de suministro)
Caso práctico #3: Finanzas y banca
Además de en los sectores de la energía, el transporte y la logística, el aprendizaje por refuerzo también se utiliza mucho en finanzas. En este caso, el RL proporciona un marco potente para la negociación de acciones y la gestión de activos. Predecir el volumen de negocio o el precio de las acciones en el futuro es un elemento clave del análisis de previsiones en finanzas. Sin embargo, los modelos de previsión, como los métodos basados en el aprendizaje supervisado, no nos dicen cómo actuar para aumentar las ventas o maximizar los márgenes de beneficio. Los modelos de RL, en cambio, pueden aprender a optimizar el comportamiento para alcanzar un objetivo concreto en mercados fluctuantes. Un ejemplo paradigmático del uso del aprendizaje por refuerzo es la negociación automatizada de acciones (Blog JP Morgan). Es importante destacar que los algoritmos de RL no se limitan a aprender a maximizar el beneficio ignorando el riesgo. Lo que se optimiza exactamente depende de la definición de la función objetivo en la RL, que puede ser una mezcla del objetivo de optimizar los beneficios y controlar el riesgo. Este enfoque es la base de las aplicaciones de la RL en los modelos de optimización de carteras y gestión de riesgos. Además, la RL se utiliza a menudo en modelos de valoración de créditos que pueden aprender a ajustar los límites de crédito en función de los riesgos que cambian dinámicamente.
Caso práctico #4: Conducción autónoma
La RL también es una herramienta indispensable para la conducción autónomadonde los coches (y otros vehículos) pueden aprender a tomar mejores decisiones en el tráfico. La conducción autónoma es un excelente ejemplo de las aplicaciones más avanzadas del aprendizaje automático y la IA, y la RL es un aspecto central de esta aplicación. Para circular por el tráfico, los coches deben tomar una serie de decisiones secuenciales, como cambiar de carril, detenerse en un semáforo, evitar una colisión o aparcar. Estas decisiones se basan en la planificación del movimiento adquirido, la optimización de la trayectoria y las estrategias de conducción basadas en escenarios, todo lo cual puede aprenderse con RL. Pero el uso de la RL en el sector del automóvil va más allá de la conducción autónoma. La RL es igualmente relevante para optimizar los sistemas de asistencia al control de los vehículos y también es una herramienta esencial para el mantenimiento predictivo y el control de calidad en la producción de automóviles.
La figura 3 ofrece una visión general de los distintos ámbitos y ejemplos de aplicación de la RL en la industria.
En nuestra inmersión profunda, destacamos las interacciones entre los métodos empresariales, la neurociencia y el aprendizaje por refuerzo en inteligencia artificial y biológica.
Enfoques técnicos y prácticos y evolución actual
Pero, ¿qué hace falta para utilizar el aprendizaje por refuerzo en un caso de uso industrial? Para resolver un problema con aprendizaje por refuerzo, suele ser importante cuantificar los componentes clave del entorno en un entorno de RL simulado. En primer lugar, hay que especificar el espacio de estados, es decir, todas las circunstancias posibles en las que puede encontrarse el agente. Volviendo a nuestro ejemplo original de un robot que aprende a navegar, el espacio de estados cuantificaría todos los lugares posibles en los que podría estar el robot. Un "estado" también puede ser más abstracto, como una configuración concreta del mercado financiero o el estado de un inventario. Además, es importante especificar el espacio de acción del agente, como moverse hacia arriba, hacia abajo, a la izquierda o a la derecha. Este espacio de acción determina lo que el agente puede hacer para interactuar con un sistema concreto. El objetivo básico es encontrar las mejores acciones en ese sistema para resolver un problema concreto. Las acciones "buenas" y "malas" vienen determinadas por una función de recompensa que indica al agente qué resultados son buenos o malos. Se suele suponer que los agentes reciben una gran recompensa positiva por alcanzar un objetivo, una gran recompensa negativa por fracasar o por un comportamiento arriesgado (por ejemplo, caerse por un precipicio o quedarse sin energía) y una pequeña recompensa negativa por dedicar tiempo a buscar el objetivo.
Un aspecto importante de la aplicación de la RL a los problemas del mundo real en la industria es el uso de los llamados gemelos digitales. Gemelos digitales son entornos artificiales que replican un sistema físico para simular y analizar su comportamiento. Podemos utilizar gemelos digitales para entrenar agentes de RL en un entorno seguro y controlado: para aprender que caerse por un precipicio tiene graves consecuencias, es mejor tener esta experiencia virtualmente que en la vida real. Trabajar con gemelos digitales nos permite simular escenarios diferentes y potencialmente raros para nuestros agentes de RL y permitirles encontrar soluciones apropiadas sin arriesgar daños reales al sistema. El uso de gemelos digitales no sólo evita las posibles consecuencias negativas de un comportamiento arriesgado durante el aprendizaje, sino que también mejora el rendimiento del entrenamiento.
La aplicación de la RL a problemas industriales también plantea importantes retos. Como ya se ha mencionado, también es crucial Función de recompensa (también Función objetivo ) de un agente RL correctamente. Si diseñamos un agente preocupado únicamente por la maximización de la recompensa, por ejemplo, alcanzar un determinado objetivo o maximizar un margen de beneficio, el agente podría adoptar un comportamiento arriesgado, por ejemplo, "optimismo ante la incertidumbre". Como desarrollador, es por tanto esencial definir una función objetivo que tenga en cuenta no sólo las ganancias positivas de un problema, sino también los resultados negativos, por ejemplo estableciendo una recompensa negativa elevada para los comportamientos indeseables y arriesgados. Aquí es donde el uso de gemelos digitales adquiere especial relevancia.
La investigación actual también aborda cuestiones de explicabilidad e interpretabilidad de los sistemas de RL. Como con cualquier otro algoritmo de aprendizaje automático, no sólo es importante resolver una tarea concreta, sino también entender cómo se resuelve. En el caso de la RL, no sólo queremos encontrar un agente que tome decisiones que resuelvan un problema concreto, sino también entender por qué tomó esas decisiones concretas. Esta cuestión pone de relieve el importante vínculo entre la investigación sobre RL y Sistemas de IA explicablesun área que ha suscitado mucho interés recientemente.
Descubra cómo se mejoran los grandes modelos lingüísticos como ChatGPT mediante el uso del Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF).
Conclusión
En resumen, la teoría del aprendizaje por refuerzo ofrece muchas posibilidades interesantes para resolver problemas de optimización secuencial en la industria. Originada en la ciencia del comportamiento hace más de 120 años, la teoría del aprendizaje por refuerzo se ha convertido en un marco dominante en disciplinas tan diversas como la informática, la robótica, la neurociencia y el análisis empresarial. Como ya se ha indicado, para trasladar un caso de uso industrial a un marco de aprendizaje por refuerzo hay que estudiar detenidamente cómo especificar cuantitativamente el problema y cuál es la mejor manera de entrenar al agente de aprendizaje por refuerzo. Una vez que se ha llevado a cabo esta cuidadosa consideración, el marco de la RL proporciona una poderosa herramienta para resolver muchos problemas diferentes en la industria y es probable que se convierta cada vez más dominante como el algoritmo de elección en ámbitos empresariales tan diversos como la fabricación, la automatización, las finanzas, el transporte, la logística, el mantenimiento predictivo o la asistencia sanitaria.
0 comentarios