Aprendizaje automático - La guía definitiva

de | 31 de marzo de 2020 | Conceptos básicos

La inteligencia artificial y el aprendizaje automático hace tiempo que dejaron de ser fenómenos marginales para convertirse en la corriente dominante en los últimos años. Mientras que hace unos años los sistemas de aprendizaje automático eran un tema más o menos limitado a las instituciones de investigación y las empresas tecnológicas, ahora el aprendizaje automático ha llegado a muchas aplicaciones cotidianas. 
 
El reconocimiento del habla en los teléfonos móviles, los programas de traducción en Internet, los filtros de spam para ordenadores y el reconocimiento facial de fotos y vídeos son sólo algunos ejemplos de tecnologías que hoy se basan en sistemas de autoaprendizaje.  
 
Pero también en muchas industrias hace tiempo que se rediseñan y optimizan productos y procesos utilizando el aprendizaje automático. Se trata, por ejemplo, de la optimización de las cadenas de suministro, el mantenimiento predictivo, el marketing en línea personalizado para los clientes o la gestión automatizada de la energía. Se presta especial atención a las empresas manufactureras, los fabricantes de maquinaria y las empresas que ya confían en el producción en red como la industria del automóvil. 
 
Todas las industrias que tienen grandes volúmenes de datos están predestinadas al uso de sistemas de aprendizaje automático. Entre ellos se encuentran, en particular, los bancos y las compañías de seguros, el sector sanitario y las empresas manufactureras. El aprendizaje automático puede utilizarse en estos y otros sectores para aumentar la eficiencia, satisfacer mejor las necesidades de los clientes, tomar decisiones más rápidas y mejorar los resultados. 

¿Qué es el aprendizaje automático? 

El aprendizaje automático es una subárea de las humanidades. inteligencia artificial y término genérico que designa la generación artificial de conocimiento a partir de la experiencia. En el aprendizaje automático, un sistema artificial aprende reglas a partir de ejemplos, que puede generalizar una vez finalizada esta fase de aprendizaje.

Aprendizaje automático
La figura muestra dónde está incrustado el término aprendizaje automático en la jungla de las palabras de moda.

Los sistemas basados en el aprendizaje automático son capaces de aprender. No se limitan a aprender ejemplos de memoria, sino que son capaces de reconocer patrones y regularidades en los datos. El aprendizaje automático permite reconocer correlaciones, sacar conclusiones y hacer predicciones.

A modo de ejemplo, éste es el tema Reconocimiento facial por nombrar algunos. El aprendizaje automático lo hace posible porque los algoritmos se entrenaron primero sobre la base de millones de datos de imágenes para reconocer aquellas estructuras en las masas de datos que definen un rostro.

Métodos de aprendizaje automático
He aquí un ejemplo de cómo un algoritmo aprende a reconocer caras utilizando datos de imagen como entrada.

En este contexto, la gran ventaja de un sistema capacitado para el aprendizaje automático es su capacidad para manejar cantidades muy grandes de datos. Sobre esta base, el aprendizaje automático puede utilizarse para analizar cuestiones muy complejas y desarrollar sistemas muy especializados para tareas concretas. 

El punto de partida de muchas empresas son grandes cantidades de datos, hasta ahora sin utilizar, y especialmente datos de máquinas. Hay una razón por la que los métodos de aprendizaje automático son tan relevantes. Actualmente, muchas empresas se están dando cuenta de que tienen que generar una enorme cantidad de datos y gestionarlos en consecuencia. 

En aprendizaje automático Se distinguen cuatro tipos:  

  • Aprendizaje no supervisado
  • Aprendizaje automático supervisado 
  • Aprendizaje semisupervisado 
  • Aprendizaje por refuerzo 

La diferencia esencial está en el proceso de aprendizaje.

2. aprendizaje automático no supervisado

En cambio, el aprendizaje no supervisado es necesario cuando hay que reconocer relaciones implícitas en conjuntos de datos no relacionados. Una tarea típica del aprendizaje no supervisado es reconocer objetos en fotos (reconocimiento de imágenes). Mediante una red neuronal, los datos de las imágenes pueden examinarse en busca de patrones y similitudes. 

También en este caso, el proceso de aprendizaje automático difiere del enfoque "humano". El algoritmo descompone las imágenes en sus componentes más pequeños y busca los componentes básicos. En este caso, cuantos más datos de entrenamiento haya disponibles, mejor será la tasa de reconocimiento. 

Por ejemplo, es un gran reto reconocer una misma cara aunque se muestre desde distintas perspectivas. El problema es que un programa no tiene imaginación espacial. Por eso, esta tarea sólo tiene éxito si la capacidad se ha entrenado previamente utilizando muchas vistas diferentes de caras. Esto también se llama Informática afectiva.

En el artículo de nuestro blog sobre Aprendizaje no supervisado más información sobre las características y modos de funcionamiento.

Aprendizaje automático supervisado  

Aprendizaje supervisado se utiliza siempre que ya existan resultados para un contexto concreto o para un conjunto de formación existente. A continuación, estos resultados se trasladan a otros casos de uso para los que aún no se dispone de resultados. Un caso de uso típico sería la clasificación, por ejemplo, cuando una máquina clasificadora debe asignar automáticamente las manzanas de una cosecha a distintas clases de calidad. Los resultados se utilizan en el aprendizaje supervisado para enseñar a un sistema. 
 

Un algoritmo de aprendizaje del sistema intenta encontrar una hipótesis a partir de la cual los resultados conocidos de antemano se alcancen con la mayor precisión posible. En función del resultado previsto, el sistema recibe retroalimentación (elogios por la corrección o castigos por los errores). Basándose en estos bucles repetitivos de retroalimentación, el sistema optimizará constantemente su algoritmo de aprendizaje y, con el tiempo, se acercará cada vez más a los resultados fijados. El aprendizaje automático supervisado se basa en el principio de ensayo-error.

4 Aprendizaje semisupervisado 

El aprendizaje semisupervisado es una mezcla de aprendizaje supervisado y no supervisado. Se utiliza esencialmente para los mismos fines que el aprendizaje automático supervisado. Sin embargo, a diferencia del aprendizaje supervisado, en el aprendizaje semisupervisado los resultados asociados sólo se conocen para una parte de los datos básicos. Para poder trabajar con conjuntos de datos suficientemente grandes, el aprendizaje parcialmente supervisado utiliza también datos básicos para los que aún no se dispone de la variable objetivo. 
 
Por regla general, los sistemas de aprendizaje parcialmente supervisado trabajan con una pequeña reserva de datos con una variable objetivo conocida y una gran reserva de datos sin una variable objetivo conocida. Esto se debe a que, en la práctica, la adquisición de conjuntos de datos con variables objetivo conocidas suele suponer un gran esfuerzo y, por lo tanto, es muy costosa. El aprendizaje semisupervisado es, por tanto, una buena opción si se quiere analizar un gran número de conjuntos de datos con unos costes económicamente justificables. Un caso de uso muy común del aprendizaje semisupervisado es la identificación de rostros en grabaciones de vídeo.

5 Aprendizaje por refuerzo 

El aprendizaje por refuerzo (también llamado "aprendizaje de refuerzo") es un subcampo del aprendizaje automático en el que un sistema aprende una estrategia de forma autónomapara maximizar las recompensas recibidas. Al sistema no se le muestra qué acción es la mejor en cada situación, sino que recibe una recompensa positiva o negativa (elogio o castigo) en momentos determinados. A partir de esta recompensa, el sistema aprende con el tiempo a ejecutar una estrategia que maximiza los beneficios a largo plazo. 
 
El concepto de aprendizaje por refuerzo procede de la psicología e intenta reproducir el comportamiento de aprendizaje en la naturaleza. Los niños humanos y animales también aprenden las estrategias de toma de decisiones adecuadas para ellos en función de un sistema de recompensas. 
 
A diferencia del aprendizaje supervisado y no supervisado, en el aprendizaje por refuerzo no se necesitan datos de antemano. El sistema aprende por sí mismo la estrategia ideal basándose en el entorno de simulación en muchas ejecuciones de prueba. 
 
El aprendizaje por refuerzo es la base de formas de inteligencia artificial capaces de resolver problemas de control complejos sin conocimientos humanos previos. En comparación con los métodos de solución convencionales, la IA basada en el aprendizaje por refuerzo puede resolver estas tareas de forma mucho más rápida, eficiente e, idealmente, incluso óptima. 
 
Muchos investigadores de IA ven en el aprendizaje por refuerzo un método prometedor para lograr una inteligencia artificial general. El aprendizaje por refuerzo hace posible que cualquier máquina, similar a un ser humano, domine con éxito cualquier tarea intelectual aún desconocida. 

6. métodos de aprendizaje automático

En el aprendizaje automático no supervisado, el resultado esperado no se conoce al principio del proceso de aprendizaje. Este enfoque abierto es, por tanto, de naturaleza exploratoria. El proceso de aprendizaje tiene lugar cuando el algoritmo intenta agrupar los datos de una determinada manera o identificar anomalías. 

Aunque hay un gran número de métodos y tareas de aprendizaje automático que entran en una de estas dos categorías de algoritmos, un pequeño conjunto de Normas resultan ser. 

En el caso del aprendizaje automático supervisado, el Clasificación y Regresión a los métodos estándar; en el caso del aprendizaje automático no supervisado, el Agrupación y Frecuente Patrones métodos utilizados con frecuencia.

Clasificación y regresión 

Para comprender correctamente la importancia de los métodos de aprendizaje automático como la clasificación y la regresión, es importante tener en cuenta que son los Elementos básicos de lo que abarca el concepto de ArtificialInteligencia es capturado. 

Los fundamentos matemáticos y métodos estadísticos ayudan a los sistemas inteligentes a aprender a ordenar las cosas y los acontecimientos. No lo hacen conscientemente, por supuesto, pero como en este caso con la ayuda de Científicos de datosque supervisan los procesos de aprendizaje. Como en el caso de aprendizaje no supervisado que puede leer en nuestro artículo del blog sobre métodos de aprendizaje automático no supervisado.  

No hay elNo existe un algoritmo o método único para resolver todas las tareas de clasificación. Más bien, existe una gran variedad deFormularios secundarios y especiales. Muchas de ellas tienen su origen en las matemáticas o la estadística. 

Clasificación lineal 

EnClasificación lineal- a veces también llamado "Clasificador lineal"tiene por objeto determinar una función lineal muy específica. Esta función describe un límite que divide los datos en dos clases: 

Sistema de coordenadas para los datos
Descripción: Los datos de la tabla se transfieren a un sistema de coordenadas donde una función lineal los divide en dos clases.

Lo que en principio parece un método muy sencillo se utiliza en numerosas y a veces complejas variantes. Los clasificadores lineales más populares sonMáquinas de vectores soporte. Se aplican para dividir los datos de un espacio vectorial en dos clases diferentes. El "arte" de la clasificación lineal consiste en definir el clasificador lineal de la forma más óptima posible.

clasificación lineal
En la clasificación lineal, hay que encontrar un curso óptimo para el clasificador lineal.

Vecino más próximo o clasificación NN

EnClasificación por Vecinos más Cercanos (NN)respectivamente elClasificador de vecino más próximoes un método sencillo cuyo objetivo es identificar objetos similares. En la fase de entrenamiento, se entrena un algoritmo para encontrar la similitud entre diferentes objetos de entrenamiento. 

q, NN(q) = "perro"
En este caso, el vecino más próximo del objeto es q, NN(q) = "perro".

El clasificador Bayes 

Una forma de clasificación es el llamado clasificador de Bayes. Se trata de un enfoque basado en la probabilidad que se remonta al teorema de Bayes, un teorema matemático del matemático británico Thomas Bayes. El clasificador de Bayes se utiliza a menudo para determinar medidas de costes o riesgos. 

También en este caso, el punto de partida son los datos de entrenamiento existentes. Estos conjuntos de datos se clasifican en determinadas clases según una cierta probabilidad de pertenencia. Cuantos más datos haya disponibles para el entrenamiento, más precisa será la clasificación. Un ejemplo práctico puede ilustrar cómo puede surgir un beneficio concreto con la clasificación.

Calificación crediticia: la clasificación en la práctica

Para uno de nuestros clientes del sector bancario, desarrollamos un sistema de puntuación con ayuda de un algoritmo de clasificación para evaluar mejor el riesgo de impago a la hora de conceder préstamos (credit scoring). Se trataba de pequeños préstamos urgentes de entre 100 y 200 euros. Como la mayoría de los clientes tenían entradas con Schufa, hubo que desarrollar un sistema de scoring alternativo. 

ara determinar la probabilidad de impago, utilizamos datos del historial crediticio personal y de las transacciones, así como de las actividades en las redes sociales. Esto nos permitió clasificar a los clientes en grupos según determinados criterios, lo que proporcionó información sobre el comportamiento de pago y la probabilidad de reembolso. 

Los árboles de decisión ayudan 

Los árboles de decisión son otra forma especial importante de clasificación de datos. El modelo de aprendizaje automático entrenado adopta una estructura de árbol. Este modelo es especialmente intuitivo, de modo que la clasificación se realiza sobre la base de criterios fácilmente comprensibles. 

En la práctica, a menudo se utilizan varios árboles de decisión combinados para aumentar la precisión de las decisiones. En este contexto, se utiliza el término bosque.

Árbol de decisión
A continuación se muestra un ejemplo sencillo de árbol de decisión para la evaluación de riesgos en el sector de los seguros.

Regresión

A primera vista, las tareas de regresión parecen muy similares a las de clasificación, pero se utilizan para responder a preguntas diferentes. Esto puede explicarse fácilmente con un ejemplo concreto.Los retrasos en el tráfico ferroviario o aéreo son habituales y, por lo tanto, es importante conocer su probabilidad. 

De este modo, los vuelos pueden dividirse en dos clases "a" y "b": "a" son los vuelos con retraso y "b" son los vuelos sin retraso. Se entrenaría un modelo de clasificación para predecir la probabilidad de que un vuelo llegue con retraso. Por ejemplo, las condiciones de viento predominantes podrían utilizarse como base para la clasificación. 

En cambio, un modelo de regresión establece una relación entre el input y el output. Una pregunta para un modelo de regresión podría ser: ¿Cuántos minutos es probable que se retrase un vuelo en determinadas condiciones de viento?

¿Cómo funciona en la práctica el aprendizaje automático? 

Caso práctico 1: Previsión de la demanda para optimizar el almacén 

En una época en la que las cadenas de suministro de la economía mundial funcionan sobre la base del "justo a tiempo", prever correctamente la demanda para optimizar el inventario es un requisito previo para la propia supervivencia económica de la mayoría de las empresas. Las empresas que no son capaces de optimizar su almacenamiento se enfrentan a elevados costes adicionales que representan una enorme desventaja competitiva. 
 
Una aplicación típica de este tipo de previsión de la demanda para la optimización de almacenes basada en el aprendizaje automático es un distribuidor internacional de piezas de recambio para maquinaria de construcción. El objetivo de un distribuidor de recambios de este tipo es abastecer sus almacenes en función de la demanda para optimizar sus costes, pero al mismo tiempo garantizar un suministro óptimo a corto plazo a sus clientes.

Preparación de datos en el aprendizaje automático


 
Como base de datos para este caso de uso del aprendizaje automático, pueden utilizarse datos internos de la empresa sobre las cantidades históricas de demanda de determinados productos en diferentes ubicaciones. Estos datos internos pueden combinarse con otros datos externos que tienen una gran influencia en la actividad general de la construcción (como la situación económica y la situación meteorológica). 
 
Con la ayuda del aprendizaje automático, se puede predecir con gran precisión la demanda específica de determinados productos en diferentes ubicaciones. Como resultado, se puede mejorar la disponibilidad de piezas del minorista y aumentar la rotación del inventario, lo que a su vez reduce los costes al tiempo que aumenta las ventas.

Caso práctico 2: Diagnóstico en centrales eléctricas

En la práctica, los productores de energía se enfrentan a menudo a cuestiones complejas relacionadas con la producción y distribución de energía. Un reto permanente es comprender a la perfección todos los procesos de las centrales eléctricas y controlarlos de forma idónea en consecuencia. 

Un ejemplo típico de optimización de procesos en centrales eléctricas es la prevención del recalentamiento del vapor en una central de vapor, que provoca depósitos de hollín y cenizas y perjudica la transferencia de calor.

Sistema de aprendizaje para el diagnóstico en centrales eléctricas

El aprendizaje automático puede utilizarse para definir algoritmos de aprendizaje que ayuden a comprender la relación entre la actividad del soplador de hollín y los efectos sobre los niveles de recalentamiento. A partir de este conocimiento, se puede instalar un sistema inteligente para controlar automáticamente la refrigeración por inyección.

Caso práctico 3: Reducción de las preguntas sobre riesgos para las compañías de seguros

El aprendizaje automático ofrece un potencial de optimización inimaginado, especialmente en lo que respecta a la digitalización basada en datos que avanza rápidamente en todos los sectores. Debido a la gran disponibilidad de datos válidos, el sector de los seguros es uno de los sectores en los que son posibles mayores mejoras con el aprendizaje automático. 

Un ejemplo típico de optimización de procesos en seguros es la simplificación del proceso de solicitud para nuevos clientes. Los formularios de solicitud de seguro demasiado largos y complejos disuaden a muchos clientes de contratar un nuevo seguro.  

Al mismo tiempo, las compañías de seguros tienen un gran interés en averiguar tanta información relevante para el riesgo de sus clientes como sea posible. El aprendizaje automático permite combinar lo mejor de ambos mundos: menos preguntas en la solicitud de seguro manteniendo la misma previsión de riesgo para la aseguradora. 

En este caso concreto, el aprendizaje automático puede sustituir a las preguntas sobre riesgos mediante la evaluación automática de datos procedentes de proveedores externos. Un algoritmo es capaz de analizar un catálogo de miles de características e identificar las adecuadas para sustituir a las preguntas de riesgo. De este modo, es posible reducir masivamente el número de preguntas de riesgo en la solicitud de seguro sin afectar negativamente a la calidad del pronóstico del seguro. 

Autor:inside

[EDITORIAL

Nuestro equipo editorial de AT está formado por varios empleados que preparan los correspondientes artículos del blog con el mayor esmero y según su leal saber y entender. Nuestros expertos de los respectivos campos le ofrecen regularmente contribuciones actuales del sector de la ciencia de datos y la IA. Esperamos que disfrute de la lectura.

0 comentarios