En 2022 celebraremos el 10º aniversario de [at] - Alexander Thamm.
En 2012, fuimos la primera consultora del mundo germanoparlante en asumir la causa de los Datos y la IA. Hoy en día, puede decirse que la inteligencia artificial (IA) tiene el potencial de contribuir de forma importante a algunos de los principales retos económicos y sociales de nuestro tiempo. La IA desempeña un papel en la transición energética y en la respuesta al cambio climático, en la conducción autónoma, en la detección y tratamiento de enfermedades o en el control de pandemias. La IA aumenta la eficiencia de los procesos de producción e incrementa la adaptabilidad de las empresas a los cambios del mercado gracias a la información en tiempo real y a las predicciones.
La importancia económica de la tecnología está creciendo rápidamente. Más de dos tercios de las empresas alemanas utilizan ya inteligencia artificial y aprendizaje automático.
Con nuestro #AITOP10, le mostramos lo que está de moda ahora mismo en el campo de los datos y la IA. Nuestras listas TOP10 presentan lo más destacado de los podcasts, tendencias de IA específicas del sector, expertos en IA, recomendaciones de herramientas y mucho más. Aquí obtendrá una amplia muestra representativa del universo de los Datos y la IA que nos ha impulsado durante 10 años.
Inhaltsverzeichnis
Nuestros 10 mejores algoritmos de ML - Parte 1
Recomendación, agrupación, regresión, análisis de texto, detección de anomalías... El aprendizaje automático puede utilizarse hoy en día para una gran variedad de problemas y es más rápido y preciso que nunca. Pero, ¿qué hay detrás de los algoritmos? Echamos un vistazo entre bastidores y le mostramos qué algoritmos se utilizan realmente en el aprendizaje automático.
Clasificación 10 - Regresión lineal
La regresión lineal es uno de los algoritmos de aprendizaje automático más sencillos y su comprensión es un juego de niños. Por ejemplo: Si plantas un árbol, estás haciendo algo bueno por el medio ambiente. Por desgracia, una pequeña semilla tarda un tiempo en convertirse en un árbol adulto. Para documentarlo, en nuestro ejemplo se mide la altura del árbol cada mes. Esto funciona bien durante los dos primeros años, pero llega un momento en que ni siquiera el más alto puede alcanzar la copa del árbol con la cinta métrica. Entonces llega el regresión lineal Como hemos introducido las alturas ya medidas en un diagrama, podemos estimar con relativa precisión la altura futura del árbol en cualquier momento. Si hemos podido medir la altura por última vez hace un mes, trazamos una línea recta que pase por todos los puntos medidos hasta ahora y la prolongamos un poco más. Ahora, en función de la desviación media, se puede determinar con bastante precisión la altura actual del árbol para este mes.
La regresión lineal muestra la relación entre una variable independiente (en este caso de tiempo) y una variable dependiente (la altura del árbol). A menudo, sin embargo, hay varias variables independientes con ayuda de las cuales debe hacerse una predicción. Para ello, el Regresión lineal múltiple. El principio funcional sigue siendo el mismo, pero se utilizan varias dimensiones para hacer una predicción. En nuestro ejemplo, sería la temperatura además del tiempo. Si la temperatura sube, el árbol crece más rápido, si baja, crece más despacio.
Sin embargo, es importante que exista una relación lineal entre las variables independientes (tiempo, temperatura) y la variable dependiente (altura del árbol). Si no hay correlación, la regresión lineal no tiene sentido y aquí determinamos números aleatorios. La tasa de error de los valores debe tener una distribución aproximadamente normal. Si los valores están dispersos, será difícil determinar una línea de regresión exacta (línea de igualación). Por último, los valores independientes no deben depender unos de otros. Por ejemplo, las horas de sol dependen de la variable temperatura y, por lo tanto, no son adecuadas para la regresión lineal múltiple.
El uso de la regresión lineal (múltiple) es útil, por ejemplo, para predecir las tendencias del mercado, la evolución de los precios y la evaluación de riesgos en el sector financiero y de seguros.
Clasificación 9 - Regresión logística
No siempre es necesario predecir un valor numérico concreto; a menudo se trata también de clasificar datos. Esto significa que la Predecir la categoría de una variable con la ayuda de determinadas variables independientes. Ejemplo: La alimentación, el deporte y la salud desempeñan un papel importante hoy en día. Se dice que las personas que comen sano y hacen mucho deporte tienen una vida más larga, buena salud y menos riesgo de sufrir un infarto. Pero, ¿es realmente cierto?
Si quiero predecir si voy a sufrir un infarto en los próximos 10 años, puedo utilizar varios valores para la predicción: ¿Cuál es mi IMC (índice de masa corporal)? ¿Tengo alguna enfermedad preexistente? ¿Cuál es mi tensión arterial? Todos estos valores me permiten describir con mayor o menor precisión mi estado de salud. A través de regresión logística puedes predecir si es probable que sufras un infarto en los próximos 10 años. Pero, ¿cómo?
En primer lugar, se necesita un conjunto de datos en el que estén disponibles todos estos datos (IMC, tensión arterial, edad, enfermedades previas, valores de tensión arterial). Para entrenar un modelo ML, los datos de entrenamiento deben contener también la información de si se ha producido un infarto en los 10 años siguientes. Durante el entrenamiento, se obtiene una curva que determina en qué categoría pueden clasificarse los datos. A diferencia de la regresión lineal, la regresión logística no predice valores numéricos, sino que clasifica los conjuntos de datos en 2 categorías: Sí y No, infarto o no infarto. Si valores como la tensión arterial, el IMC o el colesterol están por encima o por debajo de un determinado nivel, el modelo afirma que el paciente sufrirá un infarto en los próximos 10 años. Pero, ¿hasta qué punto es exacta esta predicción?
Lo bueno de la regresión logística es que se puede hacer una afirmación sobre la exactitud de la predicción. Así, la curva ya mencionada determina el límite: infarto/no infarto. Además, el modelo determina la probabilidad de la predicción. Por ejemplo, si los valores están próximos al límite, la probabilidad es sólo ligeramente superior o inferior a 50%. Por el contrario, en función de la precisión del modelo, se sitúa justo por encima de 0% o justo por debajo de 100%.
Por lo tanto, la regresión logística nunca proporciona valores inequívocos, sólo valores probabilísticos. En la práctica, esto significa que una persona con un IMC de 50 sufrirá 84% infartos en los próximos 10 años. Este valor no debe confundirse con la precisión de todo el modelo. Puede aumentarse incluyendo otros valores importantes para el valor inicial o ajustando el modelo.
El algoritmo se utiliza en la puntuación crediticia, en la investigación médica y la predicción de enfermedades o para la detección de fraudes en el sector financiero y de seguros. En general, la regresión logística es un algoritmo eficaz para muy diversos casos de clasificación.
Clasificación 8 - Árboles de decisión
¿Qué tiene que ver el aprendizaje automático con los árboles? Más de lo que cree. Sigamos con el ejemplo: ¿Cómo se puede predecir si un árbol dará frutos? Con un árbol de decisión.
Si ha rellenado una tabla con diferentes atributos de árboles, puede utilizarla para crear un Árbol de decisión crear. Empezando por la raíz, en cada bifurcación preguntas por el valor de un atributo del árbol y luego pasas a la bifurcación siguiente. Al final, el árbol te da la respuesta 0 o 1, sí o no. Por ejemplo, en la primera bifurcación está la pregunta "¿Está muerto el árbol?". Si el atributo de la columna es "vivo" (= no), la predicción ha terminado: El árbol no dará frutos. Al revés, la pregunta continúa: "¿Qué tamaño tiene el árbol?". Si el tamaño del árbol está por debajo de un determinado umbral, no dará frutos y la respuesta vuelve a ser "no". Si lo hace, el árbol de decisión continúa una bifurcación cada vez hasta el final de la última rama y así se hace la predicción final "sí" o "no".
Los árboles de decisión se utilizan en la captación de clientes para identificar clientes potenciales o para determinar la solvencia en el sector financiero. Son fáciles de leer e interpretar y pueden aplicarse a datos no lineales. Otra ventaja es que los datos son en su mayoría poca preparación y limpieza porque los valores atípicos y los datos que faltan influyen poco en la precisión de la predicción. En cambio, son menos eficaces en la predicción de variables continuas porque se pierde información al categorizar una variable.
Clasificación 7 - Random Forest
Especialmente a la hora de tomar decisiones importantes, la gente suele pedir consejo a sus amigos, parientes o colegas. Rara vez se limita a una sola persona, sino que pregunta a varias para obtener respuestas diversas y quizá también diferentes. El algoritmo Random Forest funciona de forma similar. El algoritmo Random Forest utiliza árboles de decisión para - no sólo uno, sino todo un bosque.
Como ocurre con una decisión personal importante, los distintos confidentes están familiarizados con diferentes aspectos de la decisión. En el algoritmo Random Forest, análogamente Árboles de decisión con diferentes partes recién fusionadas del conjunto de datos generado. Esto se denomina bagging o agregación bootstrap. Es importante señalar que no se duplica ningún árbol de decisión, sino que cada uno representa una parte diferente de todo el conjunto de datos.
Finalmente, tras la consulta, se llega a un consenso: con el algoritmo Random Forest, esto ocurre de forma bastante democrática. La predicción se genera a partir de la votación de todos los árboles de decisión. Si 3 votan "sí" y 2 votan "no", la decisión es "sí". Si el objetivo de la predicción no es una clasificación, es decir, un valor de verdad, sino un valor numérico, se toma el valor medio de todos los árboles.
El algoritmo se utiliza en una gran variedad de campos: En el sector financiero, Random Forest puede utilizarse para identificar fraudes en los pagos o para la puntuación crediticia; en medicina, para identificar enfermedades basándose en historiales médicos o predecir la sensibilidad a los fármacos. Así, el algoritmo puede para problemas de clasificación y regresión de múltiples ser utilizado.
Puesto 6 - K-Means
Si quiere abrir una nueva sucursal de su pizzería, primero tiene que pensar dónde. En Algoritmo de agrupación K-Means es excelente. Por ejemplo, si quiere expandirse a un nuevo barrio y abrir allí 2 sucursales, puede utilizar para ello los datos existentes sobre las ubicaciones de los pedidos de ese barrio. Así se minimizan las rutas de reparto y, más adelante, se puede predecir a cuál de los dos restaurantes acudirá un cliente potencial según su ubicación.
En primer lugar, se trazan todos los puntos de datos en un mapa y se colocan 2 puntos de datos adicionales (para k=2 o 2 ramas). Centroide a dos puntos aleatorios del mapa. Ahora todos los puntos se asignan al centroide más cercano y se colocan en una clase en consecuencia. A continuación, se vuelven a eliminar los centroides. Ahora, sobre la base del "centroide", se hace lo siguiente el centro de todos los puntos de una clase y determinar así los nuevos centroides. Ahora se vuelve a empezar: se asignan los puntos al centroide más cercano, se clasifican y se vuelven a borrar los centroides. Así se continúa hasta que la posición de los centroides ya no cambia.
Entonces 2 ubicaciones óptimas para las nuevas sucursales. Lo mismo puede hacerse con los datos de origen de los clientes una vez abiertas las sucursales. Esto permite predecir en qué sucursal hará el pedido un cliente.
K-Means puede utilizarse, por ejemplo, para agrupar actividades delictivas. Los focos de delincuencia pueden encontrarse en el mapa de una ciudad y analizarse según el tipo de delito que se comete con más frecuencia. Más adelante, el algoritmo es útil para identificar actividades financieras fraudulentas o detectar anomalías en las redes.
Eso no es todo: ¿qué es el boosting y cómo se puede obtener información a partir de texto e imágenes con la ayuda del ML? Lea más sobre esto en los lugares 5 a 1 de nuestro Top10 de algoritmos de ML la semana que viene.
0 comentarios