Con el ML automático en auge: ¿seguimos necesitando científicos de datos humanos?

En resumen, la respuesta es sí.

  • El aprendizaje automático de máquinas (Auto ML) no convierte a los científicos de datos en redundantes. Al contrario, es una herramienta útil que aumenta su productividad.
  • El mayor beneficio se obtiene cuando los científicos de datos utilizan herramientas de Auto ML para ahorrar tiempo en pasos repetitivos como la selección de modelos. Esto les permite centrarse en otras tareas.
  • De hecho, los científicos de datos pasan la mayor parte de su tiempo traduciendo un problema empresarial en una pregunta de ciencia de datos, recopilando, comprendiendo y preparando datos, adaptando una solución técnica a un caso de uso específico, mejorando las predicciones imprecisas, interpretando los resultados y comunicándolos a las partes interesadas pertinentes.
  • Estas tareas son difíciles de automatizar porque suelen ser muy específicas del caso de uso. Además, la correcta aplicación de las herramientas de ML automático suele requerir conocimientos de aprendizaje automático. Por estas dos razones, seguirá habiendo necesidad de científicos de datos (humanos) en un futuro previsible.
Figura 1: Flujo de trabajo estilizado de un proyecto con Machine Learning (ML)

¿Qué es Auto ML?

El ML automático es una novedad importante en la evolución del aprendizaje automático (ML). En los últimos tres años, los avances en este campo han cobrado impulso y las empresas disponen ya de las herramientas correspondientes en diversas formas (véase la sección siguiente). 

El objetivo de Auto ML es automatizar tantos pasos como sea posible en un proyecto de ML. Sin embargo, esto no es igual de fácil para todos los pasos. Los pasos de selección de modelos y optimización de hiperparámetros son los más adecuados, ya que suelen ser relativamente independientes del caso de uso específico. Comúnmente, la automatización de estos dos pasos se entiende como Auto ML. Sin embargo, también hay intentos de automatizar otros pasos de un proyecto de aprendizaje automático, como la limpieza de datos, la creación de características, la selección de características y la explicabilidad de las predicciones. Si no se requieren conocimientos específicos del dominio, Auto ML también puede ayudar a los científicos de datos humanos en algunas de estas áreas.

En general, Auto ML puede considerarse como otro nivel superior de abstracción. Del mismo modo que los científicos de datos no suelen empezar con un editor de código vacío cuando quieren entrenar un modelo ML -ya existen diversos paquetes de código para ello-, con Auto ML ya no tienen que llamar a muchos paquetes de código diferentes y luego comparar manualmente cuál es el mejor modelo. Una herramienta Auto ML puede encargarse de este proceso de selección de modelos. En el mejor de los casos, la entrada de dicha herramienta sólo incluye un conjunto de datos depurados, una métrica de error y el tiempo máximo necesario para encontrar el mejor modelo. La salida es una lista clasificada de modelos optimizados para hiperparámetros, ordenados por métrica de error.

¿Qué tipos de herramientas de Auto ML existen y cómo podemos utilizarlas?

Las soluciones de ML automático pueden dividirse a grandes rasgos en tres categorías principales.

La primera comprende paquetes de código independientes. Pueden ser de código abierto o propietarios. Entre los paquetes Auto ML Python de código abierto más conocidos se encuentran AutoGluon, H20 AutoML y TPOT. Además, para las populares bibliotecas de ML Scikit Learn, utilizada para datos tabulares, y Keras, utilizada para aprendizaje profundo, existen envoltorios de Auto ML denominados Auto-Sklearn y Auto Keras. El uso de estos paquetes requiere conocimientos de programación en Python.

La segunda categoría son las soluciones Auto ML que se integran en servicios en la nube como Azure Machine Learning, Amazon SageMaker o Vertex AI de Google. Estas soluciones pueden utilizarse con bastante facilidad si los datos ya están almacenados en una nube. Allí también se dispone de numerosos recursos informáticos. Las herramientas de aprendizaje automático en la nube pueden requerir programación o bien se proporciona una interfaz gráfica de usuario.

La tercera categoría en la que pueden utilizarse las aplicaciones de ML automático son las plataformas especializadas en ciencia de datos. Se diferencian de las nubes más amplias mencionadas anteriormente en que están especializadas en el procesamiento de datos, el aprendizaje automático de máquinas y el despliegue. Algunos ejemplos son Dataiku, H20, RapidMiner o DataRobot. Estas plataformas se han hecho cada vez más populares en los últimos años. Proporcionan una interfaz gráfica de usuario de fácil acceso para proyectos de ciencia de datos de principio a fin, desde la limpieza de datos hasta su despliegue. Basadas en la idea de un entorno de bajo código, las plataformas de ciencia de datos se han construido en torno a módulos auto-ML. Dada la gran demanda de los científicos de datos para adaptar las soluciones de ciencia de datos a un caso de uso específico, las plataformas de ciencia de datos se han hecho recientemente más flexibles al permitir la inserción de código personalizado en el pipeline de ciencia de datos.

Por último, otros proveedores que no pertenecen directamente a los tres grupos anteriores también ofrecen funciones de Auto ML. Algunos ejemplos son las ofertas de Auto ML de las plataformas más centradas en datos de SAP o Databricks.

¿Cuáles son las ventajas de Auto ML?

Como se mencionó al principio, Auto ML puede ser una herramienta útil que hace que los Científicos de Datos sean más productivos. Podemos pensar en él como un "asistente" que se encarga de tareas mecánicas. Las ventajas para los científicos de datos humanos son:

  • Se dedica menos tiempo a tareas repetitivas como la selección de modelos y la optimización de hiperparámetros, lo que deja más tiempo para comprender el problema empresarial, recopilar y preparar datos útiles y comunicar el enfoque y los resultados a las partes interesadas.
  • Auto ML puede proporcionar rápidamente un buen resultado básico para una prueba de concepto que puede perfeccionarse en fases posteriores.

¿Seguimos necesitando científicos de datos humanos?

El debate sobre si el ML automático sustituirá a los científicos de datos humanos es erróneo. La pregunta debería ser más bien: ¿Cómo y hasta qué punto pueden los científicos de datos utilizar eficazmente las nuevas herramientas de Auto ML? La respuesta general es: cuanto menos específica sea una tarea, mejor podrá automatizarse. Repasemos las distintas tareas de un proyecto típico de ML (véase la Figura 1) y evaluemos su potencial para utilizar Auto ML.

Solemos empezar con una pregunta de negocio y conocimientos del proceso de negocio. En este caso, la aportación de los expertos humanos es clave y su recopilación es la primera tarea típica de un científico de datos para comprender bien el proceso. La posterior asignación de un problema empresarial y sus requisitos a una pregunta de ciencia de datos tampoco suele ser fácil y es muy específica del entorno empresarial. Por lo tanto, es difícil dejar que una herramienta de Auto ML haga esta tarea.

Otro paso importante en un proyecto de ciencia de datos es la recopilación y preparación de datos. Seleccionar las fuentes de datos adecuadas, solicitar datos adicionales y combinar diferentes conjuntos de datos suele ser esencial para el éxito del proyecto. La comprensión y limpieza de los datos es un aspecto crucial que a menudo depende en gran medida de los conocimientos existentes y, por tanto, requiere bucles de retroalimentación con expertos.

Por regla general, la adquisición y la preparación de los datos constituyen la mayor parte del presupuesto de tiempo de un proyecto de ciencia de datos. Aunque algunas pequeñas tareas mecánicas estándar -como unificar las entradas de una columna con respecto al formato de los datos, eliminar las palabras vacías en la PNL o algunas técnicas de aumento de datos para imágenes- pueden entregarse a algoritmos bajo supervisión humana, la preparación de datos en su conjunto suele ser muy específica de la aplicación y requiere intervención humana. Un ejemplo importante de la necesidad de supervisión humana es la detección y el tratamiento de sesgos en los datos de entrada. Puede ser importante conocer bien la fuente de los datos y cómo se generaron para evitar sesgos en las predicciones. 

La siguiente tarea consiste en preparar los datos depurados para un proyecto de ML. Para ello, a menudo es necesario crear características adicionales. Los modelos tienen diferentes requisitos de entrada de características para funcionar bien. Aquí es donde Auto ML puede contribuir transformando o creando nuevas características que sean estándar para ciertas clases de modelos. Algunos ejemplos son la codificación de características categóricas en el caso de modelos basados en árboles o la estandarización de datos.

Una vez limpiado el conjunto de datos y creadas las características, Auto ML resulta muy útil para seleccionar el mejor modelo para un conjunto de datos. La rápida creación de una lista clasificada con una visión general del rendimiento de los distintos modelos y clases de modelos acelera el proceso de selección. La optimización de los hiperparámetros también puede automatizarse. Sin embargo, en contra de la opinión generalizada, estos dos pasos, al menos con datos estructurados, suelen constituir sólo una pequeña parte del trabajo de un científico de datos.

Auto ML funciona mejor con conjuntos de datos limpios, modelos estándar y métricas de error estándar. Estas condiciones se cumplen a menudo con competiciones de ML y datos tabulares, como los que se encuentran en Kaggle. Aquí, las herramientas de Auto ML ya alcanzan un rendimiento impresionante como soluciones listas para usar. Sin embargo, los casos de uso en el mundo real suelen diferir de estas condiciones ideales. El hecho de que las plataformas de ciencia de datos hayan hecho que sus entornos sin código o de bajo código sean más flexibles para el código generado por humanos refleja la frecuente necesidad de adaptar los conductos de aprendizaje automático al caso de uso respectivo, por ejemplo, con respecto a métricas de error específicas o pasos específicos de preprocesamiento de datos.

Como ya se ha mencionado, la flexibilidad suele ser importante en los proyectos de ciencia de datos. Si este es el caso, se requiere experiencia en programación para adaptar la canalización de ML a un caso de uso específico. Además, se requieren conocimientos de aprendizaje automático para interpretar los resultados de un modelo y tomar medidas para mejorar los resultados de predicción insatisfactorios o sesgados. Por lo tanto, las herramientas de ML automático las utilizan mejor los científicos de datos experimentados.

El paso final del proyecto de ML es trasladar adecuadamente los resultados predictivos de un modelo al mundo empresarial para responder a la pregunta de negocio original. Esto puede implicar la visualización de los resultados en un cuadro de mando y la integración del modelo en un sistema de IA que las partes interesadas puedan utilizar y comprender fácilmente, tareas clave que requieren científicos de datos humanos.

La experiencia de nuestro trabajo de consultoría también demuestra que hay muchos proyectos de ciencia de datos en los que el aprendizaje automático no es la mejor solución a un problema empresarial relacionado con los datos. El uso inteligente de estadísticas descriptivas, la combinación novedosa de conjuntos de datos, las técnicas de investigación de operaciones, la automatización de procesos sin aprendizaje automático y la visualización de datos en cuadros de mando interactivos son ejemplos de casos de uso de la ciencia de datos que no requieren Auto ML. Permanecen en el dominio de los científicos de datos humanos. En general, el aprendizaje automático en sí es sólo una técnica posible en la caja de herramientas de un científico de datos. Maximizar el valor para las partes interesadas es el objetivo central de un científico de datos, independientemente de la herramienta utilizada para lograr ese objetivo.

En resumen, Auto ML describe un nuevo conjunto de herramientas a un mayor nivel de abstracción que pueden facilitar el trabajo de un Científico de Datos automatizando tareas repetitivas en un proyecto de ML. El uso de estas herramientas requiere conocimientos de aprendizaje automático y estadística. Por lo tanto, normalmente las utilizan científicos de datos humanos. En un futuro previsible, el ML automático no sustituirá a los científicos de datos humanos porque muchos pasos de un proyecto de ciencia de datos son muy específicos de la aplicación -y, por tanto, difíciles de automatizar- o requieren interacción humana.

PD: Si estás tan interesado en automatizar procesos como yo, te estarás preguntando si Open AIs Chat GPT podría haber escrito este artículo. Hice un seguimiento de esta cuestión. Al hacerlo, mi experiencia fue que los argumentos a favor de la aplicabilidad de Auto ML dados por Chat GPT en respuesta a mi pregunta cubrían todos los aspectos importantes. Sin embargo, en mi opinión, la definición de Auto ML dada por Chat GPT no era del todo exacta y no todos los argumentos me resultaron convincentes. En general, mi conclusión es que sólo se puede juzgar si las respuestas de Chat GPT tienen realmente sentido con los conocimientos existentes sobre un tema. Si se dispone de conocimientos expertos, Chat GPT puede ser una herramienta útil para crear un primer borrador de texto o para comprobar el propio texto ya escrito.

Autor:inside

Dr. Stefan Lautenbacher

Stefan es científico de datos sénior en Alexander Thamm GmbH. Se unió al equipo [at] en mayo de 2021. Desde entonces, ha estado trabajando en una variedad de casos de uso, incluyendo la previsión financiera, la planificación de la cadena de suministro, la puntuación de crédito y la detección de objetos para la conducción autónoma. Guiado por su formación en economía, disfruta con la eficiencia y trabaja para encontrar las soluciones de ciencia de datos más eficaces en sus proyectos. En su tiempo libre, le apasiona hacer música, correr, hacer senderismo y jugar al voley playa.

0 comentarios