Inhaltsverzeichnis
[at] forma a sus propios expertos en datos e IA
Desde hace varios años, [at] forma a científicos e ingenieros de datos a través de un programa de prácticas. Durante el programa, de un año de duración, los becarios rotan por varios equipos de [at] para trabajar en diferentes proyectos y adquirir así experiencia en diversos campos.
Como novedad, en 2020 se introdujo el data.camp, un taller de cuatro días en el que todos los becarios trabajan juntos en un proyecto conjunto de su elección. El objetivo es fomentar el trabajo en equipo y adquirir experiencia práctica.
Para no distraernos con el día a día, el data.camp suele celebrarse en las salas de proyectos de Austria. Debido a la pandemia de Corona, el primer data.camp de octubre de 2020 tuvo que celebrarse en la oficina de Múnich. Sin embargo, el equipo pudo utilizar el nuevo espacio de oficinas [at] (en el mismo edificio) para tener al menos una especie de sensación de "campamento".
Aquí encontrará más información sobre los programas de prácticas para científicos de datos e ingenieros de datos.
Tema del primer data.camp: búsqueda automatizada en Google
El tema del primer data.camp se basó en un proyecto en curso de un cliente. Elegimos el tema de la búsqueda automatizada en Google porque abarca tres áreas fundamentales: análisis, ingeniería y visualización. El marco original del proyecto era el siguiente:
Cuando los empleados de un cliente [en] necesitaban un proveedor para un requisito específico, enviaban sus solicitudes a la gestión de proveedores. Allí, otro empleado buscaba en Internet un proveedor adecuado; por ejemplo, una solicitud sobre formación en IA. La tarea de [at] consistía en automatizar este proceso.
Al principio, los compañeros de [at] ya habían desarrollado un algoritmo cuya entrada era un texto de demanda y cuya salida era una lista de posibles proveedores (véase más abajo). En primer lugar, el algoritmo extraía frases clave del texto de la demanda y creaba consultas de búsqueda a partir de ellas. Estas consultas de búsqueda se enviaron a Google para obtener una lista de posibles empresas. Para asegurarse de que se trataba de empresas, se cotejaron con la base de datos de empresas Crunchbase. De todas las empresas verificadas, se recuperó una descripción de la web (de nuevo, una búsqueda en Google), que luego se comparó con el texto original de la consulta (mediante procesamiento del lenguaje natural). Por último, el algoritmo devolvía todas las empresas cuyas descripciones se parecían lo suficiente al texto de la consulta.
Entorno del proyecto: Naturalmente ágil
Como los proyectos de datos cambian constantemente con los nuevos avances, utilizamos Scrum como marco para trabajar de forma ágil.
Nombramos a un Scrum Master, un Product Owner y cinco desarrolladores. Cada día teníamos que coordinar varias reuniones de Scrum. Esto hizo que el data.camp fuera una buena oportunidad para probar Scrum y todos sus conceptos.
Entre bastidores, compañeros con experiencia [en] estaban disponibles como recurso para nuestras preguntas. Esto nos permitió avanzar muy rápidamente y desarrollar soluciones profesionales.
Avances en el aprendizaje en los ámbitos de la analítica, la ingeniería y la visualización
Cualquiera que haya participado alguna vez en un hackathon sabrá lo mucho que se puede conseguir en unos pocos días. Ese fue nuestro planteamiento:
En una línea de trabajo, mejoramos las capacidades de procesamiento de lenguaje natural del algoritmo. Como los textos de consulta solían versar sobre tecnologías, enseñamos al algoritmo ejemplos de palabras que nos interesaban (por ejemplo, "realidad aumentada" o "aprendizaje automático"). Esto nos permitió crear mejores consultas a partir de los textos de demanda.
Al principio, el tiempo de ejecución de todo el algoritmo era de unos 30 minutos. Dado que esto no solo da lugar a una mala experiencia del cliente, sino que también dificulta mucho el desarrollo (imagina esperar 30 minutos cada vez que quieres probar algo), otra línea de trabajo tenía como objetivo reducir el tiempo de ejecución. Aumentamos la potencia de cálculo trasladando el proyecto a la nube y descargamos la base de datos de Crunchbase (para la verificación de la empresa) para utilizarla localmente en lugar de hacer llamadas a la API para cada verificación. Ambas medidas redujeron el tiempo de ejecución a solo 2,5 minutos.
© [at] © [at]
Por lo general, en un servicio de aprendizaje automático ocurren muchas cosas entre bastidores: basta pensar en todos los pasos de nuestro algoritmo para convertir un simple texto de consulta en una lista de empresas. Aunque para el usuario final puede ser muy cómodo que toda esta complejidad esté oculta, algunos pueden necesitar entender cómo se ha recuperado el resultado final. Por lo tanto, en el último flujo de trabajo, todos los resultados intermedios se emitieron y mostraron en una aplicación en tiempo real.
Resumen y conclusiones
"Aprendimos mucho y nos divertimos mucho en el proceso" es un muy buen resumen del primer data.camp. Además del aprendizaje técnico en analítica, ingeniería y visualización, adquirimos una experiencia muy valiosa en el trabajo con Scrum. Además, este tipo de cooperación ha reforzado el espíritu de equipo de los alumnos, del que nos beneficiaremos mucho después de este data.camp.
Nuestros becarios del 20 de octubre
Daniel, Louis, Thanos, Simon, Sebastian, Julian, Luca (en la pantalla del portátil)
0 comentarios