Desde la idea -por ejemplo, aumentar las ventas en línea de productos- hasta el producto de datos acabado -por ejemplo, la implantación de un sistema operativo Sistema de recomendación de productos en la web- un proyecto de ciencia de datos debe pasar por numerosas etapas. Actualmente, muchos proyectos de datos fracasan durante la fase de despliegue. En esta fase, el resultado de la fase de prototipo se transfiere a un producto de datos operativo y se integra en los respectivos procesos empresariales. Se trata de una de las fases más importantes del ciclo de vida de la ciencia de datos, ya que es aquí donde se decide si un proyecto puede realmente generar valor añadido a partir de los datos. Un proyecto puede fracasar en esta fase crítica debido a varios retos.
Estos retos incluyen problemas relacionados con los datos, como Calidad de los datosaspectos relacionados con la protección de datos o la falta de disponibilidad de los mismos. Además, la falta de competencias, los obstáculos en la cooperación entre el departamento empresarial, la ciencia de datos y TI, así como un panorama tecnológico complejo, dificultan el paso decisivo del prototipo al producto de datos. Basándonos en nuestra experiencia en más de 500 proyectos de datos, tenemos 3 Buenas prácticas que contribuyen al éxito en la fase de despliegue.
Inhaltsverzeichnis
1) Contratar a un ingeniero de datos desde el principio
En los últimos años, la Científico de datos como el "trabajo más sexy del siglo XXI". Aunque los científicos de datos son cruciales para el éxito de una Proyecto de ciencia de datos son indispensables, el papel de un Ingenieros de datos igual de importantes, e incluso más en la fase de despliegue.
No obstante ingeniería de datos no se le presta tanta atención como a la Ciencia de Datos. Un Data Scientist suele participar en la fase de desarrollo y creación de prototipos, por ejemplo, para desarrollar Machine Learning Algoritmos y desarrollar modelos estadísticos. Sin embargo, el verdadero cuello de botella de muchos proyectos de ciencia de datos es el Transferencia de estos modelos a un producto de datos estable y escalable - una de las principales tareas de un ingeniero de datos o de aprendizaje automático.
Transferencia de un prototipo a un producto de datos escalable
Esta transición es cualquier cosa menos trivial: durante la fase de desarrollo y creación de prototipos de un proyecto de ciencia de datos, se trata de seleccionar el modelo de aprendizaje adecuado y de experimentar rápidamente en el camino hacia la prueba de concepto. En cambio, durante la fase de despliegue, el proyecto de ciencia de datos se convierte en un Proyecto de desarrollo de software. Mientras que en un proyecto de ciencia de datos muchos pequeños cambios, como corregir errores en los datos, pueden hacerse manualmente, esto es imposible en un producto de datos escalable.
Estos retos en la fase de despliegue pueden abordarse mediante la participación temprana de ingenieros de datos y aprendizaje automático, idealmente con experiencia en el desarrollo y despliegue de software. La estrecha colaboración entre científicos e ingenieros en las primeras fases de un proyecto evita una deuda técnica desproporcionada y facilita la puesta en marcha.
2) Confíe en la nube
El uso de la nube pública se está generalizando, y no sólo en el campo de la ciencia de datos. Un destacado Un ejemplo de ello es Netflixque ya completó el cambio a Amazon Web Services (AWS) en 2016. Consideramos que esta decisión es pionera porque la tendencia a utilizar soluciones en la nube es un avance significativo para el uso productivo de la ciencia de datos y el aprendizaje automático. La razón es sencilla: Infraestructura como servicio, las llamadas soluciones IaaS, ofrecen la flexibilidad que los proyectos de ciencia de datos necesitan intrínsecamente. Los requisitos y las condiciones marco en el transcurso de un proyecto cambian enormemente de forma natural a lo largo de su ciclo de vida.
En las primeras fases, los proyectos de datos requieren un enfoque exploratorio caracterizado por iteraciones rápidas y experimentación frecuente. Esto suele dar lugar a picos de carga para el entrenamiento de modelos de aprendizaje automático y/o a la necesidad de hardware especializado, como las GPU (unidades de procesamiento gráfico). Dependiendo del caso de uso, la operación productiva tiene requisitos muy diversos. Cubrir ambas fases (desarrollo y operación) a través de un entorno de hardware homogéneo e inflexible, como el que se encuentra en muchas infraestructuras locales, a menudo conduce a una discrepancia entre los requisitos y las tecnologías utilizadas.
La nube para necesidades fluctuantes de almacenamiento y capacidad informática
La nube, por su parte, ofrece soluciones informáticas y de almacenamiento flexibles y escalables que se adaptan sin problemas a las necesidades fluctuantes de una empresa típica. Ciclo de vida de la ciencia de datos pueden adaptarse. Además, desde hace algún tiempo los proveedores de nube ofrecen cada vez más infraestructuras especializadas para Métodos de aprendizaje automático como el aprendizaje profundo. Por lo tanto, en algunos casos, los requisitos de hardware solo pueden realizarse a través de la nube. En algunos casos, esto puede aumentar significativamente la velocidad de desarrollo.
Descubra por qué debe confiar en la nube para sus proyectos en nuestro artículo sobre el tema "4 razones por las que las empresas deberían confiar en las tecnologías en nube„
Otro reto clave en la ejecución de proyectos de ciencia de datos es garantizar que los Entorno de desarrollo del entorno productivo lo más cercano posible corresponde. La computación en nube lo facilita utilizando paradigmas modernos como la Infraestructura como Código. Además, el suministro flexible de infraestructura a la carta permite ajustar el hardware y el software a los requisitos de un proyecto o incluso de una sola tarea. Esta "adecuación" rentable de la infraestructura es difícil de conseguir fuera de la nube pública.
3) Integrar el producto de datos en una estrategia de datos global
Por último, conviene dejar de lado por un momento todos los entresijos técnicos y los detalles del proceso de entrega. La preocupación central de una organización basada en datos es una clara Visión y Estrategia para crear valor a partir de Datos. Por tanto, los directivos deben centrarse en obtener los datos adecuados para alcanzar sus objetivos estratégicos. Para beneficiarse de los proyectos de ciencia de datos e inteligencia artificial a largo plazo, es importante, estratégico invertir en la recopilación de datos. Por tanto, cada producto de datos debe considerarse desde la perspectiva de la estrategia de datos e integrarse en ella.
Por ejemplo, uno de los principales fabricantes de electrodomésticos ha dado prioridad al desarrollo de una solución en tiempo real para la gestión de los residuos.Canalización de datos para recoger los datos producidos por los más de 1,5 millones de dispositivos conectados en todo el mundo. Además, la empresa invirtió mucho en modernas Infraestructura de datostanto en las instalaciones como en la nube. Ahora estas inversiones pueden aprovecharse a través de una variedad de casos de uso avanzados.
El producto de datos en el contexto general
Según nuestra experiencia, muchos proyectos de ciencia de datos fracasan porque la base de datos existente los hace imposibles. Además, debido al aumento de la información sobre el potencial de AI se crean falsas expectativas. Por supuesto, estamos firmemente convencidos de que no se puede eludir el hecho de que las empresas deben generar valor a partir de sus datos. Pero esto solo se consigue si la digitalización de las empresas precede a la fase de ciencia de datos.
No tiene mucho sentido implementar casos de uso avanzados desde el principio si el Base de datos (basado vagamente en el lema: "hay que aprender a hacer fuego antes de poder disparar un cohete a la luna"). Por eso, sobre todo al principio, es importante centrarse en la sencillez. Casos prácticos que produzcan resultados rápidamente, al tiempo que se trabaja en una estrategia de datos a largo plazo.
Como las empresas se basan en los datos, también necesitan evolucionar como organización, ya sea en cuanto a la Cultura de empresa o con respecto a la construcción de Conocimientos de datos y Conocimientos técnicos - es importante tener siempre presente la motivación de los empleados. Esto crea gradualmente la base para aplicaciones avanzadas de IA.
0 comentarios