Durante mucho tiempo, el almacén de datos se consideró la fuente central de todos los análisis de datos. En el curso de la creciente digitalización y la consiguiente masa de datos disponibles, el lago de datos ha superado al almacén de datos clásico. Numerosos casos de uso del contexto de la Industria 4.0 son inconcebibles sin una plataforma de datos adecuada basada en el concepto de lago de datos.
Inhaltsverzeichnis
La arquitectura de datos
La arquitectura adecuada para el tratamiento de los datos disponibles estaba claramente definida desde los años noventa. Un almacén de datos singular (de empresa) ideal recoge los datos relevantes de los distintos sistemas fuente operativos en un enfoque hub & spoke y los armoniza, integra y persiste en un proceso de integración y refinamiento de datos de múltiples capas. De este modo, se crea un único punto de verdad desde el punto de vista de los datos, a partir del cual, a su vez, los extractos de datos -normalmente en una preparación multidimensional- se almacenan posteriormente en data marts definibles para diferentes casos de uso. El usuario accede a este tesoro de datos a través de herramientas de información y análisis (business intelligence). La atención se centra principalmente en el análisis más orientado al pasado de ratios a lo largo de estructuras de evaluación consolidadas.
Características de un almacén de datos
La característica esencial del almacén de datos es representar una verdad válida y consolidada sobre todos los datos estructurados de una empresa. Además de esta visión uniforme de los datos de la empresa, el almacén de datos pone a disposición los datos para su evaluación optimizados en un modelo de datos estricto y predefinido. Este Elevada exigencia de corrección y grado de armonización normalmente provocaba que se tardara bastante tiempo en Datos de una nueva fuente de datos se integran en la vista consolidada, ya que se requiere un gran esfuerzo conceptual y de coordinación previo.
Rápida preparación de datos con el lago de datos
Con la aparición de nuevas fuentes de datos, como las redes sociales o los datos de IoT, ha aumentado la necesidad de que estén disponibles en una plataforma de datos. Gran parte de estos datos están entonces disponibles en forma semiestructurada o no estructurada. Con la creciente relevancia de estas fuentes de datos, nació la idea del lago de datos. El objetivo del lago de datos es que todas las fuentes de datos -internas y externas, estructuradas y poliestructuradas- estén disponibles como datos brutos, incluso en su forma no procesada, para disponer de ellos lo antes posible. El sitio Gestión eficaz de grandes cantidades de datosEl lago de datos se centra en el procesamiento rápido de flujos de datos y el dominio de análisis complejos en detrimento de la armonización e integración de los datos.
Almacén de datos frente a lago de datos
En comparación con el almacén de datos, el lago de datos se centra más en la Integración de diversas fuentes de datos con la mayor agilidad y flexibilidad posibles en primer plano, a fin de crear la base de datos para una amplia gama de análisis avanzados de datos, que normalmente ni siquiera se definen en el momento del almacenamiento de los datos. El lago de datos es, por tanto, el Eldorado para la Científico de datosque desee realizar análisis exploratorios, como análisis de conglomerados y asociaciones, simulaciones y predicciones mediante algoritmos complejos. Esto también deja claro que un lago de datos no sustituye a un almacén de datos, sino que lo complementa. Ambos conceptos arquitectónicos tienen su relevancia y sirven para diferentes casos de uso.
Almacén de datos | Lago de datos | |
Datos | - Sin almacenamiento de datos brutos - Datos estructurados - Esquema en escritura: los datos se transforman en un esquema específico antes de cargarse en el almacén de datos. | - Almacenamiento de datos brutos - Flexible en cuanto a la estructura de los datos (no estructurados y estructurados) - Esquema en lectura: Reconocimiento automático del esquema durante el proceso de lectura. |
Tratamiento | Capa de datos inseparable de la de procesamiento | Muy flexible porque dispone de diferentes marcos de procesamiento para diferentes tareas. |
Analítica | Estadísticas descriptivas | Análisis avanzados |
Agilidad | - Agilidad reducida - Configuración fija - No es posible realizar análisis ad hoc | - Gran agilidad - Configuración personalizable - Posibilidad de análisis ad hoc |
Seguridad | Maduro | - Debido a la multitud de tecnologías que se utilizan en un lago de datos, son necesarias múltiples configuraciones. - Las directrices de seguridad son más complejas |
En la industria, hay dos grandes motores profesionales para el uso de los Data Lakes: El Optimización de la producción y el Ofrecer productos mejores o nuevosy, en algunos casos, modelos de negocio completamente nuevos. La base de los casos de uso es aquí el "gemelo digital", es decir, la imagen digital de las propias máquinas producidas y la conexión de éstas al lago de datos con actualizaciones de datos casi en tiempo real. En la práctica hay que superar dos obstáculos importantes: Los datos maestros necesarios sobre materiales y componentes se encuentran en sistemas de distintas unidades organizativas que aún no se comunican entre sí de forma automática. Además, a nivel técnico se utilizan protocolos diferentes, por lo que primero hay que reequipar los componentes de comunicación como requisito previo para que los datos estén disponibles.
La tecnología
La primera generación de Data Lakes eran sistemas basados en la pila Apache Hadoop en su propio centro de datos. Con estas primeras plataformas, la complejidad de la tecnología, formada por numerosos componentes de código abierto, así como la conexión en los plazos requeridos también suponían un reto. Debido al cambio en la situación del mercado de los proveedores de distribución comercial y a la estrategia general de mayor uso de la nube, esto está cambiando para los lagos de datos de segunda generación: En el caso de Uso de servicios nativos en la nube y o Entornos Hadoop dedicados y gestionados la complejidad de la gestión de la plataforma básica se ha simplificado enormemente. Esto ha reducido la barrera de entrada y ahora hace posible que casi cualquier tamaño de empresa pueda utilizarla.
Sin embargo, sigue siendo válida la recomendación de que la tecnología sólo se despliegue una vez que se haya definido una clara evaluación de los casos de uso y una priorización en una hoja de ruta como piedra angular del despliegue.
Elegir la tecnología adecuada
La elección de los componentes que se van a utilizar inicialmente debe hacerse con cuidado y se debe llevar a cabo una búsqueda y evaluación continuas de alternativas del mercado comercial, de código abierto y de código abierto. Nube opciones de servicios para poder crear un valor añadido óptimo para la empresa.
A la hora de seleccionar los componentes que se utilizarán para la propia empresa, en el uso industrial no sólo se presta atención a los requisitos funcionales, sino también a la protección de los secretos comerciales frente a los competidores (globales) y a los aspectos legales, como el uso de la plataforma con datos procedentes de países en los que los requisitos legales restringen geográficamente el intercambio de datos. Una característica especial para los fabricantes de máquinas es el reto adicional de acceder a los datos de sus propias máquinas en el contexto del cliente, ya que a menudo se utilizan en combinación máquinas de distintos fabricantes y los clientes, a su vez, no revelan todos los datos para proteger a su empresa.
Otra área de tensión está formada por las exigencias de la producción Casos prácticos frente a las necesidades de la ciencia de datos Los usuarios. También en este caso el enfoque ha cambiado con el tiempo: Al principio, se construyeron plataformas que podían dar servicio a todos los perfiles de usuario -desde proporcionar una API para un portal de clientes con elevados requisitos de tiempo de respuesta, hasta complejas consultas analíticas-, pero cada vez es más factible dividirlos en diferentes plataformas técnicas.
Las condiciones clave en la práctica
A la hora de poner en marcha una iniciativa de lago de datos, las condiciones clave para el éxito de la implantación son similares a las de la implantación de un almacén central de datos: son elementales una decisión firme de la dirección de poner en marcha y utilizar una iniciativa de plataforma central y la estrecha cooperación resultante entre la empresa y las TI de producción, y posiblemente también de desarrollo de productos, que a menudo no se ha practicado hasta ahora. De este modo no sólo se reúne una amplia gama de datos, sino que también se unifica el conocimiento sobre estos datos, como las señales de los sensores individuales y la interpretación de los estados como sistema.
Por último, pero no por ello menos importante, el funcionamiento de un lago de datos debe establecerse de forma flexible y holística: La mejor práctica ha sido un filosofía que desarrolla continuamente la plataforma y la mantiene estable en funcionamiento.
Conclusión
En resumen, toda iniciativa Industrie 4.0 necesita una plataforma de lago de datos. La barrera tecnológica de entrada ha caído, pero aún requiere una planificación sólida de la arquitectura. La base debe ser una hoja de ruta para el despliegue de casos de uso. Para maximizar la creación de valor resultante a largo plazo, también es importante crear las condiciones organizativas necesarias para el uso satisfactorio de una plataforma de lago de datos, además de la tecnología.
0 comentarios