Conceptos básicos, casos de uso y ventajas de un lago de datos: todo lo que las empresas necesitan saber sobre los lagos de datos

de | 8 noviembre 2018 | Conceptos básicos

Hoy en día, cada persona genera una media de 600-700 megabytes de datos al día, en el trabajo o en privado. En el ámbito de la Industria 4.0 en particular se generan grandes cantidades de datos. Sensores que proporcionan valores sobre su entorno o datos que se almacenan en redes. IoT-Los datos que se registran en Internet y en los dispositivos son sólo dos de las innumerables fuentes de datos que dan lugar a una auténtica avalancha de información en las empresas de hoy en día. Ahí es donde entra en juego el lago de datos.

La cuestión crucial ante los flujos de datos es: ¿cómo extraer valor añadido de las enormes cantidades de datos? Para resolver este problema, la El lago de datos, clave. Un lago de datos ofrece la posibilidad de almacenar una gran cantidad y variedad de datos y, al mismo tiempo, utilizarlos eficazmente para Evaluaciones de datos (Análisis de grandes volúmenes de datos).

¿Qué es un lago de datos? A Lago de datos (literalmente: "lago de datos") puede describirse mejor como un disco duro sobredimensionado imagínese. En lugar de almacenar los datos en carpetas distribuidas en distintas ubicaciones, un lago de datos reúne datos de distintas fuentes. Todos los datos en un solo lugar. Siguiendo con la metáfora, se trata de un embalse que, como un lago, tiene muchas fuentes y afluencias. El término en sí se remonta a James Dixon, fundador y CTO de Pentaho. Él definió el lago de datos de la siguiente manera:

"Si pensamos en un datamart como un almacén de agua embotellada -limpia, envasada y estructurada para facilitar su consumo-, el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinarlo, sumergirse en él o tomar muestras".

En una empresa, esto significa que, por ejemplo, no cada departamento individual crea y evalúa su propia recopilación de datos, sino que existe un lugar común donde se almacenan todos los datos. Los datos de fuentes externas también se almacenan allí. Fuentes de datos (datos de mercado, datos meteorológicos, datos de redes sociales, etc.) que deben evaluarse también se almacenan. Sin embargo, un lago de datos es algo más que una única gran ubicación de almacenamiento para todos los datos de una empresa.

Lago de datos frente a almacén de datos

Los dos términos Lago de datos y Almacén de datos suelen utilizarse juntos. A menudo se afirma que el lago de datos no es más que una nueva versión del almacén de datos. Sin embargo, básicamente sólo hay una cosa en común entre las dos formas de almacenamiento de datos: Ambos sistemas sirven para almacenar datos.

EnlaceIndependientemente de dónde se almacenen los datos, siempre es importante que el análisis de datos cuente con un alto nivel de seguridad. Calidad de los datos - lea aquí cómo puede garantizarse.

En comparación con otras formas de almacenamiento de datos como bases de datos relacionales o un Almacén de datos Los datos que se almacenan en un lago de datos no se preparan especialmente de antemano. Más bien, acaban allí como datos en bruto o como datos no estructurados.

Comparación de las características centrales de los almacenes de datos y los lagos de datos
Comparación de las características centrales de los almacenes de datos y los lagos de datos

La diferencia esencial se hace evidente en la práctica. Un lago de datos es un catálogo centralizado Resumen de los conjuntos de datos distribuidos. La ventaja decisiva es que se pueden utilizar grandes cantidades de datos en su totalidad, independientemente de su uso concreto en casos individuales. Formato original se almacenan. Un almacén de datos sólo almacena conjuntos de datos preparados y organizados estructuralmente para su utilización directa en servicios de información empresarial.

Datos estructurados frente a datos no estructurados

Datos no estructurados tienen, en contraste con estructurado sin formato predefinido ni estructura formalizada por lo demás. Ejemplos de datos no estructurados que deben procesarse antes de ser evaluados son los datos de texto (como correos electrónicos, opiniones de clientes, mensajes en foros, etc.) o los datos de imágenes que pueden generarse, por ejemplo, durante la fabricación para garantizar la calidad de la producción.

Así pues, un lago de datos es mucho menos restrictivo a la hora de almacenar datos y, por tanto, ofrece mayor flexibilidad. Flexibilidad. En este puede estar permanentemente todos los flujos de datos disponibles fluyen hacia élFlujos de clics, archivos de registro, imágenes, datos de texto, datos de sensores, datos disponibles públicamente como publicaciones en redes sociales, etc. En lugar de limitarse a analizar correlaciones predefinidas, esta riqueza de datos aporta el requisito previo para Análisis avanzados.

La estructura básica de un lago de datos

En muchos casos, un lago de datos se basa en un "clúster Hadoop" o un "Sistema de Archivos Distribuidos Hadoop", o HDFS para abreviar. Un HDFS suele consistir en hardware disponible en el mercado. Esto lo hace especialmente rentable, ya que

  1. hardware disponible en el mercado es barato y
  2. el software utilizado y las extensiones Código abierto

Otra ventaja de un marco basado en Hadoop es que puede acomodar cualquier número de formatos de datos y volúmenes muy grandes. Sin embargo, un lago de datos también incluye otros muchos componentes. Para los usuarios de los lagos de datos, las interfaces de usuario de fácil comprensión son especialmente importantes. Herramientas como los cuadros de mando o los Visualización de datos proporcionan la visión de conjunto adecuada. Son el requisito previo para garantizar que los análisis de datos se traduzcan realmente en Acciones ser transferido.

La estructura básica de un lago de datos se divide en tres niveles: Adquisición de datos, preparación de datos y acceso a datos.
La estructura básica de un lago de datos se divide en tres niveles: Adquisición de datos, preparación de datos y acceso a datos.

Consejo de lectura: Lea más en este artículo sobre Visualización de datos y el poder de lo visual.

¿Qué ventajas ofrece un lago de datos?

En general, un lago de datos funciona como un gran almacén de datos (Repositorio) y, por tanto, es al mismo tiempo una plataforma de gestión de datos. Por tanto, la creación de un lago de datos es también una forma ideal de disolver o evitar los "silos de datos", los "cementerios de datos" o los "pantanos de datos".

Un repositorio común también aporta otra ventaja clave. Al facilitar y agilizar el acceso a una amplia variedad de datos de distintos orígenes, es posible conexiones latentes que de otro modo podrían permanecer ocultas. Suponiendo que haya una acumulación de quejas en el servicio para un determinado producto o función, esto puede hacerse visible en una evaluación en la garantía de calidad o directamente en la producción.

Además, un lago de datos desempeña un papel central en el contexto de un estrategia de datos ágil. Las empresas que desean acceder muy rápidamente a determinados datos encontrarán en el lago de datos una arquitectura que responde a sus necesidades. Además de por su rapidez, un lago de datos se caracteriza porque, en particular Cuestiones muy especializadas y complejas pueden responderse rápidamente. Gracias a estas posibilidades que ofrece un lago de datos, es posible Datos sobre un importante factor de producción en las empresas.

Nuestros servicios

A lo largo de los más de 500 proyectos de Data Science y Big Data que hemos llevado a cabo con éxito, hemos podido recopilar numerosas experiencias con Data Lakes. Basándonos en esta amplia experiencia, ofrecemos orientado al cliente, consultas estratégicas sobre las ventajas de un lago de datos en comparación con los almacenes de datos. También ofrecemos apoyo en la selección de marcos de software adecuados y en la gestión de proyectos para la implantación técnica de un lago de datos.

Para ello, ofrecemos a nuestros clientes Talleres de ciencia de datos para el desarrollo de estrategias individuales de almacenamiento de datos. Además, acompañamos a nuestros clientes en la implantación de un lago de datos si así lo solicitan. Los volúmenes de datos recopilados en un lago de datos permiten a nuestros clientes no solo mejorar sus proyectos de datos actuales, sino también utilizarlos de forma óptima para evolución futura estar preparados.

Vea el seminario web de nuestro experto Peter Schulz

YouTube

Al cargar el vídeo aceptas la política de privacidad de YouTube.
Más información

cargar Vídeo

Autor:inside

Michaela Tiedemann

Michaela Tiedemann forma parte del equipo de Alexander Thamm GmbH desde sus inicios. Ha participado activamente en el proceso de transformación de una empresa emergente, espontánea y dinámica en una empresa de éxito. Con la fundación de su propia familia, comenzó para Michaela Tiedemann un capítulo completamente nuevo. Sin embargo, dejar su trabajo no era una opción para la nueva madre. En su lugar, desarrolló una estrategia para conciliar su trabajo como Directora de Marketing con su papel de madre.

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *