Los macrodatos encierran una gran oportunidad para aumentar el volumen de negocio de una empresa y son, por tanto, una piedra angular universal para el éxito intersectorial. Para poder tratar grandes cantidades de datos, se necesita una recopilación de datos que sea adecuada para fines de análisis. Aquí es donde entra en juego el almacenamiento de datos, que permite a las empresas hacer precisamente eso. Además del almacenamiento de datos, hoy en día existen métodos alternativos, como los lagos de datos o las mallas de datos, que pueden satisfacer mejor las necesidades del usuario. Entonces, ¿qué forma de recopilación de datos es más eficiente en cada momento?
Los distintos tipos de recopilación de datos y su evaluación han cambiado y evolucionado mucho en las últimas décadas. Debido a los nuevos desarrollos que trabajan con datos brutos basados en la nube, el almacén de datos, establecido desde hace mucho tiempo, corre el riesgo de perder contacto. Sin embargo, la nube también aporta nuevos desarrollos de los que se beneficia el almacén de datos. Por lo tanto, para poder evaluar este escenario y, posteriormente, tomar una decisión informada, es importante conocer cómo funcionan el almacenamiento de datos y los posibles métodos competidores.
Inhaltsverzeichnis
Surgimiento del almacén de datos
La invención del almacén de datos en los años 80 sentó las bases de la gestión de la información en las grandes empresas. Con el inicio de la digitalización, creció el deseo de las empresas de recopilar y analizar datos de forma centralizada en un contexto más amplio. De este modo, las decisiones internas y externas pueden tomarse cada vez más sobre la base de hechos. Esto conlleva diversas ventajas en distintos ámbitos empresariales, de las que también pueden beneficiarse los consumidores.
¿Cómo funciona un almacén de datos?
La palabra designa generalmente un sistema de base de datos basado en el concepto de almacén de datos. Constituye la base de la gestión de la información orientada al análisis. Para ello, los datos se introducen en un software de gestión de datos según el modelo de cascada. Los datos se extraen de las memorias locales y se introducen en una base de datos central. A continuación, los datos se transfieren a un modelo de datos relacional o multidimensional. Sobre esta base, el conjunto de datos puede evaluarse de forma centralizada y los sistemas operativos individuales pueden liberarse de su función y complementarse. Sin embargo, los elevados costes de las licencias de hardware y software, así como la duración y el esfuerzo, limitaron y obstaculizaron el único éxito del almacenamiento de datos a largo plazo.
Ventajas de un almacén de datos
Aunque ya se observan novedades como el data mesh, el data warehousing sigue teniendo una comprensible razón de ser. El informático y escritor estadounidense Bill Inmon describe los siguientes sectores que pueden beneficiarse del data warehousing:
- Orientación temática
- Unificación
- Orientación temporal
- Resistencia
- la caracterización simplificada
Mientras tanto, sin embargo, otras formas de recopilación y análisis de datos ofrecen ventajas en estos ámbitos. Además, el almacenamiento de datos también alberga problemas potenciales que es necesario debatir.
Limitaciones
Costes
A pesar de diversas ventajas, el enfoque en cascada adolece de limitaciones de uso, ya que se necesitan grandes capacidades de almacenamiento, además de licencias de software que hay que adquirir. En los años 80, los registros de datos aún se almacenaban localmente, lo que cambió con el Computación en nube ha cambiado en gran medida en la actualidad. En aquella época, sin embargo, las grandes capacidades de almacenamiento ocasionaban considerables cargas financieras, que al principio contradecían la consecución de objetivos como la reducción de costes y el aumento del volumen de negocio.
Esfuerzo
Un almacén de datos también requiere ratios coordinados globalmente para que los análisis puedan llevarse a cabo con eficacia. Esto supone una larga fase de coordinación y especificación, que requiere mucho tiempo. Después viene la implementación, que a menudo revela errores e incoherencias, lo que a su vez puede dificultar la usabilidad o generar más costes.
¿Cómo funcionan los lagos de datos?
En 2010, se abrió un nuevo mundo de recopilación y análisis de datos, aparte del almacenamiento de datos, mediante el concepto de "lago de datos". Para ello, se recopilan tantos datos internos y externos como sea posible, que solo se fusionan y clasifican en el caso de la aplicación. En consecuencia, se requiere mucha menos capacidad de almacenamiento debido a la menor complejidad de los datos.
Ventajas de los lagos de datos
Costes
Los datos almacenados son datos en bruto sin formatear, lo que requiere mucho menos espacio de almacenamiento y permite un acceso flexible y ágil. Esto significa que los "big data" pueden procesarse de forma más eficiente. Mientras tanto, varios proveedores de almacenamiento en la nube ofrecen la evaluación y el análisis de los conjuntos de datos allí almacenados.
Esfuerzo y flexibilidad
El almacenamiento de datos brutos y sin clasificar también facilita la inclusión de los datos más recientes de una recopilación de datos. En comparación, las clasificaciones que hay que realizar periódicamente en los almacenes de datos ralentizan el proceso de análisis.
Limitaciones de los lagos de datos
Inexactitud
Si los análisis se realizan con datos procedentes de un lago de datos, es difícil excluir partes de los datos brutos porque los datos aún no se han clasificado. Esto significa que siempre se trabaja con todo el conjunto de datos desde cero, aunque los científicos de datos puedan hacer selecciones selectivas.
Seguridad
Dado que la recopilación de datos para los lagos de datos se encuentra ahora en su mayor parte en una nube, es esencial que el Seguridad de esta nube puede garantizarse. Sin embargo, los proveedores más conocidos operan hoy en día con un alto nivel de seguridad.
Accesibilidad
El tratamiento de los lagos de datos sin herramientas de BI ni capas de acceso modelizadas requiere especialistas en software que constituyan la interfaz entre la informática y la empresa. Por tanto, la accesibilidad solo es posible de forma limitada sin optimizaciones.
Malla de datos
Según los últimos avances, los data pools se utilizan ahora para el enfoque aún más novedoso de "malla de datos". Se trata de un desarrollo en el que diferentes lagos de datos se combinan según dominios temáticos y se utilizan con fines de análisis. Esta estructuración específica de los datos brutos sin clasificar, como la que se encuentra en los lagos de datos, conduce a una mejor usabilidad de los diferentes conjuntos de datos y actualmente se considera un enfoque muy prometedor.
Ventajas de la malla de datos
El enfoque descentralizado de la malla de datos ofrece mejoras en los ámbitos de la organización y la escalabilidad, lo que conlleva responsabilidades más transparentes en la aplicación. Para ello, el objetivo es mantener la cooperación entre la recogida y el procesamiento de datos lo más estrecha posible para lograr más calidad.
Limitaciones de la malla de datos
Para que el paradigma de la malla de datos funcione óptimamente, requiere mejores estructuras organizativas y líneas claras de responsabilidad. Además, debe haber información clara sobre la propiedad y el origen de cada dato para que no surjan ambigüedades.
Banco de datos frente a almacén de datos
Con las nuevas opciones de almacenamiento en la nube, la importancia de Apache Hadoop como base de muchos lagos de datos disminuyó. Los patrones de arquitectura complementarios también condujeron a una clasificación muy diferente de los lagos de datos y el almacenamiento de datos, entre otras cosas debido a las características técnicas de los componentes de la pila de Apache Hadoop.
Gracias a los nuevos avances técnicos, ahora es posible procesar los eDWH clásicos sobre la misma base tecnológica que los Data Lakes. Las complejas cuestiones que deben resolverse en un eDWH siguen siendo las mismas independientemente de estos factores. Algunos ejemplos son:
- Conexión de interfaz
- Modelización de datos
- Definición de ratio
- Descripción de metadatos
- Definición de procesos y responsabilidades para las tareas de gobernanza
Este desarrollo moderniza la facilidad de uso de los almacenes de datos y facilita el uso combinado de almacenes y lagos de datos.
El futuro de los almacenes y lagos de datos
El almacenamiento de datos se ha beneficiado del desarrollo técnico desde la década de 1980, lo que ha aumentado definitivamente su competitividad con los lagos de datos. Hoy en día, los almacenes de datos siguen teniendo sentido para determinadas empresas o instituciones debido a las nuevas formas de almacenamiento, como la nube, y se utilizan sobre todo en combinación con los lagos de datos.
Lo que sigue haciendo atractivo el concepto de almacén de datos es su accesibilidad para todos los empleados de una empresa, mientras que para tratar con lagos de datos se necesitan especialistas. Este Grandes datos Los especialistas en software están muy solicitados en el mercado laboral y, por tanto, son difíciles de encontrar.
Cabe suponer que el Nube y los posibles nuevos desarrollos en este sentido son el factor decisivo para el futuro del almacenamiento de datos. Si en el futuro también mejora la facilidad de uso para diversos grupos profesionales y "no especialistas" mediante herramientas de BI o capas de acceso modelizadas, el almacenamiento de datos será quizá más relevante que nunca.
0 comentarios