Introducción a Data Mesh: cómo se benefician las empresas de la gestión descentralizada de datos

de | 11 septiembre 2023 | Conceptos básicos

La malla de datos describe la forma en que las empresas gestionan y utilizan sus datos. Como concepto avanzado de arquitectura de datos, una malla de datos pretende superar los retos de las estructuras de datos centralizadas y crear un paisaje de datos descentralizado y ágil. Permite conectar a propietarios, productores y consumidores de datos para mejorar el intercambio de información y hacer más eficientes los procesos basados en datos. De este modo, una malla de datos considera los datos como productos valiosos que son gestionados de forma independiente por los respectivos expertos del dominio y puestos a disposición de otros equipos. Pero, ¿cómo funciona exactamente este concepto, qué principios lo sustentan y cuáles son las ventajas y desventajas de aplicarlo? Este artículo ofrecerá una visión completa del mundo de la malla de datos y explicará cómo pueden beneficiarse las empresas de esta innovadora arquitectura de datos.

¿Qué es una malla de datos?

Data Mesh describe un concepto para la Arquitectura de datos en las empresas, cuyo objetivo es mejorar la Descentralizar la gestión de datos y mejorar los procesos basados en datos. El objetivo es conectar al propietario, al productor y al consumidor de los datos. Según su fundador, Zhamak Dehghani, el concepto de malla de datos debe abordar principalmente aquellos retos en los que las estructuras de datos centralizadas y monolíticas alcanzan sus límites. Esto se aplica sobre todo a la organización y accesibilidad de los datos. Con el enfoque de malla de datos Datos como productos y los consumidores de estos datos deben ser tratados como clientes. El principio de considerar los datos como productos pretende resolver los problemas de la Calidad de los datos y silos de datos heredados, también conocidos como "datos oscuros". Los datos oscuros son la información que las organizaciones recopilan, procesan y almacenan como parte de sus actividades empresariales habituales, pero que generalmente no utilizan para otros fines.

¿Cuáles son los 4 principios del concepto?

El concepto de malla de datos se basa en los 4 principios siguientes:

  1. Propiedad del dominioLos datos se organizan en una malla de datos en los llamados dominios, cada uno de los cuales corresponde a un área de negocio específica de una empresa. Los equipos dentro de estos dominios son responsables de la gestión, la garantía de calidad y la liberación de sus datos por sí mismos a través de expertos en el dominio. Esto crea una propiedad descentralizada de los datos, lo que aumenta la agilidad y la flexibilidad.
  2. Los datos como producto: La malla de datos trata los datos como productos, que son creados, mantenidos y puestos a disposición de usuarios internos o externos por los expertos en la materia antes mencionados, de acuerdo con funciones definidas. Esto significa que los productores y consumidores de datos trabajan directamente juntos, de forma similar a un equipo de desarrollo de productos, por ejemplo.
  3. Plataformas de datos de autoservicioEl concepto promueve el desarrollo de las denominadas "plataformas de autoservicio", que permiten a los equipos propietarios de los datos compartirlos utilizando métodos normalizados. API e interfaces fácilmente compartidos y accesibles. Esto facilita la colaboración entre equipos y reduce la dependencia de los sistemas centralizados. Plataformas de datos reducido. Además, este enfoque favorece la integración de datos, la garantía de calidad y la capacidad de análisis de los datos.
  4. Gobernanza informática federadaData Mesh promueve un sistema descentralizado Gobernanza de datos En la mayoría de los casos, se trata de una estructura en la que cada equipo de dominio tiene autoridad sobre sus propios datos y productos de datos, lo que garantiza el mantenimiento de la privacidad, la seguridad y el cumplimiento sin restringir la autonomía de los equipos propietarios de los datos. Sin embargo, también existen ciertas políticas y normas generales de gobernanza establecidas por un organismo central o una comunidad orientada a los datos.

¿Cuáles son las ventajas y los inconvenientes de una arquitectura de malla de datos?

Ventajas:

  • Escalabilidad o rentabilidadLa arquitectura distribuida de una malla de datos se basa en plataformas de datos en la nube y canales de flujo para la recopilación de datos en tiempo real, en lugar del procesamiento de datos por lotes. El almacenamiento en la nube ofrece una ventaja económica, ya que los equipos de datos reúnen los recursos según sus necesidades y solo pagan por el almacenamiento que utilizan. La flexibilidad permite añadir potencia informática adicional según sea necesario.
  • Calidad de los datosLa responsabilidad de los equipos sobre sus datos se traduce en una mayor calidad de los mismos, ya que poseen conocimientos específicos del ámbito.
  • Democratización de los datosLas arquitecturas de malla de datos, al simplificar las aplicaciones de autoservicio a partir de múltiples fuentes de datos, facilitan el acceso a los datos más allá de los recursos técnicos, como los científicos de datos, los ingenieros de datos y los desarrolladores. Este diseño orientado al dominio reduce los silos de datos y los cuellos de botella operativos, lo que permite una toma de decisiones más rápida y que los usuarios técnicos aprovechen mejor sus competencias.
  • Reducción de la deuda técnica: Las infraestructuras de datos centralizadas suelen crear la llamada deuda técnica debido a la complejidad y a la necesidad de colaboración para el mantenimiento. Al distribuir la canalización de datos por propiedad de dominio, los equipos de datos pueden responder mejor a las necesidades de sus consumidores de datos y reducir la carga del sistema de almacenamiento.
  • InteroperabilidadEl modelo Data Mesh fomenta la normalización de los campos de datos en todos los ámbitos, lo que facilita la interoperabilidad. Esta coherencia permite vincular fácilmente los datos y desarrollar aplicaciones que respondan mejor a las necesidades de las empresas.
  • Seguridad y conformidadLas arquitecturas de malla de datos respaldan prácticas de gobernanza más sólidas mediante la aplicación de normas de datos y controles de acceso a los datos sensibles. Esto garantiza el cumplimiento de la normativa gubernamental y permite realizar auditorías de datos.
Computación en nube - arquitectura e infraestructura: explicada de forma compacta, una vista isométrica de una ciudad dibujada gráficamente y rodeada de nubes.

La computación en nube permite a las empresas utilizar sus recursos informáticos de forma más flexible y rentable. Para ello, la arquitectura y la infraestructura de la nube desempeñan un papel fundamental. Descubra a qué aspectos debe prestar atención en nuestra entrada del blog:

Computación en nube - Arquitectura e infraestructura: explicado de forma compacta

Desventajas y retos:

  • ComplejidadLa gestión descentralizada de datos de una malla de datos puede dar lugar a una mayor complejidad, especialmente si no se presta suficiente atención a la integración, la protección y la seguridad de los datos. La integración de diferentes dominios, fuentes de datos y canalizaciones puede ser compleja y requerir amplios cambios en los procesos de datos existentes.
  • Mayores retos para la gobernanzaCon la malla de datos, las responsabilidades sobre los datos se reparten entre diferentes equipos de dominio. Esto puede complicar la gobernanza y la calidad de los datos, ya que el control y la responsabilidad de los datos se dividen entre los equipos. Puede resultar difícil establecer normas y políticas coherentes entre los distintos equipos, lo que puede dar lugar a incoherencias, ambigüedades en la interpretación de los datos y posibles fallos de seguridad.
  • Gastos generales gracias a la coordinación y la comunicaciónLa malla de datos se basa en responsabilidades de datos descentralizadas, por lo que los equipos de cada ámbito deben cooperar y comunicarse más para desarrollar y gestionar eficazmente los productos y canales de datos. Este mayor esfuerzo de coordinación puede suponer una sobrecarga adicional y una pérdida de tiempo, sobre todo cuando los equipos están repartidos por distintos lugares o zonas horarias.
  • Cambios culturalesLa introducción de una malla de datos requiere un cambio cultural en una empresa, ya que supone pasar de una toma de decisiones centralizada a una mayor autonomía de los equipos. Además, el paso de un enfoque centralizado a una malla de datos descentralizada suele conllevar también costes de implantación, además de tiempo.
Data Fabric - Optimización del ecosistema de datos para las empresas, Blog, Alexander Thamm GmbH, un maniquí andrógino con capa naranja en pose de ballet

En un mundo impulsado por los datos, Data Fabric trasciende las fronteras tradicionales. Descubra cómo un flujo de datos optimizado abre nuevas oportunidades de negocio.

Data Fabric: optimizar el ecosistema de datos para las empresas

¿Cuál es la diferencia con Data Fabric?

Malla de datos y Tejido de datos describen dos enfoques de la arquitectura de datos, pero tienen énfasis diferentes. Mientras que la malla de datos se centra en la gestión descentralizada de los datos y la autonomía de los equipos propietarios de los datos, y pretende ver los datos como productos y promueve la capacidad de autoservicio, una Tejido de datos Por otro lado, un enfoque de datos integrados que conecta a la perfección los distintos almacenes de datos, fuentes de datos y tecnologías de procesamiento de datos de una empresa. En Hace hincapié en la uniformidad y coherencia de los accesos a los datos y transformaciones y se esfuerza por centralizar el control de los datos para garantizar una visión uniforme de los mismos.

En relación con Seguridad de los datos Con una malla de datos, la responsabilidad recae en los equipos individuales, mientras que un tejido de datos es un sistema centralizado. Seguridad de los datos permite. Data Mesh hace hincapié en el control de los datos por parte del equipo, mientras que Data Fabric puede adoptar un control centralizado de los datos. Data Mesh es adecuado para entornos de datos complejos y escalables, mientras que Data Fabric está diseñado para facilitar la conexión y el procesamiento de extremo a extremo de grandes cantidades de datos en sistemas dispares.

A pesar del diferente enfoque de la malla de datos y el tejido de datos, los dos planteamientos pueden combinarse para desarrollar una estrategia de datos de extremo a extremo y generar beneficios de ambos enfoques. Una posibilidad es implantar un tejido de datos como infraestructura básica de datos en la que se basa el concepto de malla de datos. Esto proporciona una visión unificada de los datos, permite la integración de datos entre distintos sistemas y favorece la escalabilidad de la infraestructura de datos. Así, los equipos de la malla de datos disponen de una base sólida para acceder a datos integrados y de alta calidad, y no necesitan preocuparse por los aspectos técnicos de la integración de datos. Un enfoque alternativo consiste en implementar partes de la malla de datos en la estrategia de tejido de datos. En concreto, esto significa que la responsabilidad de los datos no sólo se distribuye a las unidades centrales, sino también a los equipos individuales del tejido de datos. Cada equipo se convierte en el denominado "propietario del producto de datos" para los datos que gestiona. Este enfoque refuerza la responsabilidad descentralizada y la colaboración, tal y como se definen en el concepto de malla de datos. Al mismo tiempo, el tejido de datos garantiza la infraestructura necesaria para que la integración, la calidad y la gobernanza de los datos sean coherentes y eficientes en todos los equipos.

Data Mesh vs Data Fabric, un robot humanoide con bata blanca, en Elegy, envuelto en una bata naranja, Alexander Thamm GmbH Blog

Data Mesh o Data Fabric: conozca qué enfoque es el adecuado para que su organización garantice una gestión e integración eficaces de los datos.

Data Mesh frente a Data Fabric: comparación de conceptos de gestión de datos

¿Cuál es la diferencia con el lago de datos?

Al igual que un tejido de datos, un Lago de datos un enfoque de la arquitectura de datos que difiere de un tejido de datos o una malla de datos, pero que también tiene algunas similitudes. A Data Lake es un almacenamiento centralque ingiere una gran cantidad de datos estructurados y no estructurados procedentes de diversas fuentes. Es una forma rentable de almacenar datos antes de analizarlos o cargarlos en otros sistemas. En un lago de datos, los datos pueden fusionarse y analizarse fácilmente, lo que lo convierte en una valiosa herramienta para Grandes datos análisis.

En cambio, una malla de datos está descentralizada porque distribuye la responsabilidad de los datos entre los equipos propietarios de los datos en los dominios. Cada equipo es responsable de gestionar sus propios datos y los pone a disposición de los demás equipos a través de interfaces normalizadas. Así se consigue una integración más estrecha entre las unidades de negocio y los propios datos, lo que aumenta la agilidad y la flexibilidad.

Aunque una malla de datos y un lago de datos (así como un tejido de datos) son enfoques diferentes, pueden combinarse en algunas situaciones. Por ejemplo, un lago de datos podría servir de base sobre la que aplicar los principios de la malla de datos o el tejido de datos para hacer posible una responsabilidad descentralizada de los datos o una infraestructura de datos unificada. Alternativamente, un lago de datos podría actuar como fuente central de datos al servicio de diferentes dominios. Incluso dentro de una malla de datos, los equipos y dominios individuales pueden generar sus propios lagos de datos para organizar sus datos.

Un lago de datos emblemático. La mejor forma de imaginar un lago de datos es como un disco duro de gran tamaño.

Descubra las ventajas de un lago de datos: la solución de almacenamiento central para grandes cantidades de datos procedentes de diversas fuentes, que permite un análisis y un uso eficaces.

Conceptos básicos, casos de uso y ventajas de un lago de datos: todo lo que las empresas necesitan saber sobre los lagos de datos

¿Qué soluciones de malla de datos existen?

Existen varias soluciones y herramientas que ayudan a las empresas a utilizar con éxito una malla de datos:

  • Servicios web de Amazon (AWS)AWS proporciona varias herramientas y servicios que pueden ayudar a implementar una malla de datos. Entre ellas se incluyen Amazon S3 para el almacenamiento de datos, Amazon Glue para la integración y transformación de datos y Amazon Athena para la consulta de datos.
  • Microsoft AzureAzure también ofrece una gama de herramientas para soportar arquitecturas de malla de datos. Entre ellas se incluyen, por ejemplo, Azure Data Factory para la integración y transformación de datos y Azure Synapse Analytics para la consulta de datos. Microsoft también proporciona Azure Data Lake Storage, un servicio para almacenar datos. Admite la integración de servicios de Azure y herramientas de terceros para garantizar un movimiento y procesamiento de datos sin fisuras.
  • IBM: Con IBM Data Fabric on Cloud Pak for Data, IBM ofrece una plataforma integrada de datos e IA que proporciona herramientas para el almacenamiento, la integración y la analítica de datos, creando un verdadero autoservicio de productos de datos de nivel empresarial.
  • TalendTalend describe a un proveedor de soluciones de integración y calidad de datos que, con su Catálogo de datos ofrece soporte para arquitecturas de malla de datos. Con esta herramienta es posible crear una malla de datos y compartir y gestionar los datos, entre otras cosas.

¿Cómo implantar una malla de datos en mi empresa?

La introducción de una malla de datos requiere una planificación cuidadosa y una aplicación paso a paso. A continuación se Flujo estándar del proceso de implantación de una malla de datos descritos en una empresa:

  1. Definir la estrategia de datos o identificar los dominios de datosEl primer paso debería ser definir objetivos y estrategias claros para el panorama de datos. Para ello también es útil, entre otras cosas, identificar y describir a los expertos del dominio y las áreas exactas de responsabilidad.
  2. Cambios organizativosUn cambio en la arquitectura de datos siempre va acompañado de un cambio en la cultura de cooperación en cuanto a la responsabilidad descentralizada de los datos. Por este motivo, los empleados deben recibir formación sobre sus nuevas funciones y responsabilidades.
  3. Aplicación tecnológica: La implementación técnica tiene lugar en el marco de la implantación de la plataforma de autoservicio, que permite a los equipos individuales crear y gestionar de forma independiente sus productos de datos en la arquitectura de datos de la malla de datos.
  4. Fomento de la gobernanza de datos federados y medidas de seguridadAl hacer la transición (especialmente desde una arquitectura de datos centralizada), es importante tener en cuenta que una malla de datos requiere una gobernanza federada, en la que la responsabilidad de la gestión de datos se comparte entre los distintos dominios de datos. Esto significa que cada equipo es responsable de la calidad de sus propios datos y del acceso a ellos. Esta mentalidad debe fomentarse en consecuencia.
  5. Seguimiento y evaluación: Mediante el seguimiento y la evaluación de los beneficios de la malla de datos, las estructuras y los procesos pueden adaptarse y optimizarse.

Conclusión

Una malla de datos es un concepto de arquitectura de datos descentralizada cuyo objetivo es mejorar la gestión de datos. Conecta a propietarios, productores y consumidores de datos considerándolos productos y fomentando el autoservicio. Debido a las ventajas de una malla de datos, como una buena escalabilidad, la democratización de los datos, la reducción de la deuda técnica o la interoperabilidad, esta arquitectura de datos descentralizada puede aportar grandes beneficios a las empresas. En combinación con enfoques similares, como un tejido de datos o un lago de datos, las empresas pueden mejorar su gestión de datos, fomentar la colaboración entre equipos y beneficiarse de las ventajas de una arquitectura de datos descentralizada.

Autor:inside

Patrick

Desde finales de 2021, Pat es responsable de Análisis Web y Publicación Web en Alexander Thamm GmbH y supervisa gran parte de nuestra presencia en línea. Para ello, se abre camino a golpes a través de cada actualización de Google o Wordpress y está encantado de dar al equipo consejos sobre cómo hacer que sus artículos o sus propios sitios web sean aún más comprensibles para el lector, así como para los motores de búsqueda.

0 comentarios