Las 5 medidas más importantes para optimizar la calidad de los datos

de | 17. enero 2018 | Conceptos básicos

En principio, parece trivial subrayar que una buena calidad de los datos es crucial para las empresas y organizaciones. Por un lado, puede garantizar la fiabilidad de los procesos. Por otro, los errores en los inventarios de datos pueden acarrear enormes costes financieros de seguimiento en determinadas circunstancias.

Independientemente de esto, una mala Calidad de los datos al hecho de que Los datos ya no representan correctamente la realidad y aumentar así su Valor perder. Sólo si se garantiza una calidad óptima de los datos pueden los modelos hacer afirmaciones precisas sobre determinadas condiciones, por ejemplo en la fábrica conectada en red o en otras áreas operativas.

Consejo de lectura: Lea el siguiente artículo para aprender a todas las fábricas pueden formar parte de la Industria 4.0.

Definición de la calidad de los datos y su importancia

Para los responsables de la toma de decisiones, la calidad de los datos es importante porque se basa en Base de Análisis de datos Tomar decisiones o Oportunidades de mercado tarifa. Por tanto, la calidad de los datos y la calidad de las decisiones están directamente relacionadas. La calidad de los datos puede definirse del siguiente modo: La calidad de los datos se caracteriza por el hecho de que los datos deben ser capaces de cumplir la finalidad en un contexto determinado.

Se pueden identificar cinco criterios principales que interactúan para garantizar la calidad de los datos: CorrecciónRelevancia y Fiabilidad de todos los datos, así como su Coherencia y por último su Disponibilidad en sistemas diferentes.

Además de esta definición bastante limitada, se puede nombrar toda una serie de términos que también influyen en la calidad de los datos:

  • Precisión
  • Integridad
  • Actualidad
  • Relevancia
  • Ventajas adicionales
  • Coherencia entre múltiples fuentes
  • Representación
  • Interpretabilidad
  • Comprensibilidad
  • Accesibilidad
  • Fiabilidad del sistema

Hemos agrupado esta variedad de aspectos en las 5 medidas más importantes que, según nuestra experiencia, conducen a una mejor calidad de los datos.

1. introducir el catálogo de datos

La calidad de los datos puede garantizarse incluso antes del propio proceso de recogida de datos. Mediante la definición preconceptualizada de un Catálogo de datos de propiedades -los llamados metadatos- con los que están equipados todos los objetos de datos. Este catálogo de datos es un medio importante para identificar datos posteriormente para su análisis y, al mismo tiempo, sirve para comprobar los datos en cuanto a su Integridad y sus Coherencia garantizar

De este modo, todo el conjunto de datos puede estructurarse de manera uniforme y protegerse tanto de redundancias como de duplicados. La siguiente figura muestra la Visualización de un conjunto de datosque se creó sin catálogo de datos. Todos los atributos que no estaban presentes se rellenaron en el conjunto de datos con una amplia variedad de valores como "desconocido", "desconocido", "varios" o "N/S". En un catálogo de datos, se habría utilizado un valor uniforme como "desconocido" para todos los valores desconocidos.

Visualización de un conjunto de datos
Visualización de un conjunto de datos

2. el principio de acierto a la primera

Las entradas incomprensibles, inexactas o incompletas son una fuente de errores que se multiplican rápidamente y cuya corrección resulta muy tediosa y lenta. Por ello, en lugar de comprobar la corrección de los datos a posteriori, es aconsejable asegurarse de que todos los datos son correctos directamente durante su creación o recopilación. Esta medida también se denomina "Principio de acierto a la primera". La corrección debe garantizarse directamente durante la introducción de los datos. En casos delicados, esta regla puede modificarse mediante la función Principio de los cuatro ojos completo.

El principio de la primera vez correcta se aplica a todos los empleados, pero también a los sistemas de recogida automática de datos que estén mal calibrados o proporcionen lecturas falsas por otros motivos. Siempre que se creen datos, las personas responsables deben garantizar que se almacenan correctamente a la primera. El objetivo del principio de "a la primera" es ActualidadEl Integridad y el Alcance de la información de Garantizar los datos.

3. limpieza y perfilado de datos

El fenómeno también es conocido en los sistemas privados: la basura de datos ralentiza los sistemas y procesos. Por eso hay que limpiar periódicamente los soportes de datos. Para ello existen numerosas aplicaciones y herramientas. Algoritmos están disponibles. Estos comprueban los tipos de datos y los convierten, reconocen y eliminan duplicados o completan datos incompletos. Depuración de datos ya casi nunca se hace manualmente debido a las grandes existencias de datos, aunque esto ocurra una y otra vez en determinados casos.

Con los programas y algoritmos ya existentes, la limpieza puede llevarse a cabo de forma eficaz. En el marco de la Perfiles de datos Los datos se examinan sistemáticamente en busca de errores, incoherencias y contradicciones. Los objetivos de la limpieza y el perfilado de datos son:

  • Contradicciones Evitar dentro de los conjuntos de datos
  • Interpretabilidad de los datos recibidos
  • Peligro de manipulación Evitar que los datos
  • Integridad Garantizar los datos

4. gestión de la calidad de los datos para un acceso permanente a los mismos

Una sistemática Gestión de la calidad de los datos contribuye permanentemente a mantener un alto nivel de calidad de los datos. Una opción estratégica disponible para la gestión de la calidad de los datos es: Gobernanza de datos. Existen muchas definiciones diferentes del término gobernanza de datos.

El aspecto importante para este contexto es que el acceso a todos los datos relevantes debe estar permanentemente garantizado. Esto se consigue aclarando responsabilidades y asignando derechos de acceso, que deben ser considerados y estar actualizados. El objetivo de la gestión de la calidad de los datos es siempre garantizar la Garantizar el acceso al sistema y también el Garantizar la seguridad del sistema. Por lo tanto, la gestión de la calidad de los datos también incluye la Integración de todos los datosEn otras palabras: el desmantelamiento de los silos de datos.

Consejo de lectura:Lea nuestro artículo básico para saber por qué La analítica de datos o ciencia de datos es clave para la transformación digital.

5 El principio de bucle cerrado

Garantizar una calidad óptima de los datos no es un reto singular, sino un proceso iterativo que debe estar firmemente anclado en las empresas y organizaciones. Dado que este proceso se repite una y otra vez, también se denomina Principio de bucle cerradoque la sustenta. Optimizar la calidad de los datos es, por tanto, una Proceso dinámico de mejora continuaque deben integrarse en todos los procesos empresariales centrales. Para garantizar una alta calidad constante, es aconsejable organizar cursos de formación y talleres a intervalos regulares para asegurar un éxito sostenible.

En camino hacia mejores datos: Identificar y asignar responsabilidades

Una de las preguntas cruciales que conducen a una mejor calidad de los datos es: "¿Quién es responsable de las medidas individuales?". El impulsor de la calidad de los datos suele ser el cumplimiento de las TI o la integración de los procesos, porque es precisamente aquí donde es relevante el cumplimiento de las leyes vigentes, como la ley de protección de datos, y la adhesión a las normas. Las empresas que buscan una respuesta "holística" a los retos cada vez más complejos pueden encontrar una solución en el contexto de una Custodia de datos  Defina las distintas funciones a todos los niveles y distribuya claramente las responsabilidades.

Sólo este paso ya merece la pena, porque las causas de la mala calidad de los datos, aparte de la falta de responsabilidades, suelen ser entradas incorrectas o dobles entradas (duplicados), diferencias regionales de interpretación o información redundante, es decir, pueden darse en los niveles más diversos.

Para definir mejor las tareas Iniciativas de calidad de datos en el que se identifiquen las áreas críticas para la calidad de los datos y se definan los procesos de revisión de la calidad de los datos. Este esfuerzo merece la pena en el contexto del objetivo primordial de un mejor calidad de los datos: El Aumentar la rentabilidad de la inversión y la conservación a largo plazo del Valor de los datos.

Autor:inside

Michaela Tiedemann

Michaela Tiedemann forma parte del equipo de Alexander Thamm GmbH desde sus inicios. Ha participado activamente en el proceso de transformación de una empresa emergente, espontánea y dinámica en una empresa de éxito. Con la fundación de su propia familia, comenzó para Michaela Tiedemann un capítulo completamente nuevo. Sin embargo, dejar su trabajo no era una opción para la nueva madre. En su lugar, desarrolló una estrategia para conciliar su trabajo como Directora de Marketing con su papel de madre.

0 comentarios

Enviar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *