Hace tiempo que los Big Data salieron del famoso Ciclo Hype de Gartner desapareció y quizás ya no sea una de las palabras de moda más populares. Sin embargo, sigue siendo uno de los temas más importantes en los proyectos de ciencia de datos. Por eso es tan importante seguir preguntándose sobre las tecnologías actuales, las oportunidades y los factores de éxito y riesgo. Según Bitkom, la mayoría de las empresas alemanas dan prioridad al tema del Big Data y lo sitúan junto a la robótica y el Internet de los objetos como importante para su competitividad.
En nuestra Estudio sobre aprendizaje automáticoque realizamos junto con Computerwoche, llegamos a una conclusión similar. En nuestra encuesta, en la que también eran posibles respuestas múltiples, Big Data ocupó el 5º lugar.
Inhaltsverzeichnis
¿Qué son los macrodatos?
Una de las definiciones más sencillas es: Big Data son Todos los datos mayores que una hoja de cálculo Excel - es decir, más de 1.048.576 filas y 16.384 columnas. En los últimos años, es habitual hablar de las distintas "V" que definen los Big Data. V significa Velocidad, Variedad, Volumen, Valor, Veracidad o Visualización, por ejemplo. El número de V ha ido aumentando de 4, 5, 6, 10, 12 y, finalmente, 42. Pero, ¿qué es realmente Big Data? Una definición muy simplificada es: Big Data significa recopilación, almacenamiento y análisis de datos a gran escala.
Muchos de los términos y conceptos que se han colado en la definición son más bien componentes de los proyectos de datos en general. Visualización de datos Aunque los análisis de Big Data son un aspecto importante, por ejemplo en el contexto de la Exploración visual de datos - pero también desempeñan un papel decisivo en los proyectos de datos sin Big Data. En este sentido, todos los intentos de definición deben contemplarse con cierta cautela.
Los rasgos característicos
Sin embargo, algunas otras características sirven claramente para diferenciar los Big Data. Por ejemplo, el conjunto de datos individuales desempeña un papel subordinado en Big Data. Se trata más bien de Patrones y estructuras que pueden encontrarse en los datos son. Por lo general, los Big Data también se componen de distintos tipos de datos y de datos no estructurados. En nuestra opinión, los cuatro rasgos característicos esenciales son los siguientes:
- En Volumen de datosComo sugiere la palabra, se trata inicialmente de una "gran" cantidad de datos ("volumen"). Dado que los datos representan una pequeña parte de la realidad, en general se aplica lo siguiente: cuantos más datos haya disponibles, más completa será la imagen de la realidad que podamos formarnos con ellos.
- En Variedad de datosEn la mayoría de los casos, los macrodatos consisten en tipos de datos muy diferentes y conjuntos de datos extremadamente complejos ("variedad"), lo que hace que las conexiones y los patrones sean reconocibles. Por tanto, el reto suele consistir en relacionar los datos entre sí de forma significativa.
- En Velocidad de procesamientoAdemás de la cantidad y variedad de datos, la rápida disponibilidad de los resultados es cada vez más importante. Con la correspondiente velocidad de procesamiento ("velocity"), garantizada por muchos cientos de procesadores trabajando en paralelo, los resultados están disponibles a veces en tiempo real. Si sólo trabajasen ordenadores convencionales, los resultados de los análisis tardarían días o incluso semanas en estar disponibles. En ese caso, los resultados serían en gran medida inútiles.
- Los datos deben variable ser: En algunos casos, los datos se generan con extrema rapidez: la turbina de una central eólica o un avión vigilado por sensores suministran hasta 15 terabytes de datos brutos y de sensores por hora. Sin embargo, la relevancia de la información que puede derivarse de estos datos se deteriora con el tiempo ("variabilidad"). Por tanto, los datos deben ser variables o recogerse una y otra vez para que sigan siendo pertinentes.
Big Data en proyectos de datos
Al fin y al cabo, los datos tienen que interpretarse y traducirse en traducirse en conceptos significativos para la acción. Una visualización de datos atractiva, clara y que favorece la comprensióng es un factor clave del éxito de la Proyectos de ciencia de datos en general. También es importante la interacción de los distintos subaspectos: cómo se combinan, evalúan y visualizan los datos. Precisamente porque el conjunto de datos individuales desempeña un papel subordinado, la visualización es importante. Pero las visualizaciones son más importantes por otra razón.
La decisión sobre qué acción se deriva del resultado de los análisis de datos no suele tomarla el científico de datos. Por eso, los datos deben presentarse de forma comprensible para los responsables de la toma de decisiones. Sólo entonces existe una ventaja de tiempo y conocimiento que se traduce en un margen de actuación: El operador conoce en una fase temprana la inminencia de un siniestro y puede tomar contramedidas incluso antes del fallo real.
Una perspectiva diferente
En la práctica, los intentos teóricos de definición desempeñan un papel secundario. Mucho más importante es la cuestión de quién se ocupa de los Big Data. Cuando se trata de generar valor añadido a partir de los datos, el Competencias y funciones en materia de datos decisivo. Para el Ingeniero de datos Sólo algunos aspectos individuales son interesantes, pero debe dominarlos para que los datos estén listos para el análisis. Sobre todo, lo que interesa aquí es la calidad de los datos.
Para un Científico de datos Los macrodatos son un tema importante de su trabajo. Examina grandes cantidades de datos con Métodos matemáticos, estadísticos e informáticos hacia una pregunta concreta. El objetivo suele ser obtener un resultado al final del análisis, seguido de una recomendación de actuación. Ésta puede ejecutarse automáticamente o servir de base para la toma de decisiones empresariales. Desde la perspectiva de los responsables de la toma de decisiones, como el CTO se contempla de nuevo más desde un cálculo de costes y beneficios.
Por último, pero no por ello menos importante, también existe una perspectiva de protección de datos. Aunque el nuevo RGPD no reconoce este término, algunos proyectos se ven afectados por él. La cuestión decisiva aquí es si sólo se procesan datos de máquinas o también datos personales. La seguridad de los datos está estrechamente relacionada con la protección de datos. En general, estos aspectos entran en el ámbito de aplicación del Gobernanza de datos y es mucho más probable que determinen el éxito del proyecto que una definición exhaustiva del término Big Data.
Los factores de éxito de los proyectos de Big Data
Hemos podido acumular mucha experiencia en el manejo de Big Data en el transcurso de más de 500 proyectos de datos ejecutados con éxito. En el proceso, pudimos determinar que había esencialmente cuatro factores responsables del fracaso de los proyectos de Big Data. A la inversa, esto significa que los factores de éxito también pueden localizarse en estas cuatro áreas.
- Conocimientos de datos: Falta de alfabetización informática en las empresas.
- Gobernanza de datos: Falta de distribución de responsabilidades.
- ingeniería de datosSubestimación del esfuerzo técnico
- ciencia de datos: Idea poco realista de las posibilidades
Métodos, herramientas y tecnologías
métodos como el aprendizaje automático, Aprendizaje supervisadoEl aprendizaje insuperable y el aprendizaje profundo se encuentran entre los métodos más extendidos y actualmente más importantes en el análisis. El método utilizado en un proyecto de datos depende en gran medida de la pregunta respectiva. Este último es el enfoque real que no debe perderse de vista aquí. El objetivo de un proyecto es siempre resolver una pregunta concreta y no necesariamente hacer algo con Big Data.
Según nuestra experiencia, un enfoque de solución técnica importante en los proyectos de Big Data es la Lago de datos. Aquí los datos de todas las fuentes y contextos posibles juntos. El lago de datos reúne así datos en gran cantidad y variedad.t disponibles. Las soluciones en la nube también pueden ser un aspecto importante de las soluciones de Big Data por varias razones, especialmente cuando la velocidad en la disponibilidad de los datos es una preocupación.
Sin embargo, cuando se trata de herramientas y tecnologías concretas, en los últimos años ha surgido una situación casi confusa. El siguiente gráfico muestra la multitud de soluciones de Big Data que han surgido en los distintos ámbitos. Qué tecnología y qué herramienta se utiliza en cada caso concreto depende de varios factores y, en última instancia, de las habilidades y la experiencia de los científicos de datos.
De palabra de moda a norma
La evolución que ha tenido lugar en los últimos años y que se refleja en esta panorámica del mercado muestra claramente que los Big Data hace tiempo que se han emancipado de la fase inicial de bombo y platillo. Más bien, es ahora un nuevo estándar de la industria que se ha convertido en un componente esencial de la cadena de valor. En vista de los gastos financieros, a veces elevados, asociados a la gestión de datos, ahora es más importante que nunca generar valor añadido a partir de los datos. Nosotros lo llamamos: Data2Value.
0 comentarios