Observatorio APD #4
LA ERA DEL DATO
La gestión de datos es esencial para las operaciones y el funcionamiento de las empresas. Pero los datos por sí solos no dicen nada, por eso es necesario un buen modelo de gestión. Es importante, por lo tanto, que las organizaciones establezcan una estrategia que garantice que los datos son precisos, están disponibles y son accesibles. De esta forma, se podrán tomar mejores decisiones comerciales, se reducirán costes y se aumentarán los ingresos. De lo contrario, si no se gestionan de forma eficaz, la empresa puede estar limitada en su análisis u obtener resultados erróneos.
La gestión de datos es el proceso de obtener, almacenar, organizar, utilizar y mantener los datos que consigue una empresa. El objetivo es que la información obtenida esté disponible, sea segura, se pueda compartir y sea confiable en el largo plazo. Así, se busca favorecer la toma de decisiones y la planificación estratégica en la empresa y lograr, en última instancia, llegar a ser una Data Driven Company.
El tipo más común es el sistema de gestión de bases de datos relacionales. Este sistema organiza los datos en tablas que se pueden vincular internamente según los datos compartidos. Esto permite que los usuarios recuperen fácilmente las tablas con una sola consulta. Es un modelo de datos rígido que se adapta mejor, en este caso, a los datos de transacciones estructurados. El lenguaje de programación más utilizado en este tipo de bases de datos es el lenguaje de consulta estructurado (Structured Query Language o SQL). SQL es el lenguaje más frecuente en la mayoría de empresas y permite manipular y descargar datos, a la vez que puede también hacer cálculos avanzados.
Pero también han aparecido otras opciones, como las bases de datos NoSQL. Estas no tienen unos requisitos tan rígidos sobre los modelos de datos, y pueden almacenar datos no estructurados o semiestructurados. Hay cuatro tipos principales de sistemas NoSQL: bases de datos de documentos, bases de datos de valor-clave, almacenes de columnas anchas y bases de datos de gráficos.
Las bases de datos NoSQL permiten almacenar y administrar tipos muy diversos volúmenes de datos.. Es por eso que se utilizan frecuentemente en implementaciones de Big Data. Los entornos de big data se construyen generalmente con tecnologías de código abierto (como puede ser, por ejemplo, Hadoop), y se implementan cada vez más habitualmente en la nube. Esto es así porque el cloud permite reducir costes, una mayor agilidad y escalabilidad para el almacenamiento y procesamiento de datos. Su versatilidad es también idónea para responder a necesidades puntuales de las compañías.
Los almacenes de datos incluyen datos de los sistemas empresariales de una organización. El almacenamiento es el método más tradicional, y recoge datos estructurados de diferentes sistemas operativos y listos para ser analizados. Dos de los usos más habituales de los almacenes de datos son los informes empresariales y las consultas de BI. Ambos permiten analizar ventas, gestionar inventario o extraer indicadores clave de rendimiento.
Por otro lado, existen los lagos de datos, que almacenan grupos de big data para modelos predictivos, machine learning y otras formas de análisis avanzado. La implementación de un lago de datos se puede hacer en bases de datos NoSQL, y se pueden combinar con otras plataformas.
La integración de datos es un proceso que reúne datos de diferentes fuentes con el objetivo de obtener una vista unificada y más valiosa de ellos. De esta forma, las empresas pueden tomar mejores decisiones y hacerlo de una forma más ágil.
La técnica de integración de datos más utilizada es la ETL: extraer, transformar y cargar. Es una técnica que extrae los datos, los convierte a un nuevo formato y los carga ya integrados en un almacén de datos u en otro sistema de destino. En el caso de los sistemas de big data y los lagos de datos, el sistema habitual es una variación de ETL, que es la de extraer, cargar y transformar (ELT).
La gobernanza de datos hace referencia a la capacidad que tiene una empresa para garantizar la calidad de los datos durante todo su ciclo de vida. Abarca las políticas y procedimientos que se implementan para asegurarse que los datos son precisos y que se manejan correctamente. Esto incluye las infraestructuras, la tecnología, los procesos y políticas de datos y la detección de las personas que tienen la responsabilidad de gestionarlos. El objetivo último de la gobernanza de datos es la mejora de la calidad de los mismos. Las técnicas de calidad de datos incluyen la elaboración de perfiles de dato, la limpieza y depuración o la validación de los datos.
Relacionada con la gobernanza y la calidad de los datos también está la gestión de los datos maestros o MDM. Como estos programas tienen mucha más complejidad, no se han adoptado de forma tan amplia y se han limitado a grandes compañías. MDM crea un registro central de datos maestros para dominios de datos seleccionados, lo que permite generar informes y análisis empresariales.
El modelado de datos es un proceso de creación de una representación visual o de un esquema que define los sistemas de recopilación y administración de datos. Esto permitirá a los analistas de datos crear una vista unificada de los datos de una organización. El modelo muestra, de esta forma, los datos que recoge una empresa, la relación entre los distintos conjuntos de datos y los métodos con los que se almacenarán y analizarán. Las técnicas más comunes para modelar datos son los diagramas de relación de entidades y los mapeos de datos y esquemas.
Una buena gestión de datos o data management puede ser clave para que una empresa consiga ventajas competitivas sobre su competencia. Gracias a ella se puede mejorar la eficacia en las operaciones y, sobre todo, ayudará a tomar mejores decisiones. Las compañías que administran bien sus datos son más ágiles, saben detectar las tendencias de mercado y consiguen aprovechar las nuevas oportunidades. Pero no solo esto, también evitarán problemas con la privacidad de los datos, brechas de seguridad o problemas de cumplimiento normativo que podrían dañar su reputación.