Connect with us

Gestión de Datos

¿Qué es la arquitectura de datos? Un marco para la gestión de datos

José Luis Becerra Pozas

Published

on

La arquitectura de datos traduce las necesidades comerciales en requisitos de datos y sistemas y busca administrar los datos y su flujo a través de la empresa.

Definición de arquitectura de datos

La arquitectura de datos describe la estructura de los activos de datos lógicos y físicos y los recursos de gestión de datos de una organización, según The Open Group Architecture Framework (TOGAF). Es una rama de la arquitectura empresarial que comprende los modelos, políticas, reglas y estándares que rigen la recopilación, el almacenamiento, la disposición, la integración y el uso de datos en las organizaciones. La arquitectura de datos de una organización es competencia de los arquitectos de datos .

Objetivos de la arquitectura de datos

El objetivo de la arquitectura de datos es traducir las necesidades comerciales en requisitos de datos y sistemas y administrar los datos y su flujo a través de la empresa. Hoy en día, muchas organizaciones buscan modernizar su arquitectura de datos como base para aprovechar al máximo la IA y permitir la transformación digital. La consultora McKinsey Digital señala que muchas organizaciones no alcanzan sus objetivos de transformación digital y de IA debido a la complejidad del proceso en lugar de la complejidad técnica.

Principios de la arquitectura de datos

Según Joshua Klahr , vicepresidente de gestión de productos, productos principales de Splunk y ex vicepresidente de gestión de productos de AtScale, seis principios forman la base de la arquitectura de datos moderna:

  1. Los datos son un activo compartido. Una arquitectura de datos moderna debe eliminar los silos de datos departamentales y brindar a todas las partes interesadas una visión completa de la empresa.
  2. Los usuarios requieren un acceso adecuado a los datos. Más allá de romper los silos, las arquitecturas de datos modernas deben proporcionar interfaces que faciliten a los usuarios el consumo de datos utilizando herramientas adecuadas para sus trabajos.
  3. La seguridad es esencial. Las arquitecturas de datos modernas deben diseñarse para la seguridad y deben admitir políticas de datos y controles de acceso directamente en los datos sin procesar.
  4. Los vocabularios comunes aseguran una comprensión común. Los activos de datos compartidos, como catálogos de productos, dimensiones del calendario fiscal y definiciones de KPI, requieren un vocabulario común para ayudar a evitar disputas durante el análisis.
  5. Los datos deben ser curados. Invierta en funciones centrales que realicen la curación de datos (modelando relaciones importantes, limpiando datos sin procesar y curando dimensiones y medidas clave).
  6. Los flujos de datos deben optimizarse para la agilidad. Reduzca la cantidad de veces que se deben mover los datos para reducir costos, aumentar la actualización de los datos y optimizar la agilidad empresarial.

Componentes de la arquitectura de datos

Una arquitectura de datos moderna consta de los siguientes componentes, según la consultora de TI, BMC:

  • Canalizaciones de datos. Una canalización de datos es el proceso en el que los datos se recopilan, mueven y refinan. Incluye la recopilación, el refinamiento, el almacenamiento, el análisis y la entrega de datos.
  • Almacenamiento en la nube. No todas las arquitecturas de datos aprovechan el almacenamiento en la nube, pero muchas arquitecturas de datos modernas usan nubes públicas, privadas o híbridas para brindar agilidad.
  • Computación en la nube. Además de usar la nube para el almacenamiento, muchas arquitecturas de datos modernas utilizan la computación en la nube para analizar y administrar datos.
  • Uso de API. Las arquitecturas de datos modernas emplean API para facilitar la exposición y el intercambio de datos.
  • Modelos de IA y ML. La Inteligencia Artificial (IA) y el Machine Learning (ML) se utilizan para automatizar sistemas para tareas como la recopilación de datos, el etiquetado, etc. Al mismo tiempo, las arquitecturas de datos modernas pueden ayudar a las organizaciones a desbloquear la capacidad de aprovechar la IA y el ML a escala.
  • Transmisión de datos. La transmisión de datos es el flujo continuo de datos desde un origen a un destino para su procesamiento y análisis en tiempo real o casi en tiempo real.
  • Orquestación de contenedores. Un sistema de orquestación de contenedores, como Kubernetes de código abierto, a menudo se usa para automatizar la implementación, el escalado y la administración de software.
  • Analítica en tiempo real. El objetivo de muchas arquitecturas de datos modernas es ofrecer análisis en tiempo real, la capacidad de realizar análisis de datos nuevos a medida que llegan al entorno.

Arquitectura de datos frente a modelado de datos

De acuerdo con Data Management Book of Knowledge (DMBOK 2), la arquitectura de datos define el modelo para administrar activos de datos al alinearse con la estrategia organizacional para establecer requisitos de datos estratégicos y diseños para cumplir con esos requisitos. Por otro lado, DMBOK 2 define el modelado de datos como “el proceso de descubrir, analizar, representar y comunicar los requisitos de datos en una forma precisa llamada modelo de datos”.

Si bien tanto la arquitectura de datos como el modelado de datos buscan cerrar la brecha entre los objetivos comerciales y la tecnología, la arquitectura de datos se trata de la vista macro que busca comprender y respaldar las relaciones entre las funciones, la tecnología y los tipos de datos de una organización. El modelado de datos adopta una visión más enfocada de sistemas específicos o casos comerciales.

Marcos de arquitectura de datos

Hay varios marcos de arquitectura empresarial que comúnmente sirven como base para construir el marco de arquitectura de datos de una organización.

  • DAMA-DMBOK 2 . El Cuerpo de conocimiento de gestión de datos de DAMA International es un marco específico para la gestión de datos. Proporciona definiciones estándar para funciones de gestión de datos, entregables, roles y otra terminología, y presenta principios rectores para la gestión de datos.
  • Marco Zachman para arquitectura empresarial. Zachman Framework es una ontología empresarial creada por John Zachman en IBM en la década de 1980. La columna de “datos” de Zachman Framework comprende varias capas, incluidos los estándares arquitectónicos importantes para el negocio, un modelo semántico o un modelo de datos conceptuales/empresariales, un modelo de datos empresariales/lógicos, un modelo de datos físicos y bases de datos reales.
  • El Marco de Arquitectura de Grupo Abierto (TOGAF)TOGAF es una metodología de arquitectura empresarial que ofrece un marco de alto nivel para el desarrollo de software empresarial. La fase C de TOGAF cubre el desarrollo de una arquitectura de datos y la construcción de una hoja de ruta de arquitectura de datos.

Prácticas recomendadas de la arquitectura de datos moderna

Las arquitecturas de datos modernas deben diseñarse para aprovechar las tecnologías emergentes, como la Inteligencia Artificial (IA), la automatización, el Internet de las Cosas (IoT) y la cadena de bloques. Dan Sutherland, director sénior de consultoría tecnológica de Protiviti, afirma que las arquitecturas de datos modernas deben cumplir con las siguientes prácticas recomendadas :

  • Nativo de la nube. Las arquitecturas de datos modernas deben diseñarse para admitir escalabilidad elástica, alta disponibilidad, seguridad de extremo a extremo para datos en movimiento y datos en reposo, y escalabilidad de costo y rendimiento.
  • Canalizaciones de datos escalables. Para aprovechar las tecnologías emergentes, las arquitecturas de datos deben admitir la transmisión de datos en tiempo real y las ráfagas de datos de microlotes.
  • Integración de datos perfecta. Las arquitecturas de datos deben integrarse con aplicaciones heredadas utilizando interfaces API estándar. También deben optimizarse para compartir datos entre sistemas, geografías y organizaciones.
  • Habilitación de datos en tiempo real. Las arquitecturas de datos modernas deben admitir la capacidad de implementar validación, clasificación, gestión y gobierno de datos activos y automatizados.
  • Desacoplado y extensible. Las arquitecturas de datos modernas deben diseñarse para acoplarse libremente, lo que permite que los servicios realicen tareas mínimas independientemente de otros servicios.

Roles de arquitectura de datos

Estos son algunos de los puestos de trabajo más populares relacionados con la arquitectura de datos y el salario promedio para cada puesto, según datos de PayScale (en Estados Unidos):

Thor Olavsrud, CIO.com

Advertisement
Advertisement

VIDEOS

Resources

Advertisement

Recientes

Advertisement