Comparación de Metodologías de Diseño de Almacenes de datos para Microsoft SQL Server

Por: Arshad Ali | Actualizado: 2013-06-24 | Comentarios (9) | Relacionado: > Desarrollo de Servicios de Análisis

Problema

En mis últimos consejos, hablé sobre la importancia de una solución de Inteligencia de Negocios, por qué se está convirtiendo en prioridad para los ejecutivos, lo que Arquitectura de sistemas de inteligencia de negocios, etc. En este consejo, voy a hablar en detalle sobre cómo un almacén de datos es diferente del almacén de datos operativo y las diferentes metodologías de diseño para un almacén de datos.

Solución

Este consejo va a cubrir los Almacenes de Datos (DW, a veces también llamados un Almacén de Datos Empresarial o EDW), en qué se diferencia del Almacén de Datos Operativos (ODS) y las diferentes metodologías de diseño de Almacenes de Datos.

Almacén de datos empresarial (EDW o DW) Vs. Almacén de Datos Operacionales (ODS)

El propósito del Almacén de Datos en la Arquitectura general de Inteligencia Empresarial es integrar datos corporativos de diferentes fuentes de datos heterogéneas para facilitar la presentación de informes de análisis históricos y de tendencias. Actúa como un repositorio central y contiene la «versión única de la verdad» para la organización que ha sido cuidadosamente construida a partir de datos almacenados en bases de datos operativas internas y externas dispares\sistemas. Para un mejor rendimiento, la mayoría de los datos en el almacén de datos estarán en forma no normalizada que se puede categorizar en esquemas de estrella o copo de nieve (más sobre esto en el siguiente consejo).

El propósito del Almacén de datos de operaciones (ODS) es integrar datos corporativos de diferentes fuentes de datos heterogéneas para facilitar la presentación de informes operacionales en tiempo real o casi real. A menudo, los datos del SAD estarán estructurados de manera similar a los sistemas de origen, aunque durante la integración puede implicar la limpieza de datos, la eliminación de duplicaciones y la aplicación de normas institucionales para garantizar la integridad de los datos. Un SAD está destinado principalmente a integrar datos con bastante frecuencia al nivel granular más bajo para la presentación de informes operacionales en un escenario de integración de datos casi en tiempo real. Normalmente, un ODS no se optimizará para el análisis histórico y de tendencias de un gran conjunto de datos.

Resumamos las diferencias entre un ODS y un DW:

  • Un ODS está destinado a la generación de informes operativos y admite requisitos de informes actuales o casi en tiempo real, donde un DW está destinado a la generación de informes de análisis histórico y de tendencias sobre un gran volumen de datos
  • Un ODS está destinado a consultas de bajo nivel granular, mientras que un DW se utiliza para consultas complejas a nivel de resumen o en datos agregados
  • Un ODS proporciona información para decisiones operativas y tácticas sobre la adquisición de datos actuales o casi en tiempo real, donde retroalimentación para decisiones estratégicas que conduzcan a mejoras generales del sistema
  • En un ODS la frecuencia de carga de datos puede ser horaria o diaria, mientras que en un DWLA frecuencia de carga de datos puede ser diaria, semanal, mensual o trimestral

Metodologías de diseño de almacén de datos

Normalmente se siguen dos metodologías diferentes al diseñar una solución de almacén de datos y, en función de los requisitos de su proyecto, puede elegir cuál se adapta a su escenario particular. Estas metodologías son el resultado de una investigación de BillInmon y Ralph Kimball.

Bill Inmon-Enfoque de Diseño de Almacén de datos de arriba hacia abajo

A Bill Inmon a veces también se le conoce como el «padre del almacenamiento de datos»; su metodología de diseño se basa en un enfoque de arriba hacia abajo y define el almacén de datos en estos términos

  • Orientado a temas: Los datos en un almacén de datos se clasifican en función del área temática y, por lo tanto, están «orientados a temas».
  • Integrado: los datos se integran de diferentes fuentes de datos dispares y, por lo tanto, se utilizan convenciones de nomenclatura universales, mediciones, clasificaciones, etc. en el almacén de datos. El almacén de datos proporciona una vista consolidada de los datos de la empresa y, por lo tanto, se designa como una solución integrada.
  • No volátil: Una vez que los datos se integran\cargan en el almacén de datos, solo se pueden leer. Los usuarios no pueden hacer cambios en los datos y esta práctica hace que los datos no sean volátiles.
  • Variante de tiempo: Finalmente, los datos se almacenan durante largos períodos de tiempo cuantificados en años y tienen una fecha y una marca de tiempo y, por lo tanto, se describen como «variante de tiempo».

Bill Inmon vio la necesidad de integrar datos de diferentes sistemas OLTP en un repositorio centralizado (llamado data warehouse) con un enfoque denominado de arriba hacia abajo. Bill Inmon prevé un almacén de datos en el centro de la «Fábrica de Información Corporativa» (CIF), que proporciona un marco lógico para la entrega de inteligencia de negocios (BI), análisis de negocios y capacidades de gestión empresarial.

 Almacén de datos empresarial (EDW o DW) Vs. Almacén de Datos Operacionales (ODS)

Este diseño de arriba hacia abajo proporciona una vista dimensional altamente consistente de los datos en todos los data marts, ya que todos los data marts se cargan desde el repositorio centralizado (Data Warehouse).El diseño de arriba hacia abajo también ha demostrado ser flexible para soportar los cambios de negocio a medida que se ve en la organización en su conjunto, no en cada función o proceso de negocio de la organización. Generar un nuevo data marts dimensional contra los datos almacenados en el almacén de datos es una tarea relativamente simple. Aunque existen algunos desafíos para el enfoque descendente, por ejemplo, representa un proyecto muy grande con un alcance muy amplio y, por lo tanto, el costo inicial de implementar un almacén de datos utilizando la metodología descendente es significativo.Además, la duración del tiempo desde el inicio del proyecto hasta el punto en que los usuarios finales comienzan a experimentar los beneficios iniciales de la solución puede ser sustancial. Además, la metodología descendente puede ser inflexible y no responder a las necesidades cambiantes de los departamentos o procesos de negocio (una preocupación por el entorno dinámicamente cambiante de hoy en día) durante la fase de implementación.

Ralph Kimball-Enfoque de Diseño de Almacén de datos ascendente

Ralph Kimball es un reconocido autor en el tema del almacenamiento de datos. Su metodología de diseño se llama modelado dimensional o metodología Kimball. Esta metodología se centra en un enfoque ascendente, haciendo hincapié en el valor del almacén de datos para los usuarios lo antes posible. En su visión, un almacén de datos es la copia de los datos transaccionales específicamente estructurados para consultas analíticas y presentación de informes con el fin de respaldar el sistema de apoyo a la toma de decisiones. De acuerdo con su metodología, los data marts se crean primero para proporcionar capacidades analíticas y de informes para procesos funcionales y empresariales específicos y, más tarde, estos data marts se pueden unir para crear un almacén de datos empresarial integral. El enfoque ascendente se centra en cada proceso de negocio en un momento dado, para que el retorno de la inversión pueda ser tan rápido como se crea first data mart. Aunque si no se planifica cuidadosamente, es posible que le falte el panorama general del almacén de datos de la empresa al perder algunas dimensiones o crear dimensiones redundantes,etc. cuando estás demasiado centrado en un proceso de negocio individual.

Metodologías de diseño de almacenes de datos

El enfoque ascendente de Ralph Kimball propone crear una matriz de negocios que debe contener todos los elementos comunes (que son utilizados por data marts, como dimensión conformada\compartida, medidas, etc.) definido para la empresa en su conjunto. Con esto, el usuario puede diseñar y desarrollar soluciones que respalden la realización de análisis en todos los procesos de negocio para la venta cruzada. Puede obtener más información sobre matrix aquí.

Para una persona que quiera hacer una carrera en el dominio de Almacenamiento de Datos e Inteligencia de Negocios, recomendaría estudiar los libros de Bill Inmon (Construyendo el Almacén de Datos y DW 2.0: La Arquitectura para la Próxima Generación de Almacenamiento de Datos) y el libro de Ralph Kimball (El Kit de herramientas de Almacenamiento de Datos de Microsoft).

Próximos pasos
  • Revisión Microsoft SQL Server Business Intelligence-Qué, por qué y Cómo-Parte 1.
  • Revisión Arquitectura de sistema de Inteligencia empresarial de MICROSOFT SQL Server-Parte 2.
  • Echa un vistazo a todos los consejos de Inteligencia de Negocios de Servidor SQL en MSSQLTips.com.

Última Actualización: 2013-06-24

obtener scripts

botón siguiente consejo

Sobre el autor
Autor de MSSQLTips Arshad Ali Arshad Ali es un desarrollador de SQL y BI que se centra en proyectos de Almacenamiento de datos para Microsoft.
Ver todos mis consejos
Recursos relacionados

  • Más Consejos de Inteligencia Empresarial…

Deja una respuesta

Tu dirección de correo electrónico no será publicada.