Upload
jaime-albert-armas-rodriguez
View
228
Download
0
Embed Size (px)
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 1/22
INGENIERÍA DE SISTEMAS
DE INFORMACIÓN
METODOLOGÍA RALPH KIMBALL
DATAWAREHOUSE
BUSINESS INTELLIGENCE
Jaime Albert Armas Rodríguez
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 2/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 2
INTRODUCCIÓN _______________________________________________________ 3
CAPITULO I : DATAWAREHOUSE __________________________________________ 4
1. Definición de Data Warehouse _____________________________________________ 4
2. Arquitectura de Data Warehouse ___________________________________________ 5
3. Objetivos de una Datawarehuse: ____________________________________________ 7
4. Elementos y Procesos básicos de un Data Warehouse ___________________________ 8
5. Procesos Básicos del Data Warehouse ETL) ___________________________________ 9
CAPITULO II: Metodología Kimball. ______________________________________ 10
2. Metodología Ralph Kimball _________________________________________ 10
2.1. Planificación ________________________________________________________________ 12
2.2. Análisis de Requerimientos ____________________________________________________ 12
2.3. Modelado dimensional ________________________________________________________ 14
2.3.1. Elegir el proceso de negocio: _______________________________________________ 15 2.3.2. Establecer el nivel de granularidad: __________________________________________ 15
2.3.3. Elegir las dimensiones: ____________________________________________________ 15
2.3.4. Identificar las tablas de hechos y medidas: ____________________________________ 15
2.3.5. Modelo gráfico de alto nivel: _______________________________________________ 16
2.3.6. Identificación de atributos de dimensiones y tablas de hechos ___________________ 16
2.3.7. Implementar el modelo dimensional detallado: ________________________________ 16
2.3.8. Prueba del modelo: _______________________________________________________ 17
2.3.9. Revisión y validación del modelo ____________________________________________ 17
2.4.0. Documentos finales _______________________________________________________ 17
2.4. Diseño Físico ________________________________________________________________ 17
2.5. Diseño del sistema de Extracción, Transformación y Carga (ETL). _____________________ 18 2.6. Especificación y desarrollo de aplicaciones de BI ___________________________________ 18
2.7. Diseño y Desarrollo de la presentación de datos: __________________________________ 19
2.8. Diseño de la arquitectura técnica: _______________________________________________ 19
CONCLUSIONES ______________________________________________________ 20
RECOMENDACIONES __________________________________________________ 21
BIBLIOGRAFIA ________________________________________________________ 22
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 3/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 3
INTRODUCCIÓN
La inteligencia de negocios permite a las empresas poder explotar la información
empresarial para apoyar en la toma de decisiones. En ese marco SQL Server 2012
Analysis Services proporciona un intervalo de soluciones para crear e implementar lasbases de datos analíticas que se usan como respaldo para la toma de decisiones en las
aplicaciones Excel, Reporting Services y otras de Business Intelligence. La transferencia
y consolidación de datos en el Datamart puede ser implementada a través de SQL Server
Integration Services, el componente de SQL Server 2012 que provee la capacidad de
desarrollar procesos complejos de extracción de datos.
Desde su aparición, a mediados de los años ’70, las bases de datos (y la teoría sobre
bases de datos) no se han detenido. Las primeras versiones de las bases de datos se
centraron alrededor de un único repositorio sirviendo a todos los propósitos orientados
al procesamiento de la información (desde el transaccional, pasando por elprocesamiento batch, hasta lo analítico). En la mayoría de los casos, el principal foco de
las primeras bases de datos fueron los sistemas operacionales o transaccionales. En las
últimas décadas, ha surgido una noción más sofisticada de las bases de datos. Por un
lado, el objetivo de servir a las necesidades operacionales, y por otro, cubrir las
necesidades analíticas de la información.
El mercado de Data Warehousing consiste de herramientas, tecnologías y metodologías
que permiten la construcción, uso, manejo y mantenimiento del hardware y software
usado tanto para un data warehouse como para los datos en sí mismos. Las encuestas y
la realidad marcan que los proyectos de Data Warehousing (o asociados al concepto deData Warehouse) son las mayores iniciativas después de finalizado los esfuerzos de Y2K.
El presente trabajo monográfico comprende temas relacionados con la definición de
datawarehouse, arquitectura del datawarehouse, objetivos de un datawarehouse,
Elementos y Procesos básicos de un Datawarehouse, Procesos Básicos del Data
Warehouse (ETL) y Metodología Ralph Kimball.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 4/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 4
CAPITULO I : DATAWAREHOUSE
1. Definición de Data Warehouse
Un almacén de datos (Data Warehouse) es una colección de datos orientada a un
determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en
el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Es
una estructura de datos donde la información contenida está diseñada para favorecer
el análisis y la divulgación eficiente de datos. Los almacenes de datos contienen a
menudo grandes cantidades de información que se subdividen a veces en unidades
lógicas más pequeñas dependiendo del subsistema de la entidad del que procedan o
para el que sea necesario.
Dichas unidades se denominan Data Marts.
Un Data Warehouse es una Base de Datos que contiene:
Datos empresariales
Integrar colección de datos históricos
Datos: dirigidos al usuario, consolidados y consistentes
Datos estructurados para distribución y consultas
Un Data Warehouse es un repositorio de datos de muy fácil acceso,
alimentado de numerosas fuentes, transformadas en grupos de
información sobre temas específicos de negocios, para permitir nuevasconsultas, análisis, reportes y decisiones.
Existen dos grandes autores con respecto al tema Data Warehouse: Bill Inmon y Ralph
Kimball:
Bill Inmon: "El Data Warehouse es una colección de datos orientados al tema,
integrados, no volátiles e historiados, organizados para el apoyo de
un proceso de ayuda a la decisión"
Ralph Kimball: "El Data Warehouse es una copia de las transacciones de datos
específicamente estructurada para la consulta y el análisis; es la unión de todos
los Data Marts de una entidad".
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 5/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 5
2. Arquitectura de Data Warehouse
La arquitectura de un Data Warehouse se la utiliza para representar cual es la estructura
final de los datos, la forma en que se comunican esos datos, su procesamiento ypresentación. La misma está constituida por diferentes partes que se encuentran
interconectadas, las cuales son:
Base de datos operacional / Nivel de base de datos externo: los sistemas
operacionales procesan datos para apoyar las necesidades operacionales críticas.
Para hacer eso, se han creado las bases de datos operacionales históricas que
proveen una estructura de procesamiento eficiente, para un número
relativamente pequeño de transacciones comerciales bien definidas.
A causa del enfoque limitado de los sistemas operacionales, las bases de datosdiseñadas para soportar estos sistemas, tienen dificultad para acceder a los datos
para otra gestión o propósitos informáticos. Ciertamente, la meta del Data
Warehousing, es liberar la información que es almacenada en bases de datos
operacionales y combinarla con la información desde otra fuente de datos,
generalmente externa.
Nivel de acceso a la información: El nivel de acceso a la información de la
arquitectura Data Warehouse, es el nivel del que el usuario final se encarga
directamente. En particular, representa las herramientas que el usuario final
normalmente usa día a día. Actualmente, existen herramientas más y mássofisticadas para manipular, analizar y presentar los datos, sin embargo, hay
problemas significativos al tratar de convertir los datos tal como han sido
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 6/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 6
recolectados y que se encuentran contenidos en los sistemas operacionales en
información fácil y transparente para las herramientas de los usuarios finales.
Una de las claves para esto es encontrar un lenguaje de datos común que puede
usarse a través de toda la empresa.
Nivel de acceso a los datos: El nivel de acceso a los datos de la arquitectura Data
Warehouse está involucrado con el nivel de acceso a la información para
relacionarse con el nivel operacional. El nivel de acceso a los datos no solamente
conecta DBMS"s diferentes y sistemas de archivos sobre el mismo hardware, sino
también a los fabricantes y protocolos de red.
Una de las claves de una estrategia Data Warehousing es proveer a los usuarios
finales con "acceso a datos universales", significa que, por lo menos, los usuarios
finales sin tener en cuenta la herramienta de acceso a la información o ubicación,
deberían ser capaces de acceder a cualquier o todos los datos en la empresa que esnecesaria para ellos, para hacer su trabajo. El nivel de acceso a los datos es
responsable de la interfaz entre las herramientas de acceso a la información y las
bases de datos operacionales. En algunos casos, esto es todo lo que un usuario final
necesita:
Nivel de directorio de datos (Metadata): A fin de proveer el acceso a los datos
universales, es absolutamente necesario mantener alguna forma de directorio
de datos o repositorio de la información Metadata. La Metadata es la
información alrededor de los datos dentro de la empresa.
A fin de tener un depósito totalmente funcional, es necesario tener una variedad
de Metadata disponibles, información sobre las vistas de datos de los usuarios
finales e información sobre las bases de datos operacionales. Idealmente, los
usuarios finales deberían de acceder a los datos desde el Data Warehouse o
desde las bases de datos operacionales, sin tener que conocer dónde residen los
datos o la forma en que se han almacenados.
Nivel de gestión de proceso: El nivel de gestión de procesos tiene que ver con
la programación de diversas tareas que deben realizarse para construir y
mantener el Data Warehouse y la información del directorio de datos.
Este nivel puede depender del alto nivel de control de trabajo para muchos
procesos (procedimientos) que deben ocurrir para mantener el Data Warehouse
actualizado.
Nivel de mensaje de la aplicación: El nivel de mensaje de la aplicación tiene que
ver con el transporte de información alrededor de la red de la empresa. El
mensaje de aplicación se refiere también como "subproducto", pero puede
involucrar sólo protocolos de red.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 7/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 7
Nivel de DW: En el Data Warehouse (núcleo) es donde ocurre la data actual,
usada principalmente para usos estratégicos. Se puede pensar del Data
Warehouse simplemente como una vista lógica o virtual de datos.
En un Data Warehouse físico (copias), en algunos casos, muchas copias de datos
operacionales y/o externos, son almacenadas realmente en una forma que esfácil de acceder y es altamente flexible.
Nivel de organización de datos: El componente final de la arquitectura Data
Warehouse es la organización de los datos. También denominada gestión de
copia o réplica, incluye todos los procesos necesarios como seleccionar, editar,
resumir, combinar y cargar datos en el depósito y acceder a la información desde
bases de datos operacionales y/o externas.
La organización de datos involucra con frecuencia una programación compleja,
donde se están creando las herramientas Data Warehousing para ayudar en esteproceso.
3. Objetivos de una Datawarehuse:
Los objetivos fundamentales de un Data Warehouse son:
Hacer que la información de la organización sea accesible, donde los contenidos
del Data Warehouse son entendibles (información correcta y obvia) y navegables
(reconocer el destino en la pantalla), y el acceso a ellos son caracterizados porel rápido desempeño (cero tiempo de espera). Estos requerimientos no tiene
fronteras y tampoco limites fijos.
Hacer que la información de la organización sea consistente. La información de
una parte de la organización puede hacerse coincidir con la información de la
otra parte de la organización.
Proporcionar información adaptable y elástica. El Data Warehouse está diseñado
para cambios continuos. Al realizarse nuevas preguntas o agregar datos nuevos
sobre el Data Warehouse, los datos existentes y las tecnologías no cambian ni se
corrompen.
Es un seguro baluarte que protege los valores de la información. El Data
Warehouse controla el acceso efectivo a los datos, como así también da a los
"dueños" de la información gran visibilidad en el uso y abusos de los datos.
Es la fundación de la toma de decisiones. El Data Warehouse tiene los datos
correctos para soportar la toma de decisiones.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 8/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 8
4. Elementos y Procesos básicos de un Data Warehouse
Los elementos básicos de un Data Warehouse son los siguientes:
Sistema Fuente: Son los sistemas operacionales (Legacy System) de registros que
tienen como función capturar las transacciones del negocio.
Área de tráfico de datos: Es un área de almacenamiento y grupo de procesos,
que limpian, transforman, combinan, guardan, archivan, etc., los datos fuentes
para ser usados en el Data Warehouse.
Servidor de presentación: Es la maquina física donde los datos del Data
Warehouse son organizados y almacenados por consultas realizadas por los
usuarios finales, reportes y otras aplicaciones.
Modelo dimensional: Es una disciplina específica para el modelado de datos que
es una alternativa para los modelos de entidad-relación (DER).
Procesos de negocios: Es un coherente grupo de actividades de negocio que le
dan sentido a los usuarios del negocio del Data Warehouse.
Data Mart: Es un subgrupo lógico del Data Warehouse.
Data Warehouse: Es la unión de todos los Data Marts que la constituyen.
Almacenamiento operacional de datos: Es el punto de integración por los
sistemas operacionales. Es el acceso al soporte de decisiones de los ejecutivos
de una empresa.
OLAP: Es un estilo dimensional específico de búsquedas y presentación de
información, que es ejemplificado por vendedores de OLAP.
ROLAP. Es un grupo de interfaces de usuarios y aplicaciones que le dan a la base
de datos relacional un estilo dimensional.
MOLAP. Es un grupo de interfaces de usuarios, aplicaciones y propietarios
de tecnología de bases de datos que tienen un fuerte estilo dimensional.
Aplicaciones para usuarios finales. Es una colección de herramientas que hacen
las consultas, las analizan y luego presentan la información necesaria y objetiva
para el soporte de las necesidades de negocio.
Herramientas de acceso a datos por usuarios finales. Son los "clientes" del Data
Warehouse
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 9/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 9
Modelado de aplicaciones. Es un sofisticado tipo de cliente de Data Warehouse
con capacidades analíticas que transforma o difiere las salidas del Data
Warehouse
Meta Data. Es toda la información en el "ambiente" del Data Warehouse. No son
los datos actuales.
5. Procesos Básicos del Data Warehouse ETL)
Los procesos básicos del Data Warehouse son:
Extracción: Es el primer paso de obtener información hacia el ambiente del Data
Warehouse. Consiste en extraer los datos desde los sistemas de origen.
Cada sistema separado puede usar una organización diferente de los datos o
formatos distintos. La extracción convierte los datos a un formato preparadopara iniciar el proceso de transformación.
Un parte intrínseca del proceso de extracción es la de analizar los datos
extraídos, se realiza un chequeo, el cual verifica si los datos cumplen la pauta o
estructura que se esperaba. Si no es así son rechazados.
Transformación: luego de que la información fue extraída, se pueden realizar
diferentes pasos de transformación, como ser: limpieza de la información, botar
a la basura lo que consideramos innecesario, seleccionar campos específicos que
consideremos necesarios para el Data Warehouse, realizar combinacionesfuentes de datos, etc.
Carga: al final del proceso de transformación, los datos están en forma para ser
cargados. Dependiendo de los requerimientos de la organización, este proceso
puede abarcar una amplia variedad de acciones diferentes.
Las formas más básicas para desarrollar el proceso de carga son dos:
Acumulación simple: consiste en realiza un resumen de todas las
transacciones comprendida en el periodo de tiempo seleccionado y
transportar el resultado como una única transacción hacia el Data
Warehouse para su almacenamiento.
Rolling: almacena información resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo o
diferentes niveles jerárquicos. (Casos de varios niveles de granularidad).
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 10/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 10
CAPITULO II: Metodología Kimball.
2. Metodología Ralph Kimball
La metodología se basa en lo que Kimball denomina Ciclo de Vida Dimensional delNegocio (Business Dimensional Lifecycle) (Kimball et al 98, 08, Mundy & Thornthwaite
06). Este ciclo de vida del proyecto de DW, está basado en cuatro principios básicos:
Centrarse en el negocio: Hay que concentrarse en la identificación de los
requerimientos del negocio y su valor asociado, y usar estos esfuerzos para
desarrollar relaciones sólidas con el negocio, agudizando el análisis del mismo y
la competencia consultiva de los implementadores.
Construir una infraestructura de información adecuada: Diseñar una base de
información única, integrada, fácil de usar, de alto rendimiento donde sereflejará la amplia gama de requerimientos de negocio identificados en la
empresa.
Realizar entregas en incrementos significativos: crear el almacén de datos (DW)
en incrementos entregables en plazos de 6 a 12 meses. Hay que usa el valor de
negocio de cada elemento identificado para determinar el orden de aplicación
de los incrementos. En esto la metodología se parece a las metodologías ágiles
de construcción de software.
Ofrecer la solución completa: proporcionar todos los elementos necesarios paraentregar valor a los usuarios de negocios.
Para comenzar, esto significa tener un almacén de datos sólido, bien diseñado,
con calidad probada, y accesible. También se deberá entregar herramientas de
consulta ad hoc, aplicaciones para informes y análisis avanzado, capacitación,
soporte, sitio web y documentación.
La metodología de Kimball, llamada Modelo Dimensional (Dimensional Modeling), se
basa en lo que se denomina Ciclo de Vida Dimensional del Negocio (Business
Dimensional Lifecycle). Esta metodología es considerada una de las técnicas favoritas ala hora de construir un Data Warehouse.
En el Modelo Dimensional se constituyen modelos de tablas y relaciones con el
propósito de optimizar la toma de decisiones.
El Modelo Dimensional es una técnica de diseño lógico que tiene como objetivo
presentar los datos dentro de un marco de trabajo estándar e intuitivo, para permitir su
acceso con un alto rendimiento.
Cada Modelo Dimensional está compuesta por una tabla con una llave combinada,
llamada tabla de hechos, y con un conjunto de tablas más pequeñas llamadas tablas dedimensiones.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 11/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 11
Los elementos de estas tablas se pueden definir de la siguiente manera:
Hechos: es una colección de piezas de datos y datos de contexto. Cada hecho
representa una parte del negocio, una transacción o un evento.
Dimensiones: es una colección de miembros, unidades o individuos del mismo
tipo.
Medidas: son atributos numéricos de un hecho que representan el
comportamiento del negocio relativo a una dimensión.
La construcción de una solución de DW/BI (Datawarehouse/Business Intelligence) es
sumamente compleja, y Kimball nos propone una metodología que nos ayuda a
simplificar esa complejidad. Las tareas de esta metodología (ciclo de vida) se muestran
en la figura 1.
La metodología se basa en lo que Kimball denomina Ciclo de Vida Dimensional del
Negocio (Business Dimensional Lifecycle) (Kimball et al 98, 08, Mundy & Thornthwaite
06). Este ciclo de vida del proyecto de DW, está basado en cuatro principios básicos:
Tecnología (Camino Superior). Implica tareas relacionadas con softwareespecífico, por ejemplo, Microsoft SQL Analysis Services.
Datos (Camino del medio). En la misma diseñaremos e implementaremos el
modelo dimensional, y desarrollaremos el subsistema de Extracción,
Transformación y Carga (Extract, Transformation, and Load - ETL) para cargar el
DW.
Aplicaciones de Inteligencia de Negocios (Camino Inferior). En esta ruta se
encuentran tareas en las que diseñamos y desarrollamos las aplicaciones de
negocios para los usuarios finales.
Estas rutas se combinan cuando se instala finalmente el sistema.
La metodología propuesta por Kimball, está compuesta por las siguientes fases:
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 12/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 12
2.1. Planificación
En este proceso se determina el propósito del proyecto de DW/BI, sus objetivos
específicos y el alcance del mismo, los principales riesgos y una aproximación
inicial a las necesidades de información.
En la visión de programas y proyectos de Kimball, Proyecto, se refiere a una
iteración simple del KLC (Kimball Life Cycle), desde el lanzamiento hasta el
despliegue.
Esta tarea incluye las siguientes acciones típicas de un plan de proyecto:
Definir el alcance (entender los requerimientos del negocio).
Identificar las tareas
Programar las tareas
Planificar el uso de los recursos.
Asignar la carga de trabajo a los recursos
Elaboración de un documento final que representa un plan del proyecto.
Además en esta parte definimos cómo realizar la administración o gestión de
esta subfase que es todo un proyecto en sí mismo, con las siguientes actividades:
Monitoreo del estado de los procesos y actividades.
Rastreo de problemas
Desarrollo de un plan de comunicación comprensiva que direccione la
empresa y las áreas de TI.
2.2. Análisis de Requerimientos
La definición de los requerimientos es en gran medida un proceso de entrevistar
al personal de negocio y técnico, pero siempre conviene tener un poco de
preparación previa. Se debe aprender tanto como se pueda sobre el negocio, los
competidores, la industria y los clientes del mismo. Hay que leer todos los
informes posibles de la organización; rastrear los documentos de estrategia
interna; entrevistar a los empleados, analizar lo que se dice en la prensa acerca
de la organización, la competencia y la industria. Se deben conocer los términosy la terminología del negocio.
Parte del proceso de preparación es averiguar a quién se debe realmente
entrevistar. Esto normalmente implica examinar cuidadosamente el
organigrama de la organización. Hay básicamente cuatro grupos de personas con
las que hablar desde el principio: el directivo responsable de tomar las decisiones
estratégicas; los administradores intermedios y de negocio responsables de
explorar alternativas estratégicas y aplicar decisiones; personal de sistemas, si
existen, la gente que realmente sabe qué tipos de problemas informáticos y de
datos existen; y por último, la gente que se necesita entrevistar por razonespolíticas.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 13/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 13
A partir de las entrevistas, podemos identificar temas analíticos y procesos de
negocio. Los temas analíticos agrupan requerimientos comunes en un tema
común (ver tabla 1).
Tabla 1: Temas Analíticos
Tema Analítico Análisis oRequerimiento
inferido o pedido
Proceso delnegocio del
soporte
Comentarios
Planificación de
ventas
Análisis histórico
de órdenes de
revendedores
Ordenes de
compras
Por cliente, por
país, por región
de ventas
Proyección de
ventas
Ordenes de
compras
La proyección es
un progreso de
negocio que usa
las ordenes
como entrada
Por otra parte, a partir del análisis se puede construir una herramienta de la
metodología denominada matriz de procesos/dimensiones (Bus Matrix en
inglés).
Una dimensión es una forma o vista o criterio por medio de cual se pueden
sumariar, cruzar o cortar datos numéricos a analizar, datos que se denominan
medidas (measures en inglés).
Esta matriz tiene en sus filas los procesos de negocio identificados, y en lascolumnas, las dimensiones identificadas.
Un ejemplo de esta matriz se puede observar en la tabla 2. Cada X en la
intersección de las filas y columnas significa que en el proceso de negocio de la
fila seleccionada se identifican las dimensiones propuestas.
Tabla 2: Matriz de procesos/dimensiones (Bus Matrix ).
Dimensión
Proceso deNegocio
Tiempo Producto Empleados Clientes(Revendedores)
Geografíade
ventas
Importes
Proyección de
Ventas
X X X X X X
Compras X X X X X X
Control de
llamadas
X X X X X X
…
Finalmente se busca priorizar los requerimientos o procesos de negocios más
críticos.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 14/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 14
2.3. Modelado dimensional
La creación de un modelo dimensional es un proceso dinámico y altamente
iterativo. Un esquema general se puede ver en la figura 2.
Fig. 2: Diagrama de flujo del proceso dimensional de Kimball
El proceso de diseño comienza con un modelo dimensional de alto nivel obtenido
a partir de los procesos priorizados de la matriz descrita en el punto anterior.
El proceso iterativo consiste en cuatro pasos:
1. Elegir el proceso de negocio.
2. Establecer el nivel de granularidad.
3. Elegir las dimensiones.
4. Identificar medidas y las tablas de hechos.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 15/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 15
2 3 1 Elegir el proceso de negocio:
El primer paso es elegir el área a modelizar. Esta es una decisión de la
dirección, y depende fundamentalmente del análisis de requerimientos y de
los temas analíticos anotados en la etapa anterior.
2 3 2 Establecer el nivel de granularidad:
La granularidad significa especificar el nivel de detalle. La elección de la
granularidad depende de los requerimientos del negocio y lo que es posible
a partir de los datos actuales. La sugerencia general es comenzar a diseñar
el DW al mayor nivel de detalle posible, ya que se podría luego realizar
agrupamientos al nivel deseado. En caso contrario no sería posible abrir
(drill-down) las sumarizaciones en caso de que el nivel de detalle no lo
permita.
2 3 3 Elegir las dimensiones:
Las dimensiones surgen naturalmente de las discusiones del equipo, y
facilitadas por la elección del nivel de granularidad y de la matriz de
procesos/dimensiones. Las tablas de dimensiones tienen un conjunto de
atributos (generalmente textuales) que brindan una perspectiva o forma de
análisis sobre una medida en una tabla hechos.
Una forma de identificar las tablas de dimensiones es que sus atributos son
posibles candidatos para ser encabezado en los informes, tablas pivot,
cubos, o cualquier forma de visualización, unidimensional o
multidimensional.
2 3 4 Identificar las tablas de hechos y medidas:
El último paso consiste en identificar las medidas que surgen de los procesos
de negocios. Una medida es un atributo (campo) de una tabla que se desea
analizar, sumarizando o agrupando sus datos, usando los criterios de corteconocidos como dimensiones.
Las medidas habitualmente se vinculan con el nivel de granularidad del
punto 2.3.2., y se encuentran en tablas que denominamos tablas de hechos
(fact en inglés). Cada tabla de hechos tiene como atributos una o más
medidas de un proceso organizacional, de acuerdo a los requerimientos. Un
registro contiene una medida expresada en números, como ser cantidad,
tiempo, dinero, etc., sobre la cual se desea realizar una operación de
agregación (promedio, conteo, suma, etc.) en función de una o más
dimensiones. La granularidad es el nivel de detalle que posee cada registrode una tabla de hechos.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 16/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 16
2 3 5 Modelo gráfico de alto nivel:
Para concluir con el proceso dimensional inicial se realiza un gráfico
denominado modelo dimensional de alto nivel (o gráfico de burbujas, Bubble
chart , en el léxico de Kimball), como ilustra la figura 3.
Ejemplo de Modelo final de alto nivel de la sesión inicial de diseño
2 3 6 Identificación de atributos de dimensiones y tablas de hechos
La segunda parte de la sesión inicial de diseño consiste en completar cada
tabla con una lista de atributos bien formada. Una lista de este tipo se
muestra en la figura 4. Esta lista o grilla se forma colocando en las filas los
atributos de la tabla, y en las columnas la siguiente información:
Características relacionadas con la futura tabla dimensional delalmacén de datos (target ), por ejemplo tipo de datos, si es clave
primaria, valores de ejemplo, etc. Por razones de espacio no
describiremos todas las columnas, para mayor información puede
consultarse la referencia
El origen de los datos (source, por lo general atributos de las tablas
transaccionales).
Reglas de conversión, transformación y carga (ETL rules), que nos dicen
como transformar los datos de las tablas de origen a las del almacén
de datos.
2 3 7 Implementar el modelo dimensional detallado:
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 17/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 17
Este proceso consiste simplemente en completar la información
incompleta de los pasos anteriores. El objetivo en general es identificar
todos los atributos útiles y sus ubicaciones, definiciones y reglas de
negocios asociadas que especifican cómo se cargan estos datos. Para este
cometido se usa la misma planilla del punto anterior.
2 3 8 Prueba del modelo:
Si el modelo ya está estable, lo que se hace habitualmente es probarlo
contra los requerimientos del negocio. Haciendo la pregunta práctica de
¿Cómo podemos obtener esta información en particular del modelo? Para
las pruebas podemos usar diseños de reportes estructurados, de usuarios
actuales, diseños de cubos prospectivos, etc.
2 3 9 Revisión y validación del modelo
Un vez que tenemos confianza plena en el modelo, ingresamos en esta
etapa final (ver figura 2), lo cual implica revisar el modelo con diferentes
audiencias, cada una con diferentes conocimientos técnicos y del negocio.
En el área de sistemas deberían revisarlo los programadores y analistas de
los sistemas, y el DBA si existe. También debería revisarse con usuarios y
personas del negocio que tengan mucho conocimiento de los procesos y
que quizás no hayan participado del diseño del modelo. Finalmente
podemos hacer un documento que enuncie una serie de preguntas del
negocio (tomadas a partir de los requerimientos), y las conteste por medio
del modelo.
2 4 0 Documentos finales
El producto final, como se puede ver en la Figura 2, son una serie de
documentos (solo mencionamos los más importantes), a saber:
Modelo de datos inicial de alto nivel
Lista de atributos Diagrama de tablas de hechos
Definición de campos de medida
Diagrama de tablas de dimensiones
Descripción de los atributos de las dimensiones
Matriz DW (o DW Bus Matrix) completa
2.4. Diseño Físico
Se centra en la selección de las estructuras necesarias para soportar el diseñológico. Un elemento principal de este proceso es la definición de estándares del
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 18/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 18
entorno de la base de datos. La indexación y las estrategias de particionamiento
se determinan en esta etapa.
En esta parte, intentamos contestar las siguientes preguntas:
¿Cómo puede determinar cuán grande será el sistema de DW/BI?
¿Cuáles son los factores de uso que llevarán a una configuración más
grande y más compleja?
¿Cómo se debe configurar el sistema?
¿Cuánta memoria y servidores se necesitan? ¿Qué tipo de
almacenamiento y procesadores?
¿Cómo instalar el software en los servidores de desarrollo, prueba y
producción?
¿Qué necesitan instalar los diferentes miembros del equipo de DW/BI en
sus estaciones de trabajo?
¿Cómo convertir el modelo de datos lógico en un modelo de datos físicos
en la base de datos relacional?
¿Cómo conseguir un plan de indexación inicial?
¿Debe usarse la partición en las tablas relacionales?
2.5. Diseño del sistema de Extracción, Transformación y Carga ETL).
El sistema de Extracción, Transformación y Carga (ETL) es la base sobre la cual se
alimenta el Datawarehouse. Si el sistema ETL se diseña adecuadamente, puede
extraer los datos de los sistemas de origen de datos, aplicar diferentes reglaspara aumentar la calidad y consistencia de los mismos, consolidar la información
proveniente de distintos sistemas, y finalmente cargar (grabar) la información en
el DW en un formato acorde para la utilización por parte de las herramientas de
análisis.
2.6. Especificación y desarrollo de aplicaciones de BI
Una parte fundamental de todo proyecto de DW/BI está en proporcionarles a
una gran comunidad de usuarios una forma más estructurada y por lo tanto, más
fácil, de acceder al almacén de datos.
Proporcionamos este acceso estructurado a través de lo que llamamos
aplicaciones de inteligencia de negocios (Business Intelligence Aplications).
Las aplicaciones de BI son la cara visible de la inteligencia de negocios: los
informes y aplicaciones de análisis proporcionan información útil a los usuarios.
Las aplicaciones de BI incluyen un amplio espectro de tipos de informes y
herramientas de análisis, que van desde informes simples de formato fijo a
sofisticadas aplicaciones analíticas que usan complejos algoritmos e información
del dominio. Kimball divide a estas aplicaciones en dos categorías basadas en el
nivel de sofisticación, y les llama informes estándar y aplicaciones analíticas.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 19/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 19
2.7. Diseño y Desarrollo de la presentación de datos:
Tiene como principales actividades la extracción, transformación y carga (ETL).
Estas actividades son altamente críticas ya que tienen que ver con la materia
prima del Data Warehouse que son los datos.
2.8. Diseño de la arquitectura técnica:
En esta fase se deben tener en cuenta tres factores: los requerimientos de negocio, los
actuales entornos técnicos, y las directrices técnicas y estratégicas futuras planificadas
por la compañía, lo que permitirá establecer el diseño de la arquitectura técnica del
entorno del Data Warehouse.
El proceso de diseño de la arquitectura técnica está compuesto de 8 pasos:
1. Establecer un grupo de trabajo de arquitectura.
2. Requisitos relacionados con la arquitectura.
3. Documento de requisitos arquitectónicos.
4. Desarrollo de un modelo arquitectónico de alto nivel.
5. Diseño y especificación de los subsistemas.
6. Determinar las fases de aplicación de la arquitectura.
7. Documento de la arquitectura técnica.
8. Revisar y finalizar la arquitectura técnica.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 20/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 20
CONCLUSIONES
Un almacén de datos (Data Warehouse) es una colección de datos orientada a
un determinado ámbito (empresa, organización, etc.), integrado, no volátil y
variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que
se utiliza.
La arquitectura de un Data Warehouse se la utiliza para representar cual es la
estructura final de los datos, la forma en que se comunican esos datos, su
procesamiento y presentación.
Los procesos básicos del Data Warehouse son Extracción, transformación y
carga.
La metodología de Kimball proporciona una base empírica y metodológica
adecuada para las implementaciones de almacenes de datos pequeños y
medianos, dada su gran versatilidad y su enfoque ascendente, que permiteconstruir los almacenes en forma escalonada. Además presenta una serie de
herramientas, tales como planillas, gráficos y documentos, que proporcionan
una gran ayuda para iniciarse en el ámbito de la construcción de un
Datawarehouse.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 21/22
Business Intelligence Metodología Ralph Kimball
Jaime Albert Armas Rodríguez 21
RECOMENDACIONES
Para la implementación de un sistema Datawarehouse se recomienda lo siguiente:
Seguir una metodología probada Comprender con mucha claridad los requerimientos del negocio.
Diseñar una arquitectura que responda los procesos del negocio a los volúmenes de
datos y a la infraestructura de TI.
7/24/2019 Business Intelligence - KIMBALL
http://slidepdf.com/reader/full/business-intelligence-kimball 22/22
Business Intelligence Metodología Ralph Kimball
BIBLIOGRAFIA
Ralph Kimball, The Datawarehouse Lifecycle Toolkit, 2nd Edition, New York, wiley,
2008.
Paginas Sugeridas:
http://addkw.com
www.ucasal.edu.ar