Upload
jessica-susan
View
138
Download
3
Embed Size (px)
Citation preview
http://www.exa.unicen.edu.ar/catedras/dwhouse/ diapositivas
http://www.tesis.ufm.edu.gt/
DATAWAREHOUSE
PREFACIO
Desde que se inicia la era de la computadora, las organizaciones usan los datos desde los
sistemas operacionales para atender sus necesidades de información. Algunas proporcionan
acceso directo a la información contenida dentro de las aplicaciones operacionales. Otras, han
extraído los datos desde sus bases de datos operacionales para combinarlos de varias formas no
estructuradas, en su intento por atender a los usuarios en sus necesidades de información.
Ambos métodos han evolucionado a través del tiempo y ahora las organizaciones manejan
datos no limpios e inconsistentes, sobre los cuales, en la mayoría de las veces, se toman
decisiones importantes. La gestión administrativa reconoce que una manera de elevar su
eficiencia está en hacer el mejor uso de los recursos de información que ya existen dentro de la
organización. Sin embargo, a pesar de que esto se viene intentando desde hace muchos años, no
se tiene un uso efectivo de los mismos.
La razón principal es la manera en que han evolucionado las computadoras, basadas en
las tecnologías de información y sistemas. La mayoría de las organizaciones hacen lo posible por
conseguir buena información, pero el logro de ese objetivo depende fundamentalmente de su
arquitectura actual, tanto de hardware como de software.
El Data Warehouse, es actualmente, el centro de atención de las grandes instituciones,
porque provee un ambiente para que las organizaciones hagan un mejor uso de la información que
es administrada por diversas aplicaciones operacionales. Un Data Warehouse es una colección de
datos en la que se encuentra integrada la información de la Institución y que se usa como soporte
para el proceso de toma de decisiones gerenciales. Aunque diversas organizaciones y personas
individuales logran comprender el enfoque de un Warehouse, la experiencia ha demostrado que
existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicación en un
ambiente integral centralizado, simplifica el problema de acceso a la información y en
consecuencia, acelera el proceso de análisis, consultas y el menor tiempo de uso de la
información.
Las aplicaciones para soporte de decisiones basadas en un Data Warehouse, pueden
hacer más práctica y fácil la explotación de datos para una mayor eficacia del negocio, que no se
logra cuando se usan sólo los datos que provienen de las aplicaciones operacionales (que ayudan
en la operación de la empresa en sus operaciones cotidianas), en los que la información se obtiene
realizando procesos independientes y muchas veces complejos.
Un Data Warehouse se crea al extraer datos desde una o más bases de datos de
aplicaciones operacionales. Los datos extraídos son transformados para eliminar inconsistencias y
resumir si es necesario y luego, cargados en el Data Warehouse. El proceso de transformar, crear
el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el
ambiente para el acceso a la información institucional. Este nuevo enfoque ayuda a las personas
individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con más
responsabilidad.
La innovación de la tecnología de información dentro de un ambiente Data Warehouse,
puede permitir a cualquier organización hacer un uso más óptimo de los datos, como un
ingrediente clave para un proceso de toma de decisiones más efectivo. Las organizaciones tienen
que aprovechar sus recursos de información para crear la información de la operación del negocio,
pero deben considerarse las estrategias tecnológicas necesarias para la implementación de una
arquitectura completa de Data Warehouse.
1.1 1.1 Antecedentes históricos
El concepto de Data Warehouse proviene de la combinación de dos necesidades que
generalmente no están asociadas, sin embargo son tomadas en conjunto para obtener un mejor
entendimiento del problema y presentar una posible solución. Estas necesidades son:
Requerimiento del negocio, de una perspectiva amplia de la información de la
compañía.
La necesidad del manejo de la información por parte del departamento de sistemas.
Tomándolas separadas, la demanda de los negocios requiere una vista amplia de la
información que pueda liderar soluciones basadas en permitir a cualquier usuario accesar cualquier
información sin importar donde esté ubicado. Sin embargo, éstas soluciones son simples, porque
ignoran fundamentalmente la distinción entre datos e información. De hecho, lo que los usuarios
del negocio requieren es información (algunas veces definida como datos, en el contexto de
negocios).
Debido a la forma en que las aplicaciones se encuentran y como continúan creciendo, éstas
no solamente contiene datos separados del contexto del negocio sino que algunas veces contienen
datos consistentes en todo el ámbito de la compañía. Entonces los datos son simplemente no
apropiados para el uso directo de usuarios finales.
Sin embargo combinando las necesidades anteriormente mencionadas, se da una nueva
perspectiva. Si la necesidad del sistema de información de la administración de datos fuera tomada
en cuenta, la necesidad de los negocios de una consulta amplia de los datos de los negocios son
más fácil de reunir.
De igual manera la necesidad de obtener una consulta amplia de los datos y los obvios
beneficios del negocio que estos tienen, son la justificación requerida para resolver el problema de
administración de datos.
A mitad de los años noventas el Data Warehouse se inició como una moda en la industria de
la computación, se ha anunciado el valor del concepto por más de una década, se puede ver este
desarrollo como una justificación, tal popularidad trae sus propios problemas. Uno de estos es que
en sus inicios, lleva a los vendedores a adaptar sus conceptos particulares para hacer una unión
entre éste y los productos que ellos venden. Debe recordarse que el Data Warehouse no puede ser
manejado por sí sólo. Este se inventó por las compañías para satisfacer sus propias necesidades,
éstas continuan existiendo y siguen creciendo de acuerdo al ambiente tecnológico en que los
negocios se operen y sean más complejos.
Con el propósito de comprender la historia del Data Warehouse de una mejor manera, se
muestra la figura No. 1 (Antecedentes del Data Warehouse). Muchas de las claves del desarrollo de
computación son direccionadas a la evolución del Data Warehouse. Los aspectos históricos son
solamente aspectos generales, sin embargo, el progreso del desarrollo técnico y de negocios es
usado como un criterio en contra, el cual mide la situación actual en cualquier compañía o parte de
ella para entender como mejor proceda.
Figura No. 1 1.2 1.2 Aspectos teóricos
Data Warehouse es el centro de la arquitectura para los sistemas de información en la
década de los noventas. Soporta el procesamiento informático al proveer una plataforma sólida, a
partir de los datos históricos para hacer el análisis. Facilita la integración de sistemas de aplicación
no integrados. Organiza y almacena los datos que se necesitan para el procesamiento analítico e
informático sobre una amplia perspectiva del tiempo.
Un Data Warehouse (o depósito de datos) es una colección de información orientado a
temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del proceso de toma de
decisiones gerenciales. Se caracteriza, haciendo un contraste de los datos de un negocio
almacenados en él, a diferencia de los operacionales usados por las aplicaciones de producción. El
ingreso deestos en el Data Warehouse viene desde el ambiente operacional en casi todos los
casos. Este es un almacén de datos transformados y separados físicamente de la aplicación donde
se encuentran los mismos en el ambiente operacional.
1.3 1.3 Sistemas de información
Los sistemas de información se han dividido de acuerdo al siguiente esquema:
Sistemas Estratégicos:
Están orientados al apoyo en la toma de decisiones, facilitando la labor de la dirección
y proporcionando un soporte básico, para la toma de decisiones. Se caracterizan porque son
sistemas sin carga periódica de trabajo, es decir, su utilización no es predecible. Destacan
entre ellos: Los Sistemas de Información Gerencial (MIS), Sistemas de Información
Ejecutivos (EIS), Sistemas de Información Georeferencial (GIS), Sistemas de Simulación de
Negocios (BIS y que en la práctica son sistemas expertos o de Inteligencia Artificial - AI).
Sistemas Tácticos:
Diseñados para soportar la coordinación de actividades y manejo de documentación,
definidos para facilitar consultas sobre información almacenada en el sistema y la gestión
independiente de la información por parte de los niveles intermedios de la organización.
Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de Mensajería
(E-mail y Fax Server), coordinación y control de tareas (Work Flow) y los sistemas de
tratamiento de documentos (Imagen, Trámite y Bases de Datos).
Sistemas Técnico-Operativos:
Estos sistemas, cubren el núcleo de operaciones tradicionales de captura masiva de
datos y servicios básicos de tratamiento de los mismos, con tareas predefinidas
(contabilidad, facturación, almacén, presupuesto, personal y otros sistemas administrativos).
Estos, están evolucionando con la introducción de censores, autómatas, multimedia, bases
de datos relacionales más avanzadas y el Data Warehouse.
Sistemas Interinstitucionales:
Este nivel de sistemas de información, es consecuencia del desarrollo organizacional
orientado a un mercado de carácter global, obliga a pensar e implementar estructuras de
comunicación más estrechas entre la organización y el mercado (Empresa Extendida,
Organización Inteligente e Integración Organizacional), todo esto a partir de la generalización
de las redes informáticas de alcance nacional y global (INTERNET), que se convierten en
vehículo de comunicación entre la organización y el mercado, no importa dónde esté la
organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado (Red
Global).
Sin embargo, la tecnología Data Warehouse basa sus conceptos y diferencias entre
dos tipos fundamentales de sistemas de información en todas las organizaciones: los
sistemas técnico-operacionales y los sistemas de soporte de decisiones. Siendo este último
la base de un Data Warehouse.
1.3.1 1.3.1 Sistemas técnico-operacionales
Son los que ayudan a manejar las empresas en sus operaciones cotidianas. Estos
operan sobre la columna vertebral de cualquier empresa o institución, entre las que se tiene
sistemas de ingreso de órdenes, inventario, fabricación, planilla y contabilidad, entre otros.
Debido a su volumen e importancia en la organización, los sistemas operacionales
siempre son las primeras partes de la empresa a ser computarizados. A través de los años,
estos sistemas operacionales se han extendido, revisado, mejorado y mantenido al punto
que hoy, son completamente integrados en la organización. Desde luego, la mayoría de las
más grandes de éstas en todo el mundo, actualmente no pueden operar sin sistemas
operacionales y los datos que estos sistemas mantienen.
1.3.2 1.3.2 Sistemas de Soporte de Decisiones
Hay funciones dentro de las empresas que tienen que ver con el planeamiento,
previsión y administración de la organización. Estas funciones son críticas para la
supervivencia de las organizaciones, especialmente en nuestro mundo de rápidos cambios.
Las funciones como "planificación de marketing", "planeamiento de ingeniería" y "análisis
financiero", requieren de sistemas de información que los soporte. Pero estas funciones son
diferentes de las operacionales y los tipos de sistemas requeridos. Las funciones basadas en
el conocimiento son los sistemas de soporte de decisiones.
Estos sistemas están relacionados con el análisis de los datos y la toma de
decisiones, frecuentemente, son importantes para conocer cómo opera la empresa, ahora y
en el futuro. Estos, no sólo tienen un enfoque diferente al de los operacionales, sino tienen
un alcance diferente. Mientras las necesidades de los datos operacionales se orientan
normalmente hacia una sola área, los datos para el soporte de decisiones, con frecuencia,
toman un número de zonas diferentes y necesitan cantidades grandes de datos
operacionales relacionadas. Son estos sistemas sobre los cuales se basa la tecnología Data
Warehouse.
CAPITULO II
1. 2. CONCEPTOS GENERALES DE DATA WAREHOUSE 1.1. 2.1. Definición
En los ambientes de negocios competitivos de hoy, entender y administrar información es
crucial para las compañías, tomar decisiones a tiempo respondiendo a los cambios de los de
negocios. Las aplicaciones de procesamiento de datos han proliferado a través de una amplia
variedad de sistemas operativos en las ultimas dos décadas, complicando la tarea de localizar e
integrar datos para soporte de decisiones, tomando una decisión autoritaria se inicia la distribución
hacia todos los niveles de una organización. Más personas necesitan acceso a la información
necesaria para la toma de una decisión de negocios. Como resultado de manejar y usar ésta
competitivamente, muchas organizaciones hoy están construyendo Data Warehouse.
Data Warehouse soporta análisis de negocios y decisiones realizadas para la creación de
una base de datos integrada, consistente, orientada a temas e información histórica. Integra los
datos de múltiples sistemas heterogéneos a una base de datos consolidada. En la transformación
de éstos, permite a los administradores de negocios realizar análisis consistentes más sustantivos
y precisos.
Significativos beneficios en costos, tiempo y productividad, están asociados con el uso de
Data Warehouse en el procesamiento de información. Primero, los datos son accesados y
analizados fácilmente sin consumir tiempo, manipulando y procesando. Las decisiones son
realizadas con mayor rápidez y con la confidencialidad de que los datos son precisos.
La información integrada es mantenida en categorías que son significativas para producir
una operación. Las tendencias son analizadas y predecidas con disponibilidad de datos históricos.
Data Warehouse asegura que todos extraigan los mismos datos al mismo nivel, lo que elimina
resultados analíticos conflictivos y argumentos que no coincidan con la fuente y calidad de datos
usados en el análisis. En resumen, habilita información a procesar de una manera eficiente y
creíble. Un Data Warehouse:
Es un almacén de datos en el que se recopila toda la información existente en una
empresa y se coloca en un sistema de administración de base de datos.
Es un conjunto de herramientas de integración de información diseñado con el
propósito de facilitar la toma de decisiones.
Es una solución que permite examinar datos históricos y analizarlos en diferentes formas
tomando decisiones basadas en ellos.
1.2. 2.2. Características
Orientado al tema
Integrado
De tiempo variante
No volátil
1.2.1. 2.2.1. Orientado a temas
Una primera característica del Data Warehouse es que la información se clasifica en
base a los aspectos que son de interés para la empresa. Siendo los datos tomados en
contraste con los clásicos procesos orientados a las aplicaciones.
En la Figura No. 2 se muestra el contraste entre los dos tipos de orientaciones.
Figura No. 2
El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales
como préstamos, ahorros, tarjetas de crédito y depósitos para una institución financiera. Por
ejemplo, una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes,
productos y cuentas. La base de datos combina estos elementos en una estructura que
acomoda las necesidades de la aplicación.
El ambiente Data Warehouse se organiza alrededor de sujetos tales como clientes,
vendedores, productos y actividades. Por ejemplo, para un fabricante, éstos son clientes,
productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases
y profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos.
Las aplicaciones están relacionadas con el diseño de la base de datos y del proceso.
El Data Warehouse enfoca el modelamiento de datos y el diseño de la base de datos. Las
diferencias entre la orientación de procesos y funciones de las aplicaciones y la orientación a
temas, radican en el contenido de los datos a nivel detallado. En el Data Warehouse se
excluye la información que no es usada por el proceso de sistemas de soporte de
decisiones, mientras que la información de las orientadas a las aplicaciones, contiene datos
para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser
usados o no por el analista de soporte de decisiones.
Otra diferencia importante está en la interrelación de la información. Los datos
operacionales mantienen una relación continua entre dos o más tablas basadas en una regla
comercial que está vigente. Las reglas del Data Warehouse miden el tiempo y las relaciones
encontradas entre sí. Muchas de las reglas comerciales (y sus correspondientes relaciones
de datos) se representan en el Data Warehouse, entre dos o más tablas.
En resumen, orientado a temas, significa que está organizado con relación a las
principales materias de la empresa. La orientación alrededor de los temas más importantes
de la corporación causa que el diseño del Data Warehouse es manejar datos. El manejo de
datos de las materias de la organización de éste, está en contraste con el proceso
clásico/funcional de las aplicaciones de la organización, el cual caracteriza los sistemas de
operación más antiguos.
El mundo del Data Warehouse está organizado en relación con las materias más
importantes de las áreas de la corporación, las que afectan el diseño e implementación en la
búsqueda de datos para el Data Warehouse. Otra distinción importante entre las
aplicaciones orientadas a datos operacionales y los contenidos en el Data Warehouse, es la
relación estos. Las aplicaciones operacionales se relacionan según las necesidades
inmediatas concernientes al negocio, lo que es exacto y relevante justo ahora. Una relación
en el ambiente operacional está basada en las reglas actuales del negocio, relación en
marcha entre dos o más tablas o bases de datos.
1.2.2. 2.2.2. Integrado
El aspecto más importante del ambiente Data Warehouse es que la información
encontrada al interior está integrada. Esta integración de datos se muestra de muchas
maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en
la codificación de estructuras, en atributos físicos de los datos, fuentes múltiples y otros. En
la Figura No. 3 de la página No. 16, se muestra el contraste de la integración encontrada en el
Data Warehouse con la carencia de integración del ambiente de aplicaciones, con sus
respectivas diferencias.
A través de los años, los diseñadores de las diferentes aplicaciones toman sus propias
decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños
personalizados se muestran de varias maneras. Se diferencian en la codificación, en las
estructuras claves, en sus características físicas, en las convenciones de nombramiento y
otros. La Figura No. 3 mencionada, muestra algunas de las diferencias más importantes en
las formas en que se diseñan las aplicaciones.
Codificación. Los diseñadores de aplicaciones codifican el campo GENERO en
varias formas. Estos, representan GENERO como una "M" y una "F", otros como un
"1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino".
No importa cómo el GENERO llega al Data Warehouse, probablemente "M" y "F" sean
tan buenas como cualquier otra representación. Lo importante es que el GENERO
debe llegar al Data Warehouse en un estado integrado uniforme. Por lo tanto, cuando
el GENERO se carga en el Data Warehouse desde una aplicación, donde ha sido
representado en formato "M" y "F", los datos deben convertirse al formato del Data
Warehouse que no precisamente debe ser el mismo.
Medida de atributos. Los diseñadores de aplicaciones obtienen las unidades de
medida en una variedad de formas. Un diseñador almacena los datos en centímetros,
otros en pulgadas, otros en millones de pies cúbicos por segundo y otros en yardas. Al
dar medidas a los atributos, la transformación traduce las diversas unidades usadas en
las diferentes bases de datos para transformarlas en una estándar común. Cualquiera
que sea la fuente, cuando la información llegue al Data Warehouse necesita ser
medida de la misma manera.
Convenciones de Nombramiento El mismo elemento es frecuentemente referido
por nombres diferentes en las diversas aplicaciones. El proceso de transformación
asegura que se use preferentemente el nombre de usuario.
Fuentes Múltiples El mismo elemento puede derivarse desde fuentes múltiples.
En este caso, el proceso de transformación debe asegurar que la fuente apropiada sea
usada, documentada y movida al depósito.
Figura No. 3
Tal como se muestra en la figura, los puntos de integración afectan casi todos los
aspectos del diseño ( las características físicas de los datos, la incompatibilidad de tener
más de una fuente de datos, el problema de estándares de denominación inconsistentes,
formatos de fecha inconsistentes, cualquiera que sea la forma del diseño, el resultado es el
mismo ) la información necesita ser almacenada en el Data Warehouse en un modelo
globalmente aceptable y singular, aún cuando los sistemas operacionales almacenen los
datos de manera diferente.
Cuando el analista de sistema de soporte de decisiones observe el Data Warehouse,
su enfoque debe estar en el uso de los datos que se encuentre en el depósito, antes de
preguntarse sobre la confiabilidad o consistencia de los datos.
Esta es la característica más importante del Data Warehouse. Con la aplicación de
esta, toma un gusto muy corporativo. La integración de los datos muestra muchas rutas
distintas en convenciones consistentes de nombre, medidas de variables, estructuras de
codificación, atributos físicos de datos, entre otros. Contrasta la información encontrada, con
la carencia de integración en los ambientes de las aplicaciones. Al transcurrir los años,
muchos diseñadores han hecho sus decisiones individuales sobre cómo una aplicación debe
ser construida. El estilo y diseño de decisiones hecho a la medida por parte del diseñador
muestran muchas maneras, así como diferencias en codificación, diferencias en las
estructuras clave, en las características físicas, entre convenciones de nombre.
Como sea la edición de diseño, el resultado es el mismo: los datos necesitan ser
almacenados en el Data Warehouse de manera única, globalmente aceptada aún cuando los
sistemas operacionales principales almacenen los datos de manera distinta.
1.2.3. 2.2.3. De Tiempo Variante
Toda la información del Data Warehouse es requerida en algún momento. Esta
característica básica de los datos en un depósito, es muy diferente de la información
encontrada en el ambiente operacional. En éstos, la información se requiere al momento de
accesar. En otras palabras, en el ambiente operacional, se accesa a una unidad de
información y se espera que los valores requeridos se obtengan a partir del momento de
acceso.
Como la información en el Data Warehouse es solicitada en cualquier momento (es
decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de "tiempo
variante". Los datos históricos son de poco uso en el procesamiento operacional. La
información del depósito, debe incluir los datos históricos para usarse en la identificación y
evaluación de tendencias. (Ver Figura No. 4).
Figura No. 4
El tiempo variante se muestra de varias maneras:
La más simple es que la información representa los datos sobre un horizonte de
tiempo largo (desde cinco a diez años). El horizonte de tiempo representado para el
ambiente operacional es mucho más corto desde valores actuales hasta sesenta a
noventa días.
Las aplicaciones que tienen un buen rendimiento y están disponibles para el
procesamiento de transacciones, deben llevar una cantidad mínima de datos y algún
grado de flexibilidad. Por ello, las aplicaciones operacionales tienen un corto
horizonte de tiempo, debido al diseño de aplicaciones rígidas.
La segunda manera es la que muestra el tiempo variante en el Data Warehouse
está es la estructura clave. Cada estructura clave en este contiene, implícita o
explícitamente, un elemento de tiempo como día, semana, mes..
El elemento de tiempo es casi siempre la clave en el Data Warehouse. En
ocasiones, el elemento de tiempo existe implícitamente, como el caso en que un
archivo completo se duplica al final del mes, o al cuarto.
La tercera manera en que aparece el tiempo variante es cuando la información
del Data Warehouse, una vez registrada correctamente, no puede ser actualizada.
La información de contenida en este es, para todos los propósitos prácticos, una
serie larga de vistas instantáneas (snapshots).
Si las vistas instantáneas de los datos se han tomado incorrectamente,
entonces pueden ser cambiados. Asumiendo que las vistas instantáneas se han
tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos
no es ético, alterar las vistas instantáneas en el Data Warehouse. Los datos
operacionales, son requeridos a partir del momento de acceso y pueden actualizarse
de acuerdo a la necesidad.
Todos los datos en el Data Warehouse son exactos en cualquier momento en el
tiempo. Esta característica básica, es muy distinta a los datos encontrados en el ambiente
operacional. En este ambiente, los datos son exactos en el momento de acceso. En otras
palabras, en un ambiente operacional, cuando se accesan, se espera que se reflejen valores
exactos a ese momento de acceso.
La varianza en el tiempo de los datos del Data Warehouse de muestra de varias
maneras. Las aplicaciones que se ejecutan estan disponibles para el proceso transaccional,
éstos deben acarrear la misma cantidad de datos si tienen algún grado de flexibilidad. Por
consiguiente, las aplicaciones operacionales tienen un horizonte de tiempo corto. La
estructura, es una manera en la que la varianza de tiempo se muestra en el Data
Warehouse.
1.2.4. 2.2.4. No Volátil
La información es útil sólo cuando es estable. Los datos operacionales cambian sobre
una base momento a momento. La perspectiva esencial para el análisis y la toma de
decisiones, requiere una base de datos estable.
En la Figura No.5 se muestra que la actualización (insertar, borrar y modificar), se hace
regularmente en el ambiente operacional sobre una base de registro. Pero la manipulación
básica de los datos que ocurre en el Data Warehouse es mucho más simple. Hay dos únicos
tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay
actualización en el depósito, como una parte normal de proceso.
Hay algunas consecuencias muy importantes de esta diferencia básica, entre el
procesamiento operacional y del Data Warehouse. En el nivel de diseño, la necesidad de ser
precavido para actualizar las anomalías no es un factor de este, ya que no se hace la
actualización de datos. Esto significa que en el nivel físico de diseño, se pueden tomar
libertades para optimizar el acceso a los datos, particularmente al usar la normalización y
denormalización física.
Otra consecuencia de la simplicidad de la operación del Data Warehouse está en la
tecnología, utilizada para correr los datos en el depósito. Teniendo que soportar la
actualización de cada registro en modo en línea (como es frecuente en el caso del
procesamiento operacional) requiere que la tecnología tenga un fundamento muy complejo
debajo de una fachada de simplicidad.
Figura No. 5
En el Data Warehouse no es necesario el procesamiento. La fuente de casi toda la
información es el ambiente operacional. A simple vista, se puede pensar que hay
redundancia masiva de datos entre los dos ambientes. La primera impresión de muchas
personas se centra en la gran redundancia de datos, entre el ambiente operacional y el
ambiente de Data Warehouse. Dicho razonamiento es superficial y demuestra una carencia
de entendimiento con respecto a qué ocurre en el Data Warehouse. De hecho, hay una
mínima redundancia de datos entre ambos ambientes.
Se debe considerar lo siguiente:
Los datos se filtran cuando pasan por el ambiente operacional al depósito.
Existen datos que nunca salen del ambiente operacional. Solamente los datos que
se necesitan ingresán al ambiente de Data Warehouse.
El horizonte de tiempo de los datos es diferente de un ambiente a otro. La
información en el ambiente operacional es reciente con respecto a la del Data
Warehouse. Desde la perspectiva de los horizontes de tiempo únicos, hay poca
superposición entre los ambientes operacional y de Data Warehouse.
El Data Warehouse contiene un resumen de la información que no se encuentra
en el ambiente operacional.
Los datos experimentan una transformación fundamental cuando pasa al Data
Warehouse. La mayor parte de los datos se alteran significativamente al ser
seleccionados y movidos hacia él. Dicho de otra manera, la mayoría de los datos se
alteran física y radicalmente cuando se mueven al depósito. No son los mismos
datos que residen en el ambiente operacional desde el punto de vista de integración.
En vista de estos factores, la redundancia de datos entre los dos ambientes es una
ocurrencia rara, que resulta en menos de 1%.
En resumen, las actualizaciones, inserciones, borrados y cambios, son regularmente
hechos en el ambiente operacional. Pero la manipulación básica de los datos que ocurre en
el Data Warehouse es muy simple. Solamente hay dos clases de operaciones que ocurren
en él, la carga y el acceso de datos. No hay actualización en este como parte normal del
procesamiento. Existen consecuencias poderosas de éstas diferencias básicas, entre el
procesamiento operacional y el procesamiento del Data Warehouse. En el diseño, la
necesidad de ser cautelosos de las anomalías de actualización no es un factor en este, ya
que no se hace una actualización. Esto significa que el ámbito del diseño físico, pueden
tomarse algunas libertades para optimizar el acceso de los datos, particularmente en el trato
con los beneficios de la normalización y la denormalización física.
1.3. 2.3. Estructura del Data Warehouse
Existen estructuras distintas para los Data Warehouse. Hay niveles diferentes de
esquematización y detalle que lo delimitan. En la figura No. 6 se muestra la estructura de este. Se
muestran los diferentes componentes y son:
Detalle de datos actuales: El interés más importante radica en el detalle de los
datos actuales, debido a que:
o o Reflejan las ocurrencias más recientes, las que son de gran interés
o o Es voluminoso, ya que se almacena al más bajo nivel de granularidad.
o o Siempre se almacena en disco, es de fácil acceso, aunque su
administración es costosa y compleja.
Detalle de datos antiguos: Son aquellos que se almacenan sobre alguna forma de
almacenamiento masivo. No son frecuentemente accesados y se almacenan a un nivel
de detalle consistente en los datos detallados actuales. Mientras no sea prioritario el
almacenamiento en un medio de almacenaje alterno, a causa del gran volumen de datos
y al acceso no frecuente de los mismos, es poco usual utilizar el disco como medio de
almacenamiento.
Datos ligeramente resumidos: Son aquellos que provienen desde un bajo nivel de
detalle encontrado al nivel de detalle actual. Este siempre se almacena en disco. Los
puntos en los que se basa el diseñador para construirlo son:
o o La unidad de tiempo se encuentre sobre la esquematización hecha.
o o Contenidos (atributos) tienen los datos ligeramente resumidos.
Figura No. 6
Datos completamente resumidos: Estos datos son compactos y fácilmente
accesibles.
Metadata El componente final del Data Warehouse es el de la metadata. De muchas
maneras esta se sitúa en una dimensión diferente al de otros datos del Data Warehouse,
debido a que su contenido no es tomado directamente desde el ambiente operacional.
La metadata juega un rol especial y muy importante en el Data Warehouse y es
usada como:
o o Un directorio para ayudar al analista a ubicar los contenidos del Data
Warehouse.
o o Una guía para el mapeo de datos en la transformación, del ambiente
operacional al del Data Warehouse.
o o Una guía de los algoritmos usados para la esquematización entre el
detalle de datos actual, con los ligeramente resumidos y éstos, con los datos
completamente resumidos.
La metadata juega un papel importante en un ambiente Data Warehouse que en el
operacional clásico. A fin de recordar los diferentes niveles de los datos encontrados en el
Data Warehouse, se considera el ejemplo mostrado en la Figura No. 7.
El detalle de ventas antiguas son las que se encuentran antes de 1998. Todos los detalles
de ventas desde 1988 (o cuando el diseñador inició la colección de los archivos) son almacenados
en el nivel de detalle de datos más antiguo.
El detalle actual contiene información de 1998 a 1999. En general, las ventas no se ubica
nen en el nivel actual hasta que pase, por lo menos, veinticuatro horas hasta que la información de
ventas este disponible en el ambiente operacional.
Figura No. 7
Hay un retraso de veinticuatro horas, entre el tiempo en que el ambiente operacional se hace
un nuevo ingreso de venta y cuando la información de la venta haya ingresado al Data Warehouse.
El detalle de ventas son resumidas semanalmente por línea de subproducto y por región, para
producir un almacenamiento de datos ligeramente sitentizado. El detalle de ventas semanal se
adiciona en forma mensual, según una gama de líneas, para producir los datos completamente
consolidados.
Generalmente, la metadata contiene:
La estructura de datos.
Los algoritmos usados para la esquematización
El mapping desde el ambiente operacional al Data Warehouse
La información adicional que no se esquematiza es almacenada en el Data Warehouse. En
ocasiones, se hace el análisis y se produce un tipo de sintesis. El único tipo de programa que se
almacena permanentemente en el Data Warehouse, es el de datos que son usados
frecuentemente. Si un analista produce un esquema que tiene probabilidad muy baja de ser usado
nuevamente, entonces no es almacenado en el Data Warehouse.
1.4. 2.4. Arquitectura de un Data Warehouse
La razón por la que el desarrollo de un Data Warehouse crece rápidamente, es porque
realmente es una tecnología muy entendible. De hecho, representa la estructura amplia de una
empresa para administrar los datos informacionales dentro de la organización. A fin de comprender
cómo se relacionan todos los componentes involucrados en una estrategia Data Warehouse, es
esencial tener una Arquitectura para este.
1.4.1. 2.4.1. Elementos constituyentes de una Arquitectura Data Warehouse
La Arquitectura Data Warehouse (DWA) es la forma de representar la estructura total de
datos, como son comunicación, procesamiento y presentación, esto existe para los usuarios
finales que disponen de una computadora dentro de la empresa.
La arquitectura se constituye de partes interconectadas:
Base de datos operacional / Nivel de base de datos externo: Los sistemas
operacionales procesan datos para apoyar las necesidades de operaciones críticas.
Para hacer eso, se han creado las bases de datos operacionales históricas que
proveen una estructura de procesamiento eficiente, para un número relativamente
pequeño de transacciones comerciales bien definidas. Sin embargo, a causa del
enfoque limitado de los sistemas operacionales, las bases de datos diseñadas para
soportar estos, tienen dificultad al acceder los datos para otra gestión o propósitos
informáticos. Esta, es amplificada por el hecho que muchos de estos sistemas
tienen de 10 a 15 años de antigüedad. El tiempo de algunos de estos sistemas
significa que la tecnología de acceso a los datos disponible para obtener los datos
operacionales, es antigua.
La meta del Data Warehouse es liberar la información que se almacena en
bases de datos operacionales y combinarla con la información desde otra fuente de
datos, generalmente externa. Cada vez, las organizaciones grandes adquieren
datos adicionales desde bases de datos externas.
Nivel de acceso a la información: Es el nivel del que el usuario final se
encarga directamente. En particular, representa las herramientas que el este
normalmente usa diariamente. Este nivel incluye el hardware y software que
muestran la información en pantalla y emitir reportes de impresión, hojas de cálculo,
gráficos y diagramas para el análisis y presentación. Hace dos décadas que el nivel
de acceso a la información se ha expandido enormemente, especialmente a los
usuarios finales quienes se han volcado a las PCs monousuarias y las PCs en
redes.
Actualmente, existen herramientas sofisticadas para manipular, analizar y
presentar los datos, sin embargo, hay problemas significativos al tratar de convertir
los datos tal como son recolectados y que se encuentran contenidos en los sistemas
operacionales en información fácil y transparente para las herramientas de los
usuarios finales. Una de las claves para esto es encontrar un lenguaje de datos
común que se use a través de toda la empresa.
Nivel de acceso a los datos: El nivel de acceso a los datos de la arquitectura
Data Warehouse se involucra con el nivel de acceso a la información para conversar
en el nivel operacional. En la red mundial de hoy, el lenguaje de datos común que
surge es SQL (Structured Query Language). Originalmente, SQL fue desarrollado
por IBM como un lenguaje de consulta, pero en los últimos veinte años ha llegado a
ser el estándar para el intercambio de datos.
El nivel de acceso a los datos no solamente conecta DBMSs (Bases de Datos
Relacionales) diferentes y sistemas de archivos sobre el mismo hardware, sino
también a los fabricantes y protocolos de red. Una de las claves de una estrategia
Data Warehouse es proveer a los usuarios finales con "acceso a datos universales".
El acceso a los datos universales significa que, teóricamente por lo menos, los
usuarios finales sin tener en cuenta la herramienta de acceso a la información o
ubicación, deberían ser capaces de accesar a cualquier o todos los datos en la
empresa que es necesaria para ellos. El nivel de acceso a los datos entonces es
responsable de la interfase entre las herramientas de acceso a la información y las
bases de datos operacionales. En algunos casos, esto es todo lo que un usuario
final necesita.
Nivel de Directorio de Datos (Metadata): A fin de proveer el acceso a los datos
universales, es absolutamente necesario mantener alguna forma de directorio de
datos o repositorio de la información metadata. A fin de tener un depósito totalmente
funcional, es necesario tener una variedad de metadata disponibles, información
sobre las vistas de datos de los usuarios finales e información sobre las bases de
datos operacionales. Idealmente, los usuarios finales deberían de accesar a los
datos desde el Data Warehouse (o desde las bases de datos operacionales), sin
tener que conocer dónde residen los datos o la forma en que se han almacenado.
Nivel de Gestión de Procesos: El nivel de gestión de procesos tiene que ver
con la programación de diversas tareas que deben realizarse para construir y
mantener el Data Warehouse y la información del directorio de datos. Este nivel
puede depender del alto nivel de control de trabajo para muchos procesos que
deben ocurrir para mantener el Data Warehouse actualizado.
Nivel de Mensaje de la Aplicación: El nivel de mensaje de la aplicación tiene
que ver con el transporte de información alrededor de la red de la empresa. El
mensaje de aplicación se refiere también como "subproducto", pero puede involucrar
sólo protocolos de red. Puede usarse por ejemplo, para aislar aplicaciones
operacionales o estratégicas a partir del formato de datos exacto, recolectar
transacciones o los mensajes y entregarlos a una ubicación segura en un tiempo
seguro.
Nivel Data Warehouse (Físico): En el Data Warehouse es donde ocurren los
datos actuales, usados principalmente para usos estratégicos. En algunos casos, se
puede pensar del Data Warehouse simplemente como una vista lógica o virtual de
datos. En muchos ejemplos, el Data Warehouse puede no involucrar
almacenamiento de datos. En un Data Warehouse físico, copias, en algunos casos,
muchas copias de datos operacionales y/o externos, son almacenados realmente en
una forma que es fácil de acceder y es altamente flexible. Cada vez más, los Data
Warehouse son almacenados sobre plataformas cliente / servidor, pero por lo
general se almacenan sobre mainframes o computadoras grandes.
Nivel de Organización de Datos: El componente final de la arquitectura Data
Warehouse es la organización de los datos. Se llama también gestión de copia o
réplica, pero de hecho, incluye todos los procesos necesarios como seleccionar,
editar, resumir, combinar y cargar datos en el depósito y acceder a la información
desde bases de datos operacionales y/o externas.
1.5. 2.5. Operaciones en un Data Warehouse
a) Sistemas Operacionales Los datos administrados por los sistemas de aplicación
operacionales son la fuente principal de datos para el Data Warehouse. Las bases de datos
operacionales se organizan como archivos indexados, bases de datos de redes/jerárquicas o
sistemas de base de datos relacionales.
b) Extracción, Transformación y Carga de los Datos Se requieren herramientas de
gestión de datos para extraer datos desde bases de datos y/o archivos operacionales, luego
es necesario manipular o transformar los datos antes de cargar los resultados en el Data
Warehouse. Tomar los datos desde varias bases de datos operacionales y transformarlos en
datos requeridos para el depósito, se refiere a la transformación o a la integración de datos.
Las bases de datos operacionales, diseñadas para el soporte de varias aplicaciones de
producción, frecuentemente difieren en el formato. Los mismos elementos de datos, si son
usados por aplicaciones diferentes o administrados por diferentes software de adminitración
de bases de datos (DBMS), pueden definirse al usar nombres de elementos inconsistentes,
que tienen formatos inconsistentes y/o ser codificados de manera diferente. Todas estas
inconsistencias deben resolverse antes que los elementos de datos sean almacenados en el
Data Warehouse.
c) Metadata Otro paso necesario es crear la metadata. Esta describe los contenidos del
Data Warehouse. Consiste de definiciones de los elementos de datos en el depósito,
sistemas de los elementos fuente. Los datos, se integran y transforman antes de ser
almacenados en información similar.
d) Acceso de usuario final Estos accesan al Data Warehouse por medio de herramientas
de productividad basadas en Interfase gráfica de usuario (GUI). Proveen a los usuarios del
Data Warehouse muchos de estos tipos de instrumentos. Estos pueden incluir software de
consultas, generadores de reportes, procesamiento analítico en línea, data/visual mining,
etc., dependiendo de los tipos de usuarios y sus requerimientos particulares. Sin embargo,
una sola no satisface a todos, por lo que es necesaria la integración de una serie de
utencilios.
e) Plataforma del Data Warehouse La plataforma para el Data Warehouse es casi siempre
un servidor de base de datos relacional. Cuando se manipulan volúmenes muy grandes de
datos puede requerirse una configuración en bloque. Los extractos de los datos
integrados/transformados se cargan en el Data Warehouse. La elección de la plataforma es
crítica. El depósito crece y hay que comprender los requerimientos después de 3 o 5 años.
Muchas de las organizaciones quieran o no escogen una plataforma por diversas razones: el
Sistema X es el elegido o el Y está disponible sobre uno que ya se tiene. Uno de los errores
más grandes que las organizaciones cometen al seleccionar la plataforma, es que ellos
presumen que el sistema (hardware y/o DBMS) escala con los datos.
El sistema de depósito ejecuta las consultas que se pasa a los datos por el software de
acceso del usuario. Aunque uno de estos visualiza las consultas desde el punto de vista de
un GUI, estas típicamente se formulan como pedidos SQL, porque es un lenguaje universal y
el estándar hecho para el acceso a datos.
f) Datos Externos Dependiendo de la aplicación, el alcance del Data Warehouse se
extiende por la capacidad de accesar los datos externos. Por ejemplo, los datos accesibles
por medio de servicios de computadora en línea y/o vía Internet, pueden estar disponibles a
los usuarios del Data Warehouse.
Evolución del Depósito
Construir un Data Warehouse es una tarea grande. No es recomendable emprender el
desarrollo en la empresa como un proyecto cualquiera. Más bien, se recomienda que los
requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos
que permitan un proceso de culminación más gradual e iterativo. No existe organización que
triunfe en el desarrollo del Data Warehouse de la empresa, en un sólo paso. Muchas, lo han
logrado luego de un desarrollo por pasos. Los avances previos evolucionan conjuntamente
con la materia que está siendo agregada.
Los datos en el Data Warehouse no son volátiles y es un repositorio de sólo lectura.
Sin embargo, pueden añadirse nuevos elementos sobre una base regular para que el
contenido siga la evolución de estos en la base de datos fuente, tanto en los contenidos
como en el tiempo. Uno de los desafíos de mantener un Data Warehouse, es idear métodos
para identificar información nueva o modificada en las bases de datos operacionales.
Algunas maneras para identificarla incluyen insertar fecha/tiempo en los registros y entonces
crear copias actualizadas y copiarla de los registros de transacción y/o base de datos diarias.
Estos elementos nuevos y/o modificados son extraídos, integrados, transformados y
agregados al Data Warehouse en pasos periódicos programados. Como se añaden las
nuevas ocurrencias, los datos antiguos son eliminados. Por ejemplo, si los detalles de un
sujeto particular se mantienen por 5 años, como se agregó la última semana, la anterior es
eliminada.
1.6. 2.6. Transformación de datos y metadata
1.6.1. 2.6.1. Transformación de Datos
El desafío de cualquier implementación de Data Warehouse, es transformar los datos.
Estos se encarga de las inconsistencias en los formatos y la codificación, que pueden existir
dentro de una base de datos única y que casi siempre existen cuando múltiples bases de
datos contribuyen lo constituyen. En la Figura No. 8 se ilustra una forma de inconsistencia,
en la que el género se codifica de manera diferente en tres bases de datos. Los procesos de
transformación se desarrollan para direccionarlas inconsistencias.
Figura No. 8
La transformación de datos también se encarga de las inconsistencias en el contenido
de estos. Una vez que se toma la decisión sobre las reglas de transformación que se
necesitan, se debe crear e incluir las definiciones en las rutinas de modificación. Se requiere
una planificación cuidadosa y detallada para transformar datos inconsistentes en conjuntos
conciliables y consistentes para cargarlos en el Data Warehouse.
1.6.2. 2.6.2. Metadata
Otro aspecto de la arquitectura de Data Warehouse es crear soporte a la metadata. Es
un concepto genérico, pero cada implementación de esta usa técnicas y métodos
específicos. Estos son dependientes de los requerimientos de cada organización, de las
capacidades existentes y de los requerimientos de interfase de usuario. No hay normas para
la metadata, por lo que debe definirse desde el punto de vista del software para Data
Warehouse seleccionado.
La metadata incluye los siguientes aspectos:
Las estructuras de datos que dan una visión al administrador.
Las definiciones del sistema de registro desde el cual se construye el Data
Warehouse.
Las especificaciones de transformaciones de datos que ocurren tal como la
fuente se replica al Data Warehouse.
El modelo de datos del Data Warehouse (es decir, los elementos y sus
relaciones).
Un registro de cuando los nuevos elementos se agregan al Data Warehouse y
cuando los antiguos se eliminan o se resumen.
Los niveles y el método de sumarización y las tablas de registros de su Data
Warehouse.
Algunas implementaciones de la metadata incluyen definiciones de las vistas
presentadas a los usuarios del Data Warehouse. Se definen para favorecer las preferencias
variadas de diversos grupos de usuarios. En implementaciones, estas descripciones se
almacenan en un Catálogo de Información. Los esquemas y subesquemas para bases de
datos operacionales, forman una fuente óptima de entrada cuando se crea la metadata.
Hacer uso de la documentación existente, especialmente cuando está disponible en forma
electrónica, acelera el proceso de definición de la medatada. Esta, sirve en un sentido, como
el corazón del ambiente Data Warehouse. Crear definiciones completas y efectivas es un
proceso que consume tiempo, pero lo mejor de las definiciones son los esfuerzos que da
como resultado el mantenimiento del Data Warehouse.
1.7. 2.7. Flujo de datos
Existe un flujo de datos normal y predecible dentro del Data Warehouse. La Figura No. 9
muestra ese flujo. La información ingresa al Data Warehouse desde el ambiente operacional. Al
introducirse al Data Warehouse, van al nivel de detalle actual. Se queda allí y se usa hasta que
ocurra uno de los tres eventos siguientes:
Se elimine
Se resuma
Se archive
Con el proceso de desactualización en un Data Warehouse se mueve el detalle de datos
actual los antiguos, basado en el tiempo de estos. El proceso de esquematización usa el detalle
para calcularlos en forma ligera y completamente resumidos.
Figura No. 9
1.8. 2.8. Usos del Data Warehouse
Los datos operacionales y los del Data Warehouse son accesados por usuarios que los usan
de maneras diferentes. Se muestra en el siguiente cuadro las diferencias:
Uso deBase de Datos Operacionales
Uso deData Warehouse
Muchos usuarios concurrentes. Pocos usuarios concurrentes.
Consultas predefinidas y actualizadas.Consultas complejas, frecuentemente no anticipadas.
Cantidades pequeñas de datos detallados. Cantidades grandes de datos detallados.
Requerimientos de respuesta inmediata. Requerimientos de respuesta no críticas.
1.8.1. 2.8.1. Maneras diferentes de uso de datos
Los usuarios de un Data Warehouse necesitan accesar datos complejos,
frecuentemente desde fuentes múltiples y de formas no predecibles. Cuando accesan los
operacionales, efectúan tareas predefinidas que, generalmente requieren acceso a una base
de datos de una aplicación. Por el contrario, los que accesan al Data Warehouse, efectúan
tareas que requieren acceso a un conjunto de datos desde fuentes múltiples y no son
predecibles. Lo único que se conoce es el conjunto inicial de datos que se han establecido
en el depósito. Por ejemplo, un especialista en el cuidado de la salud necesita acceder los
actuales e históricos para analizar las tendencias de costos, usando un conjunto de
consultas predefinidas. Por el contrario, un representante de ventas necesita acceder a los
datos de cliente y producto para evaluar la eficacia de una campaña de mercadeo, creando
consultas base para encontrar necesidades definidas.
Sólo pocos usuarios accesan los datos concurrentemente. En contraste a la
producción de sistemas que pueden manejar cientos o miles de usuarios concurrentes,
al Data Warehouse accesa un limitado conjunto de usuarios en tiempo determinado.
Los usuarios generan un procesamiento no predecible complejo. Se generan
consultas complejas. La respuesta a una consulta conduce a la formulación de otras
preguntas más detalladas, en un proceso iniciando del nivel mas alto y bajando a detalle
en niveles (drilling down). El Data Warehouse puede incluirlos en resúmenes múltiples,
derivado de un conjunto principal, único, de datos detallados, para soportar este tipo de
uso.
Los usuarios frecuentemente comienzan buscando en los datos resumidos y como
identifican áreas de interés, comienzan a accesar al conjunto detallado. Los conjuntos
resumidos representan el "Qué" de una situación y los conjuntos detallados permiten a
los usuarios construir un cuadro sobre "Cómo" se ha derivado esa situación.
Las consultas de los usuarios accesan a cantidades grandes de datos. Debido
a la necesidad de investigar tendencias y evaluar las relaciones entre muchas clases de
datos, las consultas al Data Warehouse permiten accesar a volúmenes muy grandes
tanto detallados como resumidos. Debido a los requerimientos de datos históricos, los
Data Warehouse evolucionan para llegar a un tamaño más grande que sus orígenes
operacionales (de 10 a 100 veces más grande).
Las consultas de los usuarios no tienen tiempos de respuesta críticos Las
transacciones operacionales necesitan una respuesta inmediata porque un cliente puede
estar esperando una solución. En el Data Warehouse, por el contrario, tiene un
requerimiento de respuesta no-crítico porque el resultado frecuentemente se usa en un
proceso de análisis y toma de decisiones. Aunque los tiempos de respuesta no son
críticos, los usuarios esperan una resolución dentro del mismo día en que es hecha la
consulta.
Por lo general, los niveles de datos dentro del Data Warehouse reciben diferentes usos. A
más alto nivel de esquematización, se tiene mayor uso de estos. Hay una buena razón para mover
una organización al paradigma sugerido en la figura No. 9, la utilización del recurso. Los datos
resumidos, permiten capturarlos en forma rápida y eficiente. Si en una tarea se hace mucho
procesamiento a niveles de detalle del Data Warehouse, entonces se consumen muchos recursos
de máquina. Es mejor hacer el procesamiento a niveles más altos de esquematización.
Para muchas tareas, el analista de sistemas de soporte de decisiones usa la información al
nivel de detalle en un PreData Warehouse. La seguridad del detalle se consigue de muchas
maneras, aun cuando estén disponibles otros niveles de esquematización. Una actividad del
diseñador es desconectar al usuario del sistema de soporte de decisiones del uso constante de
datos a nivel de detalle más bajo.
El diseñador de datos tiene dos predisposiciones:
Instalar un sistema donde el usuario final pague por los recursos consumidos
Señalar el mejor tiempo de respuesta que puede obtenerse cuando se trabaja con
los datos a un nivel alto de esquematización, a diferencia de un pobre tiempo de
respuesta que resulta de trabajar con los niveles bajos de detalle.
1.9. 2.9. Ventajas y desventajas de un Data Warehouse
Construir un Data Warehouse puede dar a las compañías ventajas estratégicas sobre la
competencia. Estas ventajas provienen de varios recursos:
Acceso a toda la información de la empresa. Se consolida información de diferentes
sistemas origen, sin importar si estos provienen de la misma o varias fuentes.
Consistencia de la información. Se logra al consolidarla ide varios departamentos a
uno solo. Es más fácil la toma de decisiones con la información consolidada que separada.
Facilidad de análisis de la información. El hecho de tener la información ya
almacenada y consolidada hace más fácil realizar el análisis de la misma.
Integración de datos de múltiples sistemas incompatibles a una base de datos
consolidada. Realizar un Data Warehouse provee la ventaja de obtener información de
múltiples fuentes de información sin importar la compatibilidad entre ambas. Esto se realiza
por medio de ODBC u OLEDB.
Beneficios en costos, tiempos y productividad. Un Data Warehouse ayuda a
obtener mejores tiempos de respuesta y mejora el proceso de producción.
Se dice que si una empresa quiere buenos negocios, tomar mejores decisiones cercanas a
sus clientes y ventaja competitiva, lo ideal es implementar un Data Warehouse que le ayude a
obtener estos beneficios.
1.10. 2.10. Ejemplo de un Data Warehouse
Para ilustrar cómo un Data Warehouse puede ayudar a una organización a mejorar sus
operaciones, se muestra un ejemplo de lo que es el desarrollo de actividades sin tener un Data
Warehouse.
Preparación de un reporte complejo
Se considera un problema bastante típico en una compañía de fabricación grande en el que
se pide una información (un reporte) que no está disponible. El informe incluye las finanzas
actuales, el inventario y la condición de personal, acompañado de comparaciones del mes actual
con el anterior y el mismo mes del año anterior, con una comparación adicional de los 3 años
precedentes. Se debe explicar cada desviación de la tendencia que cae fuera de un rango
predefinido. Sin un Data Warehouse, el informe es preparado de la manera siguiente:
La información financiera se obtiene desde una base de datos mediante un programa de
extracción de datos, el inventario de otro programa de otra base de datos, la condición de personal
de un tercer programa de extracción y la información histórica desde un backup de cinta magnética
o CD-ROM.
Lo más interesante es que se pide otro informe que continúe al primer informe (debido a que
las preguntas se originaron a partir del anterior). El hecho es, que ninguno de los trabajos
realizados hasta aquí (por ejemplo, diversos programas de extracción) se usan para los próximos o
para cualquier reporte subsiguiente. El tiempo y el esfuerzo que se ha desperdiciado por un
enfoque anticuado es muy grande. Este ejemplo se muestra en la Figura No. 10. Las
inconsistencias se identifican en cada conjunto de datos extraídos y resolverse, por lo general,
manualmente. Cuando se completa todo este procesamiento, el reporte se le da formato, se
imprime, se revisa y se transmite. Nuevamente, el punto importante aquí es que todo el trabajo
desempeñado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir,
todos son independientes y caros, desde el punto de vista de recursos y productividad.
Figura No. 10
Al crear un Data Warehouse y combinar todos los datos requeridos, se obtienen los
siguientes beneficios:
Las inconsistencias de los datos se resuelven automáticamente cuando los elementos
se cargan en el Data Warehouse, cada vez que se prepara un reporte.
Los errores que ocurrieron durante el proceso complejo de la preparación del informe,
se minimizan porque el proceso es ahora más simple.
Los datos son fácilmente accesibles para otros usos, no sólo para un reporte particular.
Se crea una sola fuente.
1.11. 2.11. Consideraciones adicionales
Hay consideraciones adicionales que se tienen en cuenta al construir y administrar el Data
Warehouse:
Indice. La información de los niveles de esquematización más altos pueden ser
libremente indexados, mientras que las de los niveles bajos de detalle, por ser tan
voluminosa, pueden ser indexados moderadamente. Por lo mismo, los datos en los niveles
altos de detalle son reestructurados fácilmente, mientras que el volumen de datos en los
niveles más inferiores es tan grande, que los datos no son fácilmente reestructurados. Por
consiguiente, el modelo de datos y el diseño clásico fundamentan que el Data Warehouse
es aplicado exclusivamente al nivel actual de detalle. En otras palabras, las actividades de
modelamiento de datos no se aplican a los niveles de esquematización, en casi todos los
casos.
Partición de la información en el Data Warehouse. El nivel de detalle actual es
siempre particionado. La partición se hace de dos maneras: al nivel de DBMS y al nivel de
la aplicación. En la partición DBMS, se conoce las particiones y se administra por
consiguiente. En el caso de la partición de las aplicaciones, sólo los programadores de las
mismas conocen las particiones y la responsabilidad de administración es asignada a ellos.
Al interior de las particiones DBMS, muchos de los trabajos de infraestructura se hacen
automáticamente. Pero existe un elevado grado de rigidez asociada con la gestión
automática de las particiones. En el caso de las particiones de las aplicaciones del Data
Warehouse, la mayor parte del trabajo recae sobre el programador, pero el resultado final
es que la gestión de datos es más flexible.
1.12. 2.12. Excepciones en el Data Warehouse
Mientras que los componentes del Data Warehouse trabajan de acuerdo al modelo descrito
para casi todos los datos, hay pocas excepciones útiles que se discuten:
Datos públicos resumidos. Son los que se calculan fuera del Data Warehouse pero
se usan a través de la corporación. Los datos públicos resumidos, se almacenan y
administran en el Data Warehouse, aunque su cálculo se haya hecho fuera de él.
Datos Externos. Son considerados como excepción.
Detalle de los datos permanentes. Resulta de la necesidad de una corporación para
almacenar los datos a un nivel detallado permanentemente por razones éticas o legales.
Si en una corporación se expone a los trabajadores a sustancias peligrosas existe una
necesidad de detalle de datos permanente. Si en una corporación se produce un producto
que involucra la seguridad pública, tal como la construcción de las partes de aviones,
existe una necesidad permanentes. Si una corporación se compromete con contratos
peligrosos, existe una necesidad de detalle de datos permanentes.
Las organizaciónes no dejan los detalles porque en futuros años, en el caso de una
demanda, una notificación, un edificio en disputa, etc., se incrementa la exposición de la
compañía. Por lo tanto hay un único tipo de datos en el Data Warehouse conocido como
“Detalle de datos permanentes”. Este comparte las mismas consideraciones como otro
Data Warehouse, excepto que:
El medio donde se almacenan los datos debe ser seguro.
Los datos deben permitir ser restaurados.
Los datos necesitan un tratamiento especial en su indexación, ya que de otra manera
pueden no ser accesibles aunque se haya almacenado con mucha seguridad.
CAPITULO III
2. 3. PROCESO DE ELABORACION DE UN DATA WAREHOUSE
2.1. 3.1. Organización
La planificación es el proceso más importante que determina el tipo de estrategias de Data
Warehouse que una organización inicia. Por tal razón se toman en cuenta los siguientes puntos:
2.1.1.3.1.1. Recopilación de información
Comprender el proceso del negocio. Primordialmente, se necesita tener claro
como funciona el ciclo administrativo del negocio, comprender la misión, la visión y los
objetivos de la misma, ya que de esto depende el buen o mal diseño del Data
Warehouse.
Identificar objetos, eventos e indicadores clave. Dentro del proceso de
administración existen procesos clave que son los que realmente definen el funcionar
del negocio. Cada uno de estos son identificados para así saber cuáles son los
factores influyentes dentro de éste ciclo. Los eventos como tales son todas las
acciones o sucesos en el tiempo que tienen importancia en el flujo de información que
se lleva a cabo en la empresa, y por consiguiente identificando los anteriores objetos y
eventos, se obtienen los indicadores clave.
Identificar dimensiones, datos y jerarquías. Basados en los requerimientos
necesarios con que se arma un Data Warehouse, este paso forma parte indispensable
del proceso. Las dimensiones ayudan a definir detalladamente los lados de la
información, teniendo de antemano claro la jerarquía que éstos siguen. En toda
empresa, existen datos que son más significativos que otros, y que en un momento
determinado son los indispensables para la toma de decisiones. La buena
identificación de éstos se vé reflejado en la presentación de los datos.
Estos tres puntos abarcan el proceso de recopilación de información. Luego que se
realiza este análisis es factible iniciar la creación de Data Warehouse.
2.1.2. 3.1.2. Factores en la planificación de un Data Warehouse
No existe una fórmula de garantía real para el éxito de la construcción de un Data
Warehouse, pero hay muchos puntos que contribuyen a ese objetivo. A continuación, se
indican algunos puntos claves que se consideran en la planificación de un Data Warehouse:
1. 1. Establecer una asociación de usuarios, gestión y grupos. Se involucran tanto
los usuarios como la gestión quienes aseguran que el Data Warehouse contiene
información que satisface los requerimientos de la empresa. La gestión ayuda a
priorizar la fase de la implementación del Data Warehouse, así como también la
selección de herramientas del usuario. Estos, justifican los costos del Data Warehouse
sobre cómo es "su ambiente" y está basado primero en lo que se espera y segundo, en
el valor comercial real.
2. 2. Seleccionar una aplicación piloto con una alta probabilidad de éxito. Una
aplicación piloto de alcance limitado, con un reembolso medible para los usuarios y la
gestión, establece el Data Warehouse como una tecnología clave para la empresa.
Estos mismos criterios (alcance limitado, reembolso medible y beneficios claros para la
empresa) se aplican a cada fase de la implementación de un Data Warehouse.
3. 3. Construir prototipos rápida y frecuentemente. La única manera para asegurar
que el Data Warehouse reúna las necesidades de los usuarios, es hacer el prototipo a
lo largo del proceso de implementación y aún más allá, así se agrega los nuevos datos
y/o los modelos en forma permanente. El trabajo continuo con los usuarios y la gestión
es la clave.
4. 4. Implementación incremental. La implementación incremental reduce riesgos y
asegura que el tamaño del proyecto permanecezca manejable en cada fase.
5. 5. Reportar activamente y publicar los casos exitosos La retroalimentación de los
usuarios ofrece una excelente oportunidad para publicar los hechos exitosos dentro de
una organización. La publicidad interna sobre cómo el Data Warehouse ha ayudado a
los usuarios a operar efectivamente apoya la construcción a lo largo de una empresa.
La retroalimentación del usuario ayuda a comprender cómo evoluciona la
implementación del Data Warehouse a través del tiempo para reunir requerimientos de
usuario nuevamente identificados.
2.1.3. 3.1.3. Estrategias para el desarrollo de un Data Warehouse
Antes de desarrollar un Data Warehouse, es importante el desarrollo de una estrategia
equilibrada que sea apropiada para sus necesidades y sus usuarios. Se consideran algunas
preguntas, tales como:
¿Quién es el auditorio?
¿Cuál es el alcance?
¿Qué tipo de Data Warehouse se debe construir?
Existen estrategias mediante las cuales las organizaciones pueden consiguen un Data
Warehouse.
Se establece un ambiente "Data Warehouse Virtual", el cual es creado por:
o o Instalación de un conjunto de facilidades para acceso a datos, directorio y
gestión de proceso.
o o Entrenamiento de usuarios finales.
o o Control de cómo se usan realmente las instalaciones del Data Warehouse.
o o Basados en el uso actual, se crea un Data Warehouse físico que soporte los
pedidos de alta frecuencia.
Se construye una copia de los datos operacionales desde un sistema operacional
único y posibilitar al Data Warehouse una serie de herramientas de acceso a la
información. Esta estrategia tiene la ventaja de ser simple y rápida. Si los datos
existentes son de mala calidad y/o el acceso no ha sido previamente evaluado,
entonces se crea una serie de problemas.
Finalmente, en la estrategia Data Warehouse óptima se selecciona el número
de usuarios basados en el valor de la empresa y se hace un análisis de sus puntos,
preguntas y necesidades de acceso a datos.
De acuerdo a estas necesidades, se construyen los prototipos Data Warehouse y se
prueban para que los usuarios finales experimenten y modifiquen sus requerimientos. Una
vez se tenga un consenso general de las necesidades, se consigue la información que
proviene de los sistemas operacionales existentes a través de la empresa y/o desde fuentes
externas y se cargan al Data Warehouse. Si se requieren herramientas de acceso a la
información, se permite entonces a los usuarios finales tener permisos requeridos usando
herramientas favoritas propias, o se facilita la creación de sistemas de acceso a la
información multidimensional de alto rendimiento, usando el núcleo del Data Warehouse
como base.
En conclusión, no se tiene un enfoque único para construir un Data Warehouse que se
adapte a las necesidades de las empresas, debido a que estas son diferentes, al igual que
su contexto. Además, la tecnología Data Warehouse evoluciona, se aprende cada vez más
sobre el desarrollo de este y resulta en que el único enfoque práctico para al
almacenamiento de datos es la evolución de la persona misma.
2.1.4. 3.1.4. Estrategias para el diseño de un Data Warehouse El diseño de los Data Warehouse es muy diferente al diseño de los sistemas
operacionales tradicionales. Se consideran los siguientes puntos:
Los usuarios de los Data Warehouse usualmente no conocen mucho sobre los
requerimientos y necesidades como los usuarios operacionales.
El diseño de un Data Warehouse, involucra lo que se piensa en términos más
amplios y con conceptos del negocio más difíciles de definir que en el diseño de un
sistema operacional. Al respecto, un Data Warehouse está bastante cerca a
Reingeniería de los Procesos del Negocio.
Finalmente, la estrategia de diseño ideal para un Data Warehouse es de
afuera hacia adentro a diferencia de arriba hacia abajo.
A pesar que el diseño del Data Warehouse es diferente al usado en los de sistemas
tradicionales, no es menos importante. El hecho que los usuarios finales tengan dificultad en
definir lo que necesitan, no le disminuye prioridad. En la práctica, los diseñadores de Data
Warehouse usan muchos "trucos" para ayudar a "visualizar" requerimientos. Por ello, son
esenciales los prototipos de trabajo.
2.1.5. 3.1.5. Estrategias para la gestión de un Data Warehouse
Los Data Warehouse requieren una comercialización y gestión muy cuidadosa.
Se considera lo siguiente:
Un Data Warehouse es una buena inversión sólo si los usuarios finales realmente
obtienen información vital rápida y barata de lo que obtienen con la tecnología actual.
Como consecuencia, la gestión tiene se piensa seriamente sobre cómo se quieren los
depósitos para un eficaz desempeño y cómo se llega a los usuarios finales.
La administración reconoce que el mantenimiento de la estructura del Data
Warehouse es tan crítico como el mantenimiento de cualquier otra aplicación de
misión-crítica. De hecho, la experiencia demuestra que los Data Warehouse han
llegado a ser uno de los sistemas más usados en cualquier organización.
La gestión comprende también que si si en un programa se embarcan Data
Warehouse, se crean nuevas demandas sobre sus sistemas operacionales, que son:
o o Demandas para mejorar datos.
o o Demandas para una data consistente .
o o Demandas para diferentes tipos de datos.
2.2. 3.2. Desarrollo
2.2.1. 3.2.1. ¿Por qué construir bloques de Data Warehouse ?
Para ampliar un negocio, se necesita que la información sea comprensible. Para
muchas compañías, esto significa un gran Data Warehouse que muestre, junto a los datos
no filtrados y dispersos, nuevas formas creativas de presentación. Las herramientas que
los capturan y exploran al detalle evolucionan, así como la capacidad para encontrar las
formas de explotar los datos recolectados. En los últimos años se combinan dos factores
que ayudan a la difusión de los Data Warehouse,
siendo estos:
Se reconocen los beneficios del procesamiento analítico en línea (OLAP), más allá
de las áreas tradicionales de marketing y finanzas. Las organizaciones saben que los
conocimientos inmersos en las masas de datos que rutinariamente recogen sobre sus
clientes, productos, operaciones y actividades comerciales, reducen los costos de
operación y aumentan las rentas, por no mencionar que es más fácil la toma de
decisiones estratégicas.
El crecimiento de la computación cliente/servidor, crea servidores de hardware y
software más poderosos y sofisticados que nunca. Los servidores de hoy compiten con
las mainframes de ayer y ofrecen arquitecturas de memoria tecnológicamente
superiores, procesadores de alta velocidad y capacidades de almacenamiento
masivas.
Al mismo tiempo, los Sistemas de Gestión de Base de Datos (DBMS(s)) modernos,
proporcionan mayor soporte para las estructuras de datos complejas. De esta renovación
de hardware y software surgen los Data Warehouse multiterabyte que ahora se ve en
ambientes de cliente/servidor.
2.2.2. 3.2.2. Consideraciones previas al desarrollo de un Data Warehouse
Hay muchas maneras para desarrollar Data Warehouse como tantas organizaciones
existen. Sin embargo, hay un número de dimensiones diferentes que se consideran:
Alcance de un Data Warehouse
Redundancia de datos
Tipo de usuario final
Alcance del Data Warehouse
El alcance de un Data Warehouse es tan amplio como toda la información
estratégica de la empresa desde su inicio, o es tan limitado como un Data Warehouse
personal para un gerente durante un año. En la práctica, en la amplitud del alcance, el
mayor valor del Data Warehouse es para la empresa y lo más caro y consumidor de tiempo
es crearlo y mantenerlo. Como consecuencia de ello, la mayoría de las organizaciones
comienzan con Data Warehouse funcionales, departamentales o divisionales y luego los
expanden como usuarios que proveen retroalimentación.
Redundancia de datos
Hay tres niveles esenciales de redundancia de datos que las empresas consideran
en las opciones de Data Warehouse:
Data Warehouse "virtual" o "Point to Point"
Data Warehouse "centrales"
Data Warehouse "distribuidos"
No se puede pensar en un único enfoque. Cada opción adapta un conjunto
específico de requerimientos y una buena estrategia de almacenamiento de datos, lo
constituye la inclusión de las tres opciones.
Data Warehouse "Virtual" o "Point to Point". Significa que los usuarios finales
acceden a bases de datos operacionales directamente, usando cualquier herramienta
que posibilite "la red de acceso de datos". Este enfoque provee flexibilidad así como
la cantidad mínima de elementos redundantes que deben cargarse y mantenerse.
Además, se colocan las cargas de consulta no planificadas más grandes, sobre
sistemas operacionales.
Como se observa, el almacenamiento virtual es una estrategia inicial, en
organizaciones donde hay una amplia (pero en su mayor parte indefinida) necesidad
de conseguir los datos operacionales, desde una clase relativamente grande de
usuarios finales y donde la frecuencia probable de pedidos es baja. Los depósitos
virtuales de datos proveen un punto de partida para que las organizaciones
determinen qué usuarios finales están buscando realmente.
Data Warehouse "Centrales". Es el concepto inicial que se tiene del Data
Warehouse. Es una única base de datos física, que contiene todos los datos para un
área funcional específica, departamento, división o empresa. Se seleccionan por lo
general donde hay una necesidad común de los datos informáticos y un número
grande de usuarios finales ya conectados a una red o computadora central. Pueden
contener información para cualquier período específico de tiempo. Comúnmente,
contienen de sistemas operacionales múltiples.
Los Data Warehouse centrales son reales. Los datos almacenados son
accesados desde un lugar y se cargan y mantienen sobre una base regular. Se
construyen alrededor de Manejadores de Bases de Datos Relacionales (RDBMs)
avanzados o, en alguna forma, de servidor de base de datos informático
multidimensional.
Data Warehouse Distribuidos. Son aquellos en los cuales ciertos componentes
del depósito se distribuyen a través de un número de bases de datos físicas diferentes.
Cada vez más, las organizaciones grandes toman decisiones a niveles más inferiores
de la organización y a la vez, llevando los datos que se necesitan a la red de área local
(LAN) o computadora local que sirve al que toma decisiones. Involucran la mayoría
redundancias y como consecuencia de ello, se tienen procesos de actualización y
carga más complejos.
Tipo de usuario final
De la misma forma que hay una gran cantidad de maneras de organizar un Data
Warehouse, también hay una gama cada vez más amplia de usuarios finales.
En general, se consideran tres grandes categorías:
Ejecutivos y gerentes
"Usuarios Imporantes" o "Buzo de Información" (analistas financieros y de
negocios, ingenieros, etc.)
Usuarios de soporte (de oficina, administrativos, etc.)
Cada una de estas categorías diferentes de usuario tienen su propio conjunto de
requerimientos para los datos, acceso, flexibilidad y facilidad de uso.
2.2.3. 3.2.3. Elementos claves para el desarrollo de un Data Warehouse
Los Data Warehouse exitosos comienzan cuando se escogen e integran
satisfactoriamente tres elementos claves. Un Data Warehouse está integrado por un
servidor de hardware y los DBMS que conforman el depósito. Del lado del hardware, se
combina la configuración de plataformas de los servidores, y aprovechan los saltos
constantes de la potencia del procesador. Del lado del software, la complejidad y el alto
costo de los DBMSs forzan a tomar decisiones drásticas y balances comparativos
inevitables, con respecto a la integración, requerimientos de soporte, desempeño,
eficiencia y confiabilidad.
Si se escoge incorrectamente, el Data Warehouse se convierte en una gran empresa
con problemas difíciles de trabajar en su entorno, costoso para arreglar y difícil de justificar.
Para que la implementación del depósito tenga un inicio exitoso, se enfoca hacia tres
bloques claves de construcción:
Arquitectura total del depósito
Arquitecturas del servidor
Sistemas de Gestión de Base de Datos
A continuación se presentan algunas recomendaciones para tomar las correctas
elecciones para su empresa.
Diseño de la arquitectura
o o Arquitectura del Depósito. El desarrollo del Data Warehouse comienza con
la estructura lógica y física de la base de datos del depósito más los servicios
requeridos para operar y mantenerlo. Esta elección conduce a la selección de
otros dos incisos fundamentales: el servidor de hardware y el DBMS. La plataforma
física se centraliza en una sola ubicación o se distribuye regional, nacional o
internacionalmente. A continuación se dan las siguientes alternativas de
arquitectura:
Un plan para almacenar los datos de su compañía, que se obtiene desde
fuentes múltiples internas y externas, se consolida la base de datos en un Data
Warehouse integrado. El enfoque consolidado proporciona eficiencia tanto en
la potencia de procesamiento como en los costos de soporte.
La arquitectura global distribuye información por función, con datos
financieros sobre un servidor en un sitio, los datos de comercialización en otro
y los datos de fabricación en un tercer lugar.
Una arquitectura por niveles almacena datos altamente resumidos sobre
una estación de trabajo del usuario, con resúmenes más detallados en un
segundo servidor y la información más detallada en un tercero.
La estación de trabajo del primer nivel maneja la mayoría de los pedidos para
los datos, con pocos pedidos que pasan sucesivamente a los niveles 2 y 3 para la
resolución. Las computadoras en el primer nivel se optimizan para usuarios de carga
pesada y volumen bajo de datos, mientras que los servidores de los otros niveles son
más adecuados y se procesan los volúmenes pesados de datos, pero cargas más
livianas de usuario.
o o Arquitectura del servidor. Se decide en una estructura de depósito
distribuida o centralizada, se consideran los servidores que retienen y entregan los
datos. El tamaño de implementación (y las necesidades de la empresa para
escalabilidad, disponibilidad y gestión de sistemas) influye en la elección de la
arquitectura del servidor.
o o Servidores de un solo procesador. Los servidores de un sólo procesador
son los más fáciles de administrar, pero ofrecen limitada potencia de
procesamiento y escalabilidad. Además, un servidor sólo presenta un único punto
de falla, limitando la disponibilidad garantizada del depósito.
Se puede ampliar un solo servidor de redes mediante arquitecturas
distribuidas que hacen uso de subproductos, tales como Ambientes de
Computación Distribuida (DCE) o Arquitectura Broker de Objeto Común (CORBA),
para distribuir el tráfico a través de servidores múltiples.
Estas arquitecturas aumentan la disponibilidad, debido a que las
operaciones se cambian al servidor de backup si un servidor falla, pero la gestión
de sistemas es más compleja.
o o Multiprocesamiento simétrico. Las máquinas de multiprocesamiento
simétrico (SMP) aumentan mediante la adición de procesadores que comparten la
memoria interna de los servidores y los dispositivos de almacenamiento de disco.
La mayoría de multiprocesamientos Simétricos (SMP) se adquieren en
configuraciones mínimas (es decir, con dos procesadores) y se levantan cuando
es necesario, justificando el crecimiento con las necesidades de procesamiento.
La escalabilidad de una máquina SMP alcanza su límite en el número máximo de
procesadores soportados por los mecanismos de conexión.
o o Procesamiento en paralelo masivo Una máquina de procesamiento en
paralelo masivo (MPP), conecta un conjunto de procesadores por medio de un
enlace de banda ancha y de alta velocidad. Cada nodo es un servidor, completo
con su propio procesador (posiblemente SMP) y memoria interna. Para optimizar
una arquitectura MPP, las aplicaciones son "paralelizadas" es decir, diseñadas
para operar por separado, en partes paralelas.
Esta arquitectura es ideal para la búsqueda de grandes bases de datos.
Sin embargo, el Administrador de la Base de Datos (DBMS) que se selecciona es
uno que ofrezca una versión paralela. Y aún entonces, se requiere un diseño y
afinamiento esenciales que obtenga una óptima distribución de los datos y
prevenga "hot spots" o "data skew" (donde una cantidad desproporcionada del
procesamiento es cambiada a un nodo de procesamiento, debido a la partición de
los datos bajo su control).
o o Acceso de memoria no uniforme. La dificultad de mover aplicaciones y los
DBMS a agrupaciones o ambientes realmente paralelos conduce a nuevas y
recientes arquitecturas, tales como el acceso de memoria no uniforme (NUMA).
Crea una gran máquina SMP al conectar múltiples nodos SMP en un solo (aunque
físicamente distribuida) banco de memoria y un ejemplo único de OS. Facilita el
enfoque SMP para obtener los beneficios de rendimiento de las grandes máquinas
MPP (con 32 o más procesadores), mientras se mantiene las ventajas de gestión
y simplicidad de un ambiente SMP estándar. Lo más importante de todo, es que
existen DBMS y aplicaciones que pueden moverse desde un solo procesador o
plataforma SMP a NUMA, sin modificaciones.
Sistemas de gestión de bases de datos
Los Data Warehouse (conjuntamente con los sistemas de soporte de decisión (DSS)
y las aplicaciones cliente/servidor), son los primeros éxitos para el DBMS relacional
(RDBMS). La gran parte de los sistemas operacionales son resultados de aplicaciones
basadas en antiguas estructuras de datos, los depósitos y sistemas de soporte de
decisiones aprovechan el RDBMS por su flexibilidad y capacidad para efectuar consultas
con un único objetivo concreto.
Los RDBMS son muy flexibles cuando se usan con una estructura de datos
normalizada. En una base de datos normalizada, no son redundantes y representan las
entidades básicas y las relaciones descritas por los datos (por ejemplo productos, comercio
y transacción de ventas). Pero un procesamiento analítico en línea (OLAP) típico de
consultas que involucra varias estructuras, requiere operaciones de unión para colocar los
datos juntos.
El rendimiento de los RDBMS tradicionales es mejor para consultas basadas en
claves que en el contenido. Para el soporte de depósitos a gran escala y para mejorar el
interés hacia las aplicaciones OLAP, los proveedores han añadido nuevas características
al RDBMS tradicional. Estas, también llamadas super relacionales, incluyen el soporte para
hardware de base de datos especializada, tales como la máquina de base de datos
Teradata.
Los modelos súper relacionales soportan extensiones para almacenar formatos y
operaciones relacionales y diagramas de indexación especializados. Estas técnicas
mejoran el rendimiento para las recuperaciones basadas en el contenido, al pre juntar
tablas usando índices o mediante el uso de listas de índice totalmente invertidos. Muchas
de las herramientas de acceso a los Data Warehouse explotan la naturaleza
multidimensional de este. Por ejemplo, los analistas de mercadeo buscan en los
volúmenes de ventas por producto, por mercado, por período de tiempo, por promociones
y niveles anunciados y por combinaciones de estos aspectos.
La estructura de los datos en una base de datos relacional tradicional, facilita
consultas y análisis a lo largo de dimensiones diferentes que han llegado a ser comunes.
Estos esquemas usan tablas múltiples e indicadores para simular una estructura
multidimensional. Algunos productos, implementan técnicas de almacenamiento y
operadores que soportan estructuras de datos multidimensionales. Mientras las bases de
datos multidimensionales (MDDBs) ayudan directamente a manipular los objetos
multidimensionales (por ejemplo, la rotación fácil de estos para verlos entre dimensiones
diferentes, o las operaciones de movimientos que sucesivamente exponen los niveles más
detallados), se identifican estas cuando se construya la estructura de la base de datos. Así,
agregar una nueva dimensión o cambiar las vistas deseadas, puede ser engorroso y
costoso. Algunos MDDBs requieren un recargue completo de la base de datos cuando
ocurre una reestructuración. En la Figura No. 11, se muestra una vista multidimensional
de una base de datos.
Figura No. 11
Nuevas dimensiones
Una limitación de un RDBMS y un MDDB, es la carencia de soporte para tipos de
datos no tradicionales como imágenes, documentos y clips de video/ audio. Si se necesita
estos tipos de objetos en un Data Warehouse, se debe buscar un DBMS relacional-objeto.
Por su enfoque en los valores de datos codificados, la mayor parte de los sistemas de
bases se acomodan a estos tipos de información, sólo con extensiones basadas en ciertas
referencias, tales como indicadores de archivos que los contienen. Muchos RDBMS
almacenan los datos complejos como objetos grandes binarios (BLOBs). En este formato,
estos no pueden ser indexados, clasificados, o buscados por el servidor.
Los DBMS relacional-objeto, de otro lado, almacenan los datos complejos como
objetos nativos y soportan las grandes estructuras encontradas en un ambiente orientado a
objetos. Estos sistemas de base de datos naturalmente acomodan no sólo tipos de
información especiales sino también los métodos de procesamiento que son únicos para
cada uno de ellos. Pero una desventaja del enfoque relacional-objeto, es que la
encapsulación de los datos dentro de los tipos especiales, requiere de operadores
especializados para que hagan búsquedas simples previamente. La selección del DBMS
está también sujeta al servidor de hardware que se usa. Los RDBMS, ofrecen versiones
que soportan operaciones paralelas. El software paralelo divide consultas, uniones a través
de procesadores múltiples y corre estas operaciones simultáneamente para mejorar el
rendimiento. Se requiere el paralelismo para el mejor desempeño en los servidores MPP
grandes y SMP agrupados. No es aún una opción con MDDBS o DBMS relacional-objeto.
Combinación de la arquitectura con el sistema de gestión de base de datos
Para seleccionar la combinación correcta de la arquitectura del servidor y el DBMS,
primero se debe comprender los requerimientos comerciales de la compañía, la población
de usuarios y las habilidades del personal de soporte. Las implementaciones de los Data
Warehouse varían apreciablemente de acuerdo al área. Algunos son diseñados para
soportar las necesidades de análisis específico para un solo departamento o área funcional
de una organización, tales como finanzas, ventas o mercadeo. Las otras implementaciones
reúnen datos a través de toda la empresa para soportar una variedad de grupos de
usuarios y funciones. Por regla general, a mayor área del depósito, se requiere mayor
potencia y funcionalidad del servidor y el DBMS.
Los modelos de uso de los Data Warehouse son un factor. Las consultas y vistas de
reportes preestructuradas satisfacen a los usuarios informáticos, mientras que hay menos
demandas sobre el DBMS y la potencia de procesamiento del servidor. El análisis
complejo, que es típico de los ambientes de decisión-soporte, requiere más poder y
flexibilidad de todos los componentes del servidor. Las búsquedas masivas de grandes
Data Warehouse favorecen el paralelismo en las bases de datos y el servidor.
Los ambientes dinámicos, con sus requerimientos siempre cambiantes, se adaptan
mejor a una arquitectura de datos simple, fácilmente cambiable (por ejemplo, una
relacional altamente normalizada), antes que una estructura intrincada que requiere una
reconstrucción después de cada cambio (por ejemplo, una multidimensional).
El valor de los datos frescos, indica cuán importante es para el Data Warehouse
renovar y cambiarlos. Los grandes volúmenes de estos que se refrescan a intervalos
frecuentes, favorecen una arquitectura físicamente centralizada para soportar una captura
de datos eficiente y minimizar el tiempo de transporte de los datos.
Un perfil de usuario debería identificar quiénes son los usuarios de su Data
Warehouse, dónde se ubican y cuántos soporta. La información sobre cómo cada grupo
espera usar los Data Warehouse, ayuda en el análisis de los diversos estilos de uso.
Conocer la ubicación física de sus usuarios ayuda a determinar cómo y a qué área
necesita distribuir el Data Warehouse. Una arquitectura por niveles podría usar servidores
en el lugar de las redes de área local. O puede necesitar un enfoque centralizado para
soportar a los trabajadores que se movilizan y que trabajan en el depósito desde sus
computadores portátiles.
El número total de usuarios y los modelos de conexión determinan el tamaño de
servidores de depósito. Los tamaños de memoria y los canales de entrada y salida (I/O)
soportan el número previsto de usuarios concurrentes bajo condiciones normales, así
como también en las horas pico de su organización. Finalmente, se factoriza la
sofisticación del personal de soporte. Los recursos de los sistemas de información que
están disponibles dentro de su organización, limitan la complejidad o sofisticación de la
arquitectura del servidor. Sin el personal especializado interno o consultores externos, es
difícil crear y mantener satisfactoriamente una arquitectura que requiere paralelismo en la
plataforma del servidor.
Planes de expansión
Como el depósito evoluciona y los datos que contiene son más accesibles, los
empleados externos al depósito descubren el valor de la información. Al enlazar el Data
Warehouse a otros sistemas (tanto internos como externos a la organización), se comparte
información con otras entidades comerciales con poco o sin desarrollo. Los mensajes de
correo electrónico, servidores Web y conexiones Intranet/Internet, entregan listas por
niveles a proveedores o según la condición, a socios de negocio.
Como los Data Warehouse crecen en sofisticación y uso, los datos acumulados
dentro de una empresa llegarán a estar organizados, interconectados, accesibles y, en
general, disponibles a más empleados. El resultado es la obtención de mejores decisiones
en el negocio, oportunidades y claridad de trabajo.
2.2.4. 3.2.4. Confiabilidad de los datos
Los datos "sucios" son peligrosos. No importa cómo esté diseñado un programa o
cuán hábilmente se use. Si se alimenta mala información, se obtienen resultados
incorrectos o falsos. Desdichadamente, los datos que se usan satisfactoriamente en las
aplicaciones de línea comercial operacionales algunos son basura en lo que concierne a la
aplicación Data Warehouse.
Los datos "sucios" se presentan al ingresar información en una entrada de datos o
de otras causas. Cualquiera que sea, los datos sucios dañan la credibilidad de la
implementación del depósito completo. Afortunadamente, las herramientas de limpieza de
datos son de gran ayuda. En algunos casos, se crea un programa de limpieza efectivo. En
el caso de bases de datos grandes, imprecisas e inconsistentes, el uso de las herramientas
comerciales es casi obligatorio.
Decidir qué herramienta usar es importante y no solamente para la integridad de los
datos. Si se equivoca, se podría malgastar semanas en recursos de programación y costos
de herramientas.
Limpieza de los datos
La limpieza de datos sucios es un proceso multifacético y complejo. Los pasos a
seguir son los siguientes:
Análisis de datos corporativos para descubrir inexactitudes, anomalías y otros
problemas.
Transformación de datos para asegurar que sean precisos y coherentes.
Asegurar la integridad referencial, que es la capacidad del Data Warehouse,
para identificar correctamente al instante cada objeto del negocio, tales como un
producto, un cliente o un empleado.
Validación de datos que usa la aplicación del Data Warehouse para realizar las
consultas de prueba.
Producir la metadata, una descripción del tipo de datos, formato y el
significado relacionado al negocio de cada campo.
Finalmente, viene el paso crucial de la documentación del proceso completo
para que se pueda ampliar, modificar y arreglar los datos en el futuro con más
facilidad.
En la práctica, se realizan múltiples pasos como parte de una operación única o
cuando se usa una herramienta. En particular, limpiar los datos y asegurar la integridad
referencial son procesos interdependientes. Las herramientas comerciales ayudan en cada
uno de estos. Sin embargo, es posible escribir programas propios para hacer el mismo
trabajo.
Los programas de limpieza de datos no proporcionan mucho razonamiento, por lo que
las compañías necesitan tomar decisiones en forma manual, basados en información
importante y reportes de auditoria de datos. Cada vez que se carga un nuevo conjunto de
elementos, la limpieza de estos comúnmente constituye cerca del 25 por ciento de lo que
es un proceso de cuatro semanas.
Tipos de limpieza de datos
Limpieza de datos moderada. Si se decide no programar funciones de
limpieza de datos o contratar un consultor para hacer el trabajo, se puede inhibir de
la compra de una herramienta específica para esa tarea. El software de gestión del
Data Warehouse es suficiente para limpiar y validar según los propósitos. Muchos
proyectos de Data Warehouse usan productos para varias tareas de gestión de Data
Warehouse, que incluyen:
o o Extracción de los datos desde las bases de datos operacionales.
o o Preparación de los datos para cargarlos en una base de datos del
depósito.
o o Administración de la metadata.
Limpieza de datos intensa. Para trabajos de limpieza intensos, se consideran
herramientas que se desarrollan para esas tareas.
Enfoque Top-Down. Este es un enfoque en el que el cliente propone las reglas
para limpiar los datos. Esta es una estrategia directa, donde se impone los
conocimientos sobre el negocio en los datos.
Por ejemplo:
o o ¿ Se trata una serie de concesiones de una empresa X como un cliente
único con direcciones múltiples?
o o Para los propósitos del Data Warehouse, ¿tiene sentido sustituir una
dirección central única para las diferentes direcciones de las concesiones?
o o O, ¿Se prefiere tratar las ubicaciones de las concesiones como clientes
completamente diferentes?
o o Esta decisión determina cómo se agrega o consolida estos registros y si se
tratan las diferentes direcciones como excepciones.
La desventaja principal del enfoque top-down es que se tiene que conocer, o
se deducen las reglas del negocio y de la limpieza de datos.
Enfoque Bottom-Up. Este enfoque, analiza los datos por caracter y
automáticamente emergen los modelos y las reglas del negocio. Generalmente,
proporciona un diseño de estos que normaliza, condiciona y consolida. Este enfoque
deja pocas excepciones que se manejan manualmente y el proceso consume menos
tiempo.
Al igual que el enfoque top-down toma en cuenta las relaciones comerciales
que no son obvias a partir de los datos, tales como fusiones y adquisiciones que
tienen lugar desde que fueron creados los datos. Incide exclusivamente sobre la
limpieza de los datos, comenzando desde los archivos básicos. No extrae los datos
desde bases de datos operacionales, carga los datos en la base de datos del
depósito, duplica y sincroniza los datos o administra la metadata.
2.2.5. 3.2.5. Factores decisivos para decidir el desarrollo de un Data Warehouse
Los datos sucios son un serio peligro para el éxito de un proyecto de Data
Warehouse. Dependiendo del alcance del problema, simplemente no es posible dirigirlo
rápidamente y abaratarlo.
Los principales factores son:
El tiempo que toma la programación interna
El costo de las herramientas
Los gerentes de proyectos de Data Warehouse evaluan el problema con realismo,
los recursos internos disponibles que distribuyen y seleccionan la solución que se adapta a
la planilla y presupuesto del proyecto, o se modifica la planilla y el presupuesto y se
soluciona el problema.
2.2.6. 3.2.6. Etapas para la construcción de un Data Warehouse
Crear la Base de Datos de Data Warehouse
Luego de identificadas las dimensiones y los factores clave para la creación del Data
Warehouse, se crea una base de datos denormalizada la cual almacena información que
posteriormente se carga basada en los datos de la base de datos real, para después
realizar las consultas necesarias por medio de las consultas generadas del Data
Warehouse.
Tipos de Diagramas
Existen dos tipos de diagramas en los que se representa o define la estructura en la
que se desea realiza el Data Warehouse, para faciliar la consulta de la información y no
tener limintaciones a la normalización existente en los sistemas operacionales. Estos
diagramas son conocidos como:
Snowflake
Diagrama de Estrella
o o Snowflake
Es una extensión de un diagrama estrella de una o más dimensiones definidas por
múltiples tablas. Un esquema snowflake solamente se une a la tabla principal (fact table)
las dimensiones primarias. Este diagrama obtiene su nombre de la imagen que resulta de
agregar extensiones de tablas jerárquicas al diagrama de estrella.
Por ejemplo la jerarquía de la tabla productos. Esta tiene una marca, Tiene una
categoría y este un departamento.
Figura No. 12
o o Diagrama de Estrella
Este diagrama se usa para resolver los problemas que los negocios tienen ante un modelo
normalizado.
El centro del diagrama es una tabla llamada Fact Table o tabla principal que
contiene los indicadores clave identificados durante el proceso de análisis y que
contienen combinación de información de objetos y tiempo. Los indicadores son los
atributos y los objetos y tiempos la llave primaria.
A los alrededores tiene las dimensiones que contienen información de los objetos y
tiempo.
El diagrama estrella es implementado usando tecnología de base de datos
relacional.
Figura No. 13
Diagrama de Estrella, Características de las Dimensiones
Que contengan llave primaria.
Debe tener una relación de uno a muchos con la Fact Table.
Debe contener por lo menos una columna de descripciones.
Contener otras columnas de atributos que sean útiles para los niveles de
agregación.
Contener un número limitado de filas que se incrementen lentamente en el
tiempo.
Diagrama de Estrella, Características de la Fact Table
Contiene una llave primaria compuesta de las llaves foráneas de las tablas
dimensionales.
Contiene columnas numéricas adicionales.
No es necesario que exista ninguna otra combinación de llaves foráneas.
Contiene un gran número de filas.
Continuando con la estructura del Data Warehouse, el siguiente paso sería la
transformación de los datos.
Figura No. 14
o o Transformación de los datos
Para la transformación de los datos se utiliza una herramienta que facilita dicha
transformación y que cumple con las siguientes características:
Es una aplicación para la consolidación de datos provenientes de una gran
variedad de orígenes heterogéneos y carga los datos en el Data Warehouse.
Permite acceder otras aplicaciones que pueden ser usadas como origen o destino
de los datos.
Facilita el importar, exportar y transformar datos de orígenes heterogéneos no
solamente del mismo ambiente.
Soporta el 100% de cada origen y destino de los datos.
Provee una extensa arquitectura para vendedores independientes de software,
consultores y clientes.
Figura No. 15
Construcción del Cubo
Siguiendo con las actividades de creación del Data Warehouse, ya que se ha
importado la información de la base de datos normalizada a la base de datos
denormalizada, ahora se crea del Cubo.
Que es un cubo?
Como una definición de cubo diremos que es el objeto central de los datos, el cual
contiene información en una estructura multidimensional. Cada cubo es definido por un
conjunto de dimensiones y medidas.
Estructura Multidimensional del cubo
La información de negocios, necesita tomar forma de pregunta. La respuesta a
estas preguntas provee una entrada a la dirección estratégica del negocio. Los negocios
necesitan una vista multidimensional para responder a preguntas complejas como:
¿Cuál fue el volumen de ventas de cerezas en un lugar determinado durante el
segundo trimestre?
¿Qué producto tiene el mayor volumen de ventas en cada lugar durante el cuarto
trimestre?
Hay muchas preguntas que se realizan sin que estén basadas en medidas. Aquí es
cuando la multidimensionalidad no es la primera opción si el negocio hace preguntas que
no son respondidas basadas en medidas. Algunas preguntas de este tipo son:
¿Quién fue el primer empleado contratado durante el primer trimestre del año
pasado?
¿Qué productos estan agregados al inventario este año?
Estas preguntas no son contestadas con medidas. Para contestarlas es necesario
regresar a consultas en donde se accesen las tablas dimensionales.
Construcción de dimensiones
Definición de dimensiones. Una dimensión de un cubo es una vista jerárquica de
la información en la Fact table o tabla principal.
o o La información de los cubos esta basada en dimensiones.
o o El usar dimensiones permite hacer un análisis drill-down (iniciando del
nivel más alto y bajando a detalle de nivel en nivel).
Dimensiones privadas. Las dimensiones privadas son las que son creadas ya
dentro de un cubo.
o Se definen en el momento de la creación del cubo.
o Están almacenadas en la librería de cada cubo.
Dimensiones compartidas. Estas dimensiones son creadas independientemente
de algún cubo en particular.
o Son almacenadas en el Data Warehouse.
o Están compartidas para uno o más cubos.
o Son usadas para estandarizar algunas medidas del negocio, asegurar la
consistencia en varios cubos.
Diseño y construcción de agregaciones
Qué es una agregación?
Son agregaciones los datos precalculados que permiten una rápida respuesta en el
momento de la consulta. Almacenando datos precalculados el servidor se recupera la
información para estos cálculos ni hacer cualquier cálculo numérico. El uso de
agregaciones es la base para una respuesta rápida en los sistemas OLAP.
Los cubos son la forma de que se almancenan las agregaciones en los sistemas
OLAP. Las dimensiones significan consultas al cubo. Las agregaciones están almacenadas
en la intersección de las dimensiones. Cada intersección (llamada celda) almacena un
simple valor.
Para realizar una agregación es indispensable se considera tanto el espacio en
disco como la explosión de los datos.
Métodos de almacenamiento del cubo
Los cubos son almacenados en formatos multidimensionales, en una estructura
estándar relacional o en una combinación de ambos. El método de almacenamiento que se
escoja, influye en los requerimientos y presentación del cubo. Dentro de los métodos de
almacenamiento del cubo se encuentran los siguientes:
Rolap (Relational Online Analitical Processing)
Molap (Multidimentional Online Analitical Processing)
Holap (Hybrid Online Analitical Processing)
Rolap
Es un método de almacenamiento que guarda las agregaciones en tablas
relacionales, no requiere espacio extra para almacenar los datos, causa una respuesta
lenta en consultas a comparación de Molap y Holap. Es la mejor opción de
almacenamiento para datos que no son frecuentemente consultados. Algunas de sus
características son:
Las tablas son creadas en un RDBMS.
La carga de datos es por medio de INSERT INTO.
No se mueven datos del servidor OLAP.
Los índices se crean automáticamente.
Se usanS agregaciones ya existentes.
Ofrece soporte para varios manejadores de bases de datos. (SQL Server,
Oracle, Jet, ODBC).
Figura No. 16
Molap
Es un método de almacenamiento que guarda los datos en una estructura
multidimensional. Ofrece el mejor desempeño en cuanto a consultas, porque su estructura
contiene las agregaciones y los datos base.Consume mucho espacio de almacenamiento
porque los cubos con muchas agregaciones se hacen demasiado grandes.
Figura No. 17
Holap
Esta es una combinación de Molap y Rolap. Las agregaciones son almacenadas
como la estructura Molap. Los datos base quedan en las tablas relacionales. Las consultas
que solo accesan datos precalculados son tan rápidos como la estructura Molap. Las
consultas que necesitan bajar a mucho nivel de detalle son lentas como la estructura
Molap pero son rápidos como la estructura Rolap. Los cubos Holap son más pequeños que
los Molap ya que solamente almacena las agregaciones y no los datos base.
Figura No. 18
Proceso de un cubo
Después de crear el cubo y definido las agregaciones, se hace la carga del cubo con
las agregaciones a la base de datos. Esta se realiza por medio de llamadas a procesos, los
cuales realizan la carga completa de los datos. Cuando se procesa un cubo, se llama al
almacén de la base de datos y las agregaciones que estén definidas en estas dimensiones.
Las agregaciones luego son almacenadas en la estructura del cubo o en bases
relacionales. Este proceso consume mucho tiempo, basado en las cantidades de los datos
y cálculos (agregaciones).
¿Cuándo actualizar la información?
Cuando datos existentes son borrados.
Cuando las agregaciones son recalculadas y almacenadas.
Si los datos base han cambiado.
El cubo puede ser usado mientras este es actualizado.
2.3. 3.3. Implementación
En esta fase, el proyecto de Data Warehouse tiene asignado el liderazgo adecuado, así
como, los recursos humanos, tecnológicos y el presupuesto apropiado. Sin embargo, se evaluan
otros aspectos, como el desarrollo de un proyecto en su totalidad o por fases y además, se
diferencia el tipo de proyecto a realiza.
2.3.1. 3.3.1. Elementos a considerar en la implementación
Proyecto total o proyecto en fases. Es viable el desarrollo de un proyecto en
fases que produzcan resultados a corto plazo que el uno que entregue resultados al
término de varios años. Por ello, este debe estar centrado en un área o un proceso.
Modelo lógico de datos. Debe tener un alcance más alto y cubrir todas las áreas
de interés, así como los procesos más estratégicos de cada una de ellas. Ejemplo: Se
cubren las áreas de mercadeo, crédito y comercialización y los procesos de
segmentación, record para retención, para crédito y gestión de clientes, productos y
canales de ventas.
Proyecto especializado o proyecto base. Se decide qué tipo de proyecto, es
algo complicado. Uno especializado soporta directamente un proceso específico, por
ejemplo: retención de clientes. Uno base entrega capacidad genérica de análisis a
todos los usuarios que tengan acceso al Data Warehouse, pero no tiene, entre sus
funcionalidades, la solución de un problema específico o el soporte especializado de
un proceso como tal. Un proyecto base es más económico y fácil de acabar que uno
especializado, más costoso y difícil de terminar.
2.3.2. 3.3.2. Estrategias para el proceso de implementación
Para el proceso de implementación, se definen los siguientes pasos:
Se identifica el problema en el cual el uso estratégico de la información detallada,
permite conseguir una solución para generar una ventaja competitiva o un ahorro de
costos. Ejemplo: Un problema puede ser la ausencia de un modelo para estudios de
retención de clientes.
Se define el modelo lógico de datos a implementar para resolver el problema
planteado. Ejemplo: Se puede dar un modelo cuando se presenta al usuario la
información en términos de dimensiones (clientes, productos, canales de ventas,
promociones, adquirientes, etc) básicas del modelo de datos y hechos que se registran
para estas dimensiones (medidas de ventas, de costos, de producción, de facturación,
de cartera, de calidad, de servicio, etc.).
Se reunen los datos que poblan ese modelo lógico de datos.
Se toman iniciativas de complementación de información que aseguran la calidad
de los datos requeridos y se completa el modelo de datos. Estas definiciones estan
acompañadas de un servidor apropiado para el Data Warehouse, así como elementos
de comunicaciones, nodos cliente, el manejador de la base de datos del Data
Warehouse y otros hardware y software requeridos para la implementación del
proyecto.
2.3.3. 3.3.3. Estrategias en la implementación
Se plantean las siguientes:
Se define el mejor diseño físico para el modelo de datos. El diseño físico esta
orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia
del modelo lógico que está orientado al usuario y a la facilidad de consulta.
Se definen los procesos de extracción, filtro, transformación de información y carga
de datos que se implementan para poblar ese modelo de datos.
Se definen los procesos de administración de la información que permanece en el
Data Warehouse.
Las formas de consultas a la información del Data Warehouse que se le
proporcionan al usuario. Para ésto, se considera la necesidad de resolver un problema
y la potencia de consulta.
Se completa el modelo de consulta base, relativo al área seleccionada.
Implementar los procesos estratégicos del área de trabajo, es decir, implementar
herramientas especializadas de records, herramientas especializadas para inducción
de conocimiento (Data Mining), etc.
Completar las áreas de interés, en forma similar a lo descrito anteriormente.
2.4. 3.4. Evaluación
2.4.1. 3.4.1. Evaluación de rendimiento de la inversión
Cuando se evalúan los costos, el usuario del Data Warehouse no tiene el contenido
de los costos en mente, pero las preguntas mínimas que comienzan a hacerse son las
siguientes:
¿Qué clases de costos excedieron el presupuesto en más del 10% en cada uno de
los 12 meses pasados?
¿Se aumentaron los presupuestos en más de 5% para cualquier área dentro de los
últimos 18 meses?
¿Cómo especificar las clases de gastos entre diferentes departamentos? ¿Entre
divisiones? ¿A través de las regiones geográficas?
¿Cómo tener márgenes de operación sobre los dos últimos años en cada área de
negocio? Donde han disminuido los márgenes, ¿se han incrementado los costos?
Con frecuencia, los aspectos realmente importantes identificados por una gestión
mayor, tienen un valor agregado, en el que se sabe si tuvieron la información que se
estaba buscando, lo que significaría una mejora de por ejemplo, las ventas en 0.5% a 1% -
que, si su operación estuvo por los millones de quetzales en un año, resulta en cientos de
millones de quetzales. En algunos casos, el costo del depósito inicial se recobra en un
período de 6 a 8 meses. Al hacerse preguntas de este tipo, los usuarios comienzan a
identificar las áreas en la que los costos han aumentado o disminuido significativamente y
pueden evaluar cada una de estas áreas con más detalle.
Costos y beneficios
Se identifican diversos costos y beneficios en la elaboración de un proyecto de
construcción de un Data Warehouse, tales como:
Costos
o o Costos preliminares
Planificación
Diseño
Modelamiento / Ingeniería de Información
o o Costos iniciales
Plataforma de hardware
Software de base de datos
Herramientas de transferencia y limpieza de datos
o o Costos en procesamiento
Mantenimiento de datos
Desarrollo de aplicaciones
Capacitación y soporte
Beneficios
o o Beneficios Tácticos
Impresión y emisión de reporte reducido
Demanda reducida para consultas de clientes
Entrega más rápida de información a los usuarios
o o Beneficios Estratégicos (Potencialidad)
Aplicaciones y herramientas de acceso para los usuarios finales
Decisiones con mayor información
Toma de decisiones más rápida
Capacidad de soporte a la información organizacional
2.4.2. 3.4.2. Beneficios a obtener
Para la Empresa
El Data Warehouse hace lo posible por aprovechar el valor potencial enorme de los
recursos de información de la empresa y volver ese valor potencial en valor verdadero.
Para los Usuarios
El Data Warehouse extiende el alcance de la información para que se acceda
directamente en línea, lo que a la vez contribuye en su capacidad para operar con mayor
efectividad las tareas rutinarias o no. Los usuarios del Data Warehouse acceden a una
riqueza de información multidimensional, presentado coherentemente como una fuente
única confiable y disponible a ellos por medio de sus estaciones de trabajo. Los usuarios
usan las herramientas familiares, hojas de cálculo, procesadores de textos y software de
análisis de datos y análisis estadístico para manipular y evaluar la información obtenida
desde el Data Warehouse.
Para la organización en tecnologías de información
El Data Warehouse enriquece las capacidades del usuario autosuficiente y hace lo
factible y ofrece nuevos servicios a los usuarios, sin interferir con las aplicaciones
cotidianas de producción. La pugna constante por resolver las necesidades de usuarios
que piden acceso a los datos operacionales, finaliza con la implementación de un Data
Warehouse. La mayoría de los usuarios no necesita accesar más a los datos actuales,
porque ellos tienen información más útil disponible desde el Data Warehouse.
Un Data Warehouse aumenta el valor de las inversiones en tecnologías de
información, en aplicaciones y bases de datos operacionales. Como estas bases de datos
alimentan información, al evolucionar el Data Warehouse, llegan a ser imprescindibles no
solamente para las operaciones diarias, sino además como la fuente de información del
negocio de amplio rango.
CAPITULO IV
3. 4. SOFTWARE EN UN DATA WAREHOUSE
3.1. 4.1. Herramientas de consulta y reporte
Existe una gran cantidad de poderosas herramientas de consulta y reporte en el mercado.
Algunos proveedores ofrecen productos que permiten tener más control sobre qué procesamiento
de consulta es hecho en el cliente y cual en el servidor. Las más simples de estas son productos
de este tipo. Ellos proporcionan desde pantallas gráficas a generadores SQL (o más preciso,
generadores de acceso-llamada a bases de datos).
Más que aprender SQL (Structured Query Language) o escribir un programa para acceder a
la información de una base de datos, las herramientas de consulta al igual que la mayoría visuales,
permiten apuntar a los menús y botones para especificar los elementos de datos, condiciones,
criterios de agrupación y otros atributos de una solicitud de información. La herramienta de
consulta genera entonces un llamado a una base de datos, extrae los datos pertinentes, efectúa
cálculos adicionales, manipula los datos si es necesario y presenta los resultados en un formato
claro.
Las consultas y los pedidos de reporte se almacenan para trabajos subsiguientes, como
está o con modificaciones. El procesamiento estadístico se limita comúnmente a promedios,
sumas, desviaciones estándar y otras funciones de análisis básicas. Aunque las capacidades
varían de un producto a otro, las herramientas de consulta y reporte son más apropiadas cuando
se necesita responder a la pregunta ¿"Qué sucedió"? (Ejemplo: ¿"Cómo comparar las ventas de
los productos X, Y y Z del mes pasado con las ventas del presente mes y las ventas del mismo
mes del año pasado?").
Para hacer consultas más accesibles a usuarios no técnicos, existen productos que ofrecen
interfaces gráficas para seleccionar, arrastrar y pegar. Lo más avanzado de estos orientan hasta
las consultas que tienen sintaxis mala o que devuelven resultados imprevistos. El acceso a los
datos ha mejorado también con las nuevas versiones de estos productos y los vendedores ya
instalan manejadores (drivers) estándares, hasta fuentes comerciales.
En general, los administradores de Data Warehouse que usan estos tipos de productos,
estan dispuestos a ocupar su tiempo para resolver las tareas de estructuración, como
administración de bibliotecas y directorios, instalación de software de conectividad, establecer
nombres similares en Inglés y precalcular "campos de datos virtuales". Una vez que se han creado
las pantallas SQL (Structured Query Language), se desarrolla un conjunto de consultas y reportes
estándares, aunque algunos productos ofrecen librerías de plantillas prediseñadas y reportes
predefinidos que se pueden modificar rápidamente.
3.2. 4.2. Herramientas de base de datos multidimensionales / OLAP
Los generadores de reportes tienen sus limitaciones cuando los usuarios finales necesitan
más que una sola, una vista estática de los datos, que no sean sujeto de otras manipulaciones.
Para estos usuarios, las herramientas del procesamiento analítico en línea (OLAP - On Line
Analytical Processing), proveen capacidades que contestaría "¿qué sucedió?" al analizar por qué
los resultados están como están.
Las primeras soluciones OLAP estan basadas en bases de datos multidimensionales
(MDDBS). Un cubo estructural (dos veces un hipercubo o un arreglo multidimensional) almacena
los datos para que se manipulen intuitivamente y claramente ver las asociaciones a través de
dimensiones múltiples. Los productos pioneros soportan directamente las diferentes vistas y las
manipulaciones dimensionales requeridas por OLAP.
3.2.1. 4.2.1. Limitaciones del enfoque de bases de datos multidimensionales:
Las nuevas estructuras de almacenamiento de datos requieren bases de datos
propietarias. No hay realmente estándares disponibles para acceder a los datos
multidimensionales. Los proveedores, ven esto como una oportunidad para crear
normas para editar APIs, propiciando herramientas terceristas y estableciendo
asociaciones estratégicas. Muchas de estas herramientas de consulta y de soluciones
Data Mining soportan directamente formatos MDDB comunes. Algunas herramientas
cliente / servidor, se sitúan sobre la parte superior de un Data Warehouse
multidimensional y soportan el acceso dinámico y la manipulación de los datos.
La segunda limitación de un MDDB concierne al desarrollo de una estructura de
datos. Las compañías generalmente almacenan los datos de la empresa en bases de
datos relacionales, lo que significa que se extraen, transforman y cargan estos datos
en el hiper cubo. Este proceso es complejo y consume tiempo, pero nuevamente, los
proveedores están investigando la forma de solucionarlos. Las herramientas de
extracción de datos y otras automatizan el proceso, trazando campos relacionales en la
estructura multidimensional y desarrollando el MDDB sobre la marcha.
Algunos proveedores ofrecen ahora la técnica OLAP relacional (Relational On Line
Analytical Processing - ROLAP), que explora y opera en el Data Warehouse directamente
usando llamadas SQL (Structure Query Language) estándares. Las herramientas de
pantallas permiten retener los pedidos multidimensionales, pero el motor ROLAP
transforma las consultas en rutinas SQL. Entonces se reciben los resultados tabulados
como una hoja de cálculo multidimensional o en alguna otra forma que soporte rotación y
reducción.
Así como la extracción de los datos, el desarrollo y evolución de la estructura MDDB
puede cambiarse. Los administradores ROLAP afrontan algunas veces las tareas
(agobiantes) de desarrollar las rutinas SQL para agregar e indexar los datos ROLAP, así
como, aseguran la traducción correcta de los pedidos multidimensionales en la ventana de
comandos SQL.
Los defensores de ROLAP argumentan que se usan estándares abiertos (SQL) y
que se esquematizan (nivel de detalle) los datos para hacerlos más fácilmente accesibles.
Por otra parte, afrman que una estructura multidimensional nativa logra mejor desempeño y
flexibilidad, una vez que se desarrolla el almacén de los datos.
Lo bueno es que estas tecnologías evolucionan rápidamente y/o proveen una pronta
solución OLAP. Los retos administrativos y de desarrollo de OLAP, a diferencia de las
encontradas con las herramientas de consulta y reporte, son generalmente más complejos.
Definiendo el OLAP y el software de acceso a los datos, se requiere un claro entendimiento
de los modelos de datos de la corporación y las funciones analíticas requeridas por
ejecutivos, gerentes y otros analistas de datos.
El desarrollo de productos comerciales aminora los problemas, pero OLAP es
raramente una solución clave. La arquitectura permite el soporte a su fuente de datos y
requerimientos. Pero una vez que se establece un sistema OLAP, el soporte al usuario final
es mínimo.
Los usuarios de estos productos deciden sobre si los datos del procesamiento
analítico en línea, deben almacenarse en bases de datos multidimensionales
especialmente diseñadas o en bases de datos relacionales. Esto depende de las
necesidades de la organización.
3.3. 4.3. Sistemas de apoyo a las decisiones
3.3.1. 4.3.1. Sistemas de soporte para la toma de decisiones (DSS)
Este tipo de sistemas tienen como finalidad la toma de decisiones mediante la
generación y evaluación sistemática de diferentes alternativas o escenarios de decisión
mediante el empleo de modelos y herramientas. Estos sistemas se usan como apoyo
durante las primeras fases del modelo de toma de decisiones, y obtienen información que
revele los elementos clave de los problemas y las relaciones entre ellos. También
identifican, crean y comunican cursos de acción disponibles y alternativas de decisión.
Características de los sistemas de soporte para la toma de decisiones
Interactividad: Sistema que interactua en forma amigable y con respuestas a
tiempo real con el encargado de tomar decisiones.
Tipo de decisiones: Apoya el proceso de toma de decisiones estructuradas y
no estructuradas.
Frecuencia de Uso: Tiene una utilización frecuente por parte de la
administración media y alta para el desempeño de su función.
Variedad de usuarios: Es empleado por usuarios de diferentes áreas
funcionales como ventas, producción, administración, finanzas y recursos
humanos.
Flexibilidad: Permite acoplarse a una variedad determinada de estilos
administrativos.
Desarrollo: Permite que el usuario desarrolle de manera directa modelos de
decisión sin la participación operativa de profesionales.
Interacción ambiental: Permite interactuar con información externa como
parte de los modelos de decisión.
Comunicación interorganizacional: Facilita la comunicación de información
relevante de los niveles altos hacia los niveles operativos.
Acceso de base de datos: Tiene capacidad de acceder información de las
bases de datos corporativas.
Simplicidad: Simple y fácil de aprender y utilizar por el usuario final.
3.3.2. 4.3.2. Sistemas de información para ejecutivos (EIS)
Estos sistemas apoyan el proceso de toma de decisiones de los altos ejecutivos de
una organización, presentan información relevante y usan recursos visuales y de fácil
interpretación, con el objetivo de mantenerlos informados. El objetivo fundamental de este
tipo de sistemas es el monitoreo y seguimiento por parte del ejecutivo de los factores
críticos del éxito del negocio.
Características de los sistemas de información para ejecutivos
Están diseñaos para cubrir las necesidades específicas y particulares de la
alta administración de la empresa.
Extraen, filtran, comprimen y dan seguimiento a información crítica del
negocio.
Implican que los ejecutivos pueden interactuar en forma directa con el sistema
sin el apoyo o auxilio de intermediarios.
Es un sistema desarrollado con altos estándares en sus interfases hombre-
máquina, caracterizado por gráficas de alta calidad, información tabular y en forma
de texto.
Accede información que se encuentra en línea, extrayéndola en forma directa
de las bases de datos de la organización.
3.3.3. 4.3.3. Sistemas para la toma de decisiones en grupo (GDSS)
Estos sistemas cubren el objetivo de lograr la participación de un grupo de personas
durante la toma de decisiones en ambientes de anonimato y consenso, apoyando
decisiones simultáneas. Son sistemas interactivos los cuales facilitan la solución de
problemas no estructurados por un conjunto de tomadores de decisiones que trabajan
juntos como un grupo.
Características de los sistemas para la toma de decisiones en grupo
Son sistemas diseñados especialmente para apoyar las decisiones en grupo.
Su meta es apoyar el trabajo de los tomadores de decisiones.
Es facil de aprender y de usar. Debe ser accesible para usuarios con
diferentes niveles de conocimiento computacional y de soporte de decisiones.
Es específico o general. Es específico si se diseña para un tipo o clase de
problema, y es general si se diseña para tomar diversas decisiones
organizacionales.
Contiene mecanismos para evitar el desarrollo de conductas negativas en el
grupo, como son los problemas de comunicación, estar de acuerdo con lo que dice
la mayoría.
Motiva a todos los miembros del grupo a participar de manera activa.
3.3.4. 4.3.4. Sistemas expertos de soporte para la toma de decisiones
(EDSS)
Son los sistemas que permiten cargar bases de datos de conocimiento integrados
por una serie de reglas de sentido común para que diferentes usuarios los consulten,
apoyan la toma de decisiones y la capacitación. Son sistemas computacionales interactivos
que permiten la creación de bases de conocimiento, las cuales una vez cargadas,
responden a preguntas, despejan y sugieren cursos de acción simulando el proceso de
razonamiento de un experto para resolver aproblemas en un área específica del
conocimiento humano.
También, permiten a los desarrolladores de sistemas colocar el contexto del negocio
alrededor de información diversa. Un uso típico de un EIS es facilitar al usuario la
recuperación y análisis de las métricas, de rendimiento de la organización. El precio de
esta facilidad de uso es que por lo general existen algunas limitaciones sobre las
capacidades analíticas disponibles con el sistema de información ejecutivo.
Además, muchas de las herramientas de consulta / reporte y
OLAP/multidimensional, se usan para desarrollar sistemas de información ejecutivos. El
concepto de sistema de información ejecutivo es simple: los ejecutivos no tienen mucho
tiempo, ni la habilidad en muchos casos, para efectuar el análisis de grandes volúmenes
de datos. El EIS (Executive Information Systems) presenta vistas de los datos
simplificados, altamente consolidados y mayormente estáticas.
3.4. 4.4. Herramientas Data Mining
Data Mining es una categoría de herramientas de análisis de consulta. En lugar de hacer
preguntas, se toma estas y se pregunta algo "interesante", una tendencia o una agrupación
peculiar. Este proceso extrae los conocimientos guardados o información predictiva desde el Data
Warehouse sin requerir pedidos o preguntas específicas. Es una tecnología de soporte para
usuario final, que extrae conocimiento útil y utilizable a partir de la información contenida en las
bases de datos de las empresas.
Los objetivos se desarrollan bajo lenguajes de ultima generación basados en la inteligencia
artificial. Las herramientas Mining usan algunas de las técnicas de computación más avanzadas
como:
redes neurales.
detección de desviación.
modelamiento predictivo. y
programación genética.
para generar modelos y asociaciones. Mining es un dato-conducido, no una aplicación conducida.
3.5. 4.5. Elección de herramientas
Hay algunas reglas obvias a seguir cuando se eligen herramientas de análisis. Estas se
combinan según las necesidades de los usuarios finales, capacidad técnica empresarial y la fuente
de datos existente.
Si se elige un proveedor de depósito que además ofrece herramientas integradas,
probablemente se ahorrará un tiempo de desarrollo significativo al elegir un conjunto que sean
compatibles. De otro modo, se selecciona un conjunto que soporte su fuente de datos original.
Sin este, se debería optar por una solución OLAP relacional debido a que provee una
arquitectura abierta.
Después que se ha seleccionado un conjunto de herramientas compatible con su fuente de
datos, se determina cuánto análisis necesita realmente.
Si simplemente se necesita saber "cuánto" o "cuántos", será suficiente una
herramienta básica de consultas y reportes.
Si requiere un análisis más avanzado que explique la causa y los efectos de las
ocurrencias y las tendencias, se debe buscar una solución OLAP.
Las herramientas Data Mining sofisticadas requieren expertos en técnicas de
análisis de datos y se necesitan para pronósticos avanzados, clasificación y creación
del modelo.
Como con cualquier tecnología, para el mejor desempeño de la compañía, opta por una
solución única o un conjunto de soluciones. El personal debe comprender los requerimientos
de tecnología, desarrollar soluciones que reúnan esos requerimientos y mantener y mejorar
efectivamente los sistemas.
Los software de negocio inteligentes son sólo herramientas. Todavía se necesita gerentes
y ejecutivos que capten los conocimientos derivados y tomen decisiones intuitivamente. En otras
palabras, estos requieren todavía inteligencia comercial propia.
En la siguiente tabla se definen los parámetros a tener en cuenta para la elección de las
herramientas adecuadas.
Elija la Herramienta adecuada
Tipo de Pregunta básica Modelo de Salida Usuario típico
Herramienta
Consulta y Reporte ¿Qué sucedió?
Reportes de ventas
mensuales; histórico de
inventarioe
Necesitan datos
históricos pueden tener
aptitud técnica limitada.
Procesamiento
analítico en línea
(OLAP)
¿Qué sucedió y por
qué?
Ventas mensuales vs.
Cambios de precio de los
competidores
Necesita ir de una visión
estática de los datos a
una dinámica
técnicamente astuta
Sistema de Información
Ejecutiva (SIE)
¿Qué necesito
conocer ahora?
Libros electrónicos;
Centros de comandos
Necesita información
resumida o de alto nivel
puede no ser
técnicamente astuto
Data mining¿Qué es interesante?
¿Qué podría pasar?Modelos predictivos
Necesita extraer la
relación y tendencias de
la data ininteligible
técnicamente astuto.
CAPITULO V
4. 5. IMPACTOS EMPRESARIALES 4.1. 5.1. Procesos empresariales y decisiones empresariales.
Se consideran los beneficios empresariales potenciales de los siguientes impactos:
Los Procesos de Toma de Decisiones son mejorados mediante la disponibilidad de
información. Decisiones empresariales se hacen más rápidas por gente más informada.
Los procesos empresariales son optimizados. El tiempo perdido esperando por
información que finalmente es incorrecta o no encontrada, es eliminado.
Conexiones y dependencias entre procesos empresariales son más claros y
entendibles. Secuencias de procesos empresariales son optimizados para ganar
eficiencia y reducir costos.
Procesos y datos de los sistemas operacionales, así como los datos en el Data
Warehouse, son usados y examinados. Cuando los datos son organizados y
estructurados para tener significado empresarial, la gente aprende mucho de los
sistemas de información. Quedan expuestos posibles defectos en aplicaciones actuales,
siendo posible entonces mejorar la calidad de nuevas aplicaciones. Comunicación e
impactos organizacionales.
Apenas el Data Warehouse comienza a ser fuente primaria de información empresarial
consistente, los siguientes impactos pueden comenzar a presentarse:
La gente tiene mayor confianza en las decisiones empresariales que se toman.
Ambos, quienes toman las decisiones como los afectados conocen que está basada en
buena información.
Las organizaciones empresariales y la gente de la cual se compone queda
determinada por el acceso a la información. De esta manera, la gente queda mejor
habilitada para entender su propio rol y responsabilidades como también los efectos de
sus contribuciones; a la vez, desarrollan un mejor entendimiento y apreciación con las
contribuciones de otros.
La información compartida conduce a un lenguaje común, conocimiento común, y
mejoramiento de la comunicación en la empresa. Se mejora la confianza y cooperación
entre distintos sectores de la empresa, viéndose reducida la sectorización de funciones.
Visibilidad, accesibilidad, y conocimiento de los datos producen mayor confianza en
los sistemas operacionales.
4.2. 5.2. Impactos técnicos de Data Warehouse
Considerando las etapas de construcción, soporte del Data Warehouse y soporte de
sistemas operacionales, se tienen los siguientes impactos técnicos:
Nuevas destrezas de desarrollo: Cuando se construye el Data Warehouse, el impacto
más grande sobre la gente técnica está dada por la curva de aprendizaje, muchas
destrezas nuevas se deben aprender, incluyendo:
Conceptos y estructura Data Warehouse.
El Data Warehouse introduce muchas tecnologías nuevas (Carga, Acceso de
Datos, Catálogo de Metadatos, Implementación de DSS/EIS ), y cambia la manera que
se usa la tecnología existente. Nuevas responsabilidades de soporte, nuevas
demandas de recursos y nuevas expectativas, son los efectos de estos cambios.
Destrezas de diseño y análisis donde los requerimientos empresariales no son
posibles de definir de una forma estable a través del tiempo.
Técnicas de desarrollo incrementan y son evolutivos.
Trabajo en equipo cooperativo con gente de negocios como participantes activos
en el desarrollo del proyecto.
Nuevas responsabilidades de operación: Cambios sobre los sistemas y datos
operacionales son examinados cuidadosamente para determinar el impacto que estos
cambios tienen sobre ellos, y sobre el Data Warehouse.
4.3. 5.3. ¿Quiénes y para qué lo usan?
Dadas las características de un sistema de Data Warehouse, la aplicación tiene variados
fines, en una diversidad de industrias. No obstante, en términos generales, se dice que su
aplicación más rica corresponde a entornos de empresas en los que se identifican grandes
volúmenes de datos, asociados a: cantidad de clientes, variedad de productos y cantidad de
transacciones. A continuación se presentan ejemplos de aplicaciones típicas.
Comercio Minorista
En este comercio utilizan grandes sistemas de procesamiento paralelo masivo para acceder
a meses o años de historia transaccional tomada directamente en los puntos de venta de cientos, o
miles, de sucursales. Con esta información detallada se efectuan en forma más precisa y eficientes
actividades de compra, fijación de precios, manejo de inventarios, configuración de góndolas, etc.
Las promociones y las ofertas de cupones son seguidas, analizadas y corregidas. Modas y
tendencias son cuidadosamente administradas a efectos de maximizar utilidades y reducir costos
de inventario.
La existencia es reasignada por sucursales o regiones según ventas y tendencias. Estos
sistemas con capacidad de procesar gran cantidad de datos detallados permiten implementar
eficientemente prácticas de mercadería "en consignación", en esta modalidad la cadena minorista
paga al proveedor recién cuando los productos son vendidos y pasados por el lector de códigos de
barras (scanner) del punto de venta. Esta información detallada permite ejercer mayor poder de
negociación sobre los proveedores, dado que el comercio minorista puede llegar a saber más que
el fabricante sobre los productos: quién lo compra, dónde, cuándo, con que otros productos, etc.
Regularmente lo que más atrae de un Data Warehouse es la clase de información que se
obtiene al instante. Reguralmente se elige cualquiera y se dice exactamente cuanto se ha vendido
en un tiempo determinado, no en promedio, en cualquier región, distrito o sucursal. Se le facilita a
los proveedores que sepan más acerca de su producto. Proporciona ventaja competitiva.
Manufactura de Bienes de Consumo Masivo
Las empresas de este sector necesitan hacer un manejo cada vez más ágil de la información
para mantenerse competitivas en la industria. Los Data Warehouse se utilizan para predecir la
cantidad de producto que se vende a un determinado precio y, por consiguiente, producir la
cantidad adecuada para una entrega "justo a tiempo". A su vez se coordina el suministro a las
grandes cadenas minoristas con inmensas cantidades de productos "en consignación", que no son
pagados hasta que estos productos son vendidos al consumidor final.
Las cadenas minoristas y proveedores utilizan el Data Warehouse para compartir
información, permitiéndole a las empresas de manufactura conocer el nivel de stock en las
góndolas y eventualmente hacerse responsables de la reposición de inventario de la cadena
minorista. Como es de esperar esto reduce fuertemente la intermediación. También se utilizan para
campañas de mercadeo, planificación de publicidad y promociones y se coordinan las ofertas de
cupones y promociones con las cadenas minoristas.
Las mayores aplicaciones del sistema son para mercadeo, ventas, mantenimiento, garantía y
diseño de productos. Permite mantener la existencia de partes más ajustados y mejorar las
condiciones de negociación con los proveedores de las mismas.
Transporte de Cargas y Pasajeros
Se utilizan Data Warehouse para almacenar y acceder a meses o años de datos de clientes
y sistemas de reservas para realizar actividades de mercadeo, planeamiento de capacidad,
monitoreo de ganancias, proyecciones y análisis de ventas y costos, programas de calidad y
servicio a clientes.
Las empresas de transporte de cargas llevan datos históricos de años, de millones de
cargamentos, capacidades, tiempos de entrega, costos, ventas, márgenes, equipamiento, etc.. Las
aerolíneas utilizan sus Data Warehouse para los programas de viajeros frecuentes, para compartir
información con los fabricantes de naves, para la administración del transporte de cargas, para
compras y administración de inventarios, etc. Hacen un seguimiento de partes de repuesto,
cumplimiento con las regulaciones aeronáuticas, desempeño de los proveedores, seguimiento de
equipaje, historia de reservas, ventas y devoluciones de tickets, reservas telefónicas, desempeño
de las agencias de viajes, estadísticas de vuelo, contratos de mantenimiento, etc.
Telecomunicaciones
Estas empresas utilizan el Data Warehouse para operar en un mercado crecientemente
competitivo, no regulado y global que, a su vez, atraviesa profundos cambios tecnológicos. Se
almacenan datos de millones de clientes: circuitos, facturas mensuales, volúmenes de llamados,
servicios utilizados, equipamiento vendido, configuraciones de redes, etc. así como también
información de facturación, utilidades, y costos son utilizados con propósitos de mercadeo,
contabilidad, reportes gubernamentales, inventarios, compras y administración de redes. Otras
Industrias
Muchas otras industrias y actividades utilizan actualmente, o están comenzando a instalar,
Data Warehouse: entidades gubernamentales, especialmente para el control impositivo, empresas
de servicios públicos, de entretenimiento, editoriales, fabricantes de automóviles, empresas de
petróleo y gas, laboratorios farmacéuticos, droguerías, etc.
5. 6. GLOSARIO DE TERMINOS Aggregate
Es una tabla o estructura que contiene datos precalculados para un cubo. Soportan la rápida
y eficiente consulta de tablas multidimensionales.
Base de datos (BD)
Conjunto de datos no redundantes, almacenados en un soporte informático, organizados de
forma independiente de su utilización y accesibles simultáneamente por distintos usuarios y
aplicaciones. La diferencia de una BD respecto a otro sistema de almacenamiento de datos es que
éstos se almacenan en la BD de forma que cumplen tres requisitos básicos: no redundancia,
independencia y concurrencia.
Cliente / servidor
Arquitectura de sistemas de información en la que los procesos de una aplicación se dividen
en componentes que se pueden ejecutar en máquinas diferentes. Modo de funcionamiento de una
aplicación en la que se diferencian dos tipos de procesos y su soporte se asigna a plataformas
diferentes.
Codificación
Transformación de un mensaje en forma codificada, es decir, especificación para la
asignación unívoca de los caracteres de un repertorio (alfabeto, juego de caracteres) a los de otro
repertorio. Conversión de un valor analógico en una señal digital según un código prefijado.
Cubo
Es el objeto central de los datos, contiene información en una estructura multidimensional.
Cada cubo es definido por un conjunto de dimensiones y medidas.
Data Mart
Es una estructura de datos que es optimizada para el acceso. Esta diseñada para facilitar el
acceso del usuario final. Soporta aplicaciones de análisis usadas por múltiples usuarios.
Detección de desviación
Normalmente, para la detección de desviación en bases de datos grandes se usa la
información explícita externa a los datos, así como las limitaciones de integridad o modelos
predefinidos. En un método lineal por contraste, se enfoca el problema desde el interior de los
datos, usando la redundancia implícita de los datos. Aquí se simula un mecanismo familiar a los
seres humanos: después de ver una serie de datos similares, un elemento que perturba la serie se
considera una excepción.
Diccionario de datos
Descripción lógica de los datos para el usuario. Reúne la información sobre los datos
almacenados en la Base de Datos (descripciones, significado, estructuras, consideraciones de
seguridad, edición y uso de las aplicaciones, etc.).
Directorio de datos
Es un subsistema del sistema de gestión de base de datos que describe dónde y cómo se
almacenan los datos en la Base de Datos (modo de acceso y características físicas de los
mismos).
Drill-down (Iniciar del nivel mas alto y bajar a detalle de nivel en nivel)
Obtención de información más detallada sobre un conjunto de información en el cual se está
trabajando. Ejemplo: Si se está mirando el Activo, obtener todas las cuentas del activo.
Dimensión
Es una estructura o tributo de un cubo el cual es organizado por jerarquías de categorías o
niveles que describen datos en la fact table. Estas categorías describen un conjunto de miembros
sobre los cuales esta basado el análisis. Por ejemplo: una dimensión geográfica incluye niveles de
países, regiones, estados o provincias, y ciudades
Extranet
Constituye un servicio de comunicación orientado a un público centrado sobre el formato de
los sistemas Web, operando sobre la red Internet. Ejemplo: Una casa de ventas de productos
varios, implementa un sistema de Ofertas, Consulta a Catálogos, Bancos de Datos y Compras a
sus clientes preferenciales.
Fact Table
Contiene los indicadores clave identificados durante el proceso de análisis y que contienen
combinación de información de objetos y tiempo
Fact
Representa una fila en una fact table en el Data Warehouse. Contiene uno o más valores
numéricos que miden un evento.
Inconsistencia
El contenido de una base de datos es inconsistente si dos datos que deberían ser iguales no
lo son. Por ejemplo, un empleado aparece en una tabla como activo y en otra como jubilado.
Integridad
Condición de seguridad que garantiza que la información es modificada, incluyendo su
creación y borrado, sólo por el personal autorizado.
Internet
Término usado para referirse a la red más grande del mundo, que conecta miles de redes
con alcance mundial. Está creando una cultura que basándose en la simplicidad, investigación y
estandarización fundamentado en usos de la vida real, está cambiando la forma de ver y hacer
muchas de las tareas actuales. Mucha de la tecnología de punta en redes está proviniendo de la
comunidad Internet.
Intranet
Constituye un servicio de comunicación de los sistemas de información corporativos
orientados a su personal, sobre el formato de los sistemas Web, operando sobre la red Internet.
Mapeo
Conjunto de datos.
Lista de datos u objetos, tal como actualmente están almacenados en memoria o en disco.
Transferir un conjunto de objetos de un lugar a otro. Por ejemplo, los módulos de programas
en el disco son proyectados ("mapeados") en la memoria. Una imagen gráfica en memoria es
proyectada en la pantalla.
Relacionar un conjunto de objetos con otro. Por ejemplo, una estructura de base de datos
lógica se proyecta sobre la base de datos física.
Modelamiento predictivo (inteligencia artificial)
Las herramientas de modelamiento predictivo permiten realizar relaciones complejas o
modelos desde un archivo de datos. Una de las principales diferencias entre los modelos
estadísticos y los modelos de inteligencia artificial, es cómo miden su error. Los primeros miden el
error relativo tal como el modelo adapta los datos, mientras que los segundos, miden el error
relativo a los datos aún invisibles (error predictivo).
Los modelos estadísticos tienen dificultades al dar datos contradictorios o desordenados, es
decir, los datos deben estar limpios y deben existir las correlaciones consistentes. Viceversa, las
herramientas de inteligencia artificial buscan generalizar relaciones para proporcionar el resultado
más probable. El modelamiento abductivo (argumento en que la premisa mayor es evidente y la
menor probable, pero mas creíble que la conclusión) usa funciones polinómicas para describir las
relaciones al interior de los datos. Esta metodología facilita una variable de entrada para ser
ponderado más de una vez. Adicional, sólo se incluyen los términos que significativamente
contribuyen al rendimiento.
Los modelos predictivos pueden usarse para el soporte de decisión o presentando sub-
rutinas para desarrollar aplicaciones predictivas a clientes. Las capacidades de los modelos
predictivos pueden mejorarse si los archivos de datos se mejoran con tantas variables de entrada
como sea posible.
MetaData
Es el resultado de modelar los datos. Cuando se almacenan los datos en una herramienta o
en un repositorio.
Measure
Es una columna numérica cuantitativa en la fact table. Normalmente representa los valores a
analizar.
OLAP (Online Analytical Process)
Es un proceso de manejo de base de datos diseñado para la asistencia del soporte de
decisiones, utilizando herramientas que facilitan el análisis de estructuras dimensiónales de
negocios de información. Una típica base de datos OLAP provee, consolida, almacenan datos
consistentes, y datos históricos en formato de solo lectura.
OLTP (Online Transactional Process):
Es un sistema de manejo de base de datos que representa el estado de un negocio en
particular en un punto especifico en el tiempo. Un sistema OLTP tiene una gran cantidad de
usuarios concurrentes agregando y modificando datos.
Redundancia
Repetición de los mismos datos en varios lugares.
Repositorio
Base de datos central en herramientas de ayuda al desarrollo. El repositorio amplía el
concepto de diccionario de datos para incluir toda la información que se va generando a lo largo del
ciclo de vida del sistema, como por ejemplo: componentes de análisis y diseño (diagramas de flujo
de datos, diagramas entidad-relación, esquemas de bases de datos, diseños de pantallas, etc.),
estructuras de programas, algoritmos, etc. En algunas referencias se le denomina diccionario de
recursos de información.
Record
Calificación que se le da a un grupo de clientes / productos que mide la propensión a
compras, ventas, retiro, llegadas, etc.
Sistema de gestión de base de datos
Software que controla la organización, almacenamiento, recuperación, seguridad e
integridad de los datos en una base de datos. Acepta pedidos de datos desde un programa de
aplicación y le ordena al sistema operativo transferir los datos apropiados. Cuando se usa un
sistema de gestión de base de datos, SGDB, (en inglés DBMS), los sistemas de información
pueden ser cambiados más fácilmente a medida que cambien los requerimientos de la
organización. Nuevas categorías de datos pueden agregarse a la base de datos sin dañar el
sistema existente.
Sistema de información (SI)
Conjunto de elementos físicos, lógicos, de comunicación, datos y personal que,
interrelacionados, permiten el almacenamiento, transmisión y proceso de la información.
Software
Son las aplicaciones intangibles desarrolladas en un lenguaje de programación, para
resolver una necesidad especifica implementada a través de una computadora.
SQL (Structured Query Language)
Lenguaje de interrogación normalizado para bases de datos relacionales. El SQL es un
lenguaje de alto nivel, no procedural, normalizado, que permite la consulta y actualización de los
datos de BD relacionales. Se ha convertido en el estándar para acceder a BD relacionales. El SQL
facilita un lenguaje de definición de datos y un lenguaje de manipulación de datos. Además, incluye
una interfase que permite el acceso y manipulación de la BD a usuarios finales.
Terabyte (TB)
Unidad de medida que equivale a 1024 GB (gyga bytes)
Teradata
El Sistema de Gestión de Base de Datos Relacional (RDBMS) Teradata, es una base de
datos relacional paralela de soporte de decisiones muy poderosa para Data Warehouse. Teradata
también proporciona conectividad de cliente abierto a virtualmente todos los sistemas operativos.
CONCLUSIONES
Las decisiones correctas son las que hacen la diferencia, y por lo tanto es necesario buscar
las herramientas adecuadas para lograr los objetivos deseados. La implementación de un Data
Warehouse, ayuda a tener una mejor visión de los sucesos y al mismo tiempo da un apoyo a la
toma de decisiones. En un mundo competitivo como el actual, ya no es posible quedarse sin
tecnología para apoyar la administración de los negocios. La información histórica juega entonces
un papel importante y definitivo en el rumbo de los negocios.
Comprender el proceso del negocio es una de las primordiales actividades que se deben
completar, para tener una visión macro de la compañía y poder así definir de mejor manera los
puntos clave que identifican las fortalezas y debilidades de una empresa.
Se recomienda que al realizar la implementación de un Data Warehouse, se realice un
estudio para definir la forma de administrar los recursos y se establezca una estrategia de
actualización de la carga de datos, dependiendo del tipo de negocio y la información que se desee
consultar. Además, es de vital importancia realizar la implementación con gente calificada y
especializada en la materia, ya que una mala definición de procedimientos podría traer como
resultado, una salida no esperada de información.
El éxito de Data Warehouse no está en su construcción, sino en usarlo para mejorar
procesos empresariales, operaciones y decisiones. Posesionar un Data Warehouse para que sea
usado efectivamente, requiere entender los impactos de implementación en los diferentes ámbitos
de la organización. Al construir un Data Warehouse, se requiere que las personas involucradas,
quienes usarán la información, participen directamente. A diferencia del desarrollo de aplicaciones,
donde los requerimientos de la empresa logran ser relativamente bien definidos producto de la
estabilidad de las reglas de negocio a través del tiempo. Construir un Data Warehouse depende de
la realidad de la empresa como de las condiciones que en ese momento existan, las cuales
determinan qué debe contener el Data Warehouse. La gente de negocios debe participar
activamente durante el desarrollo del Data Warehouse, desde una perspectiva de construcción y
creación.
En cuanto al acceso del Data Warehouse, este intenta proveer los datos que posibilitan a los
usuarios acceder su propia información cuando ellos la necesitan. Esta aproximación para entregar
información tiene varias implicancias:
La gente de la empresa puede necesitar aprender nuevas destrezas.
Los análisis extensos y las demoras de programación para obtener información
será eliminada. Como la información estará lista para ser accesada, las expectativas
probablemente aumentarán.
Nuevas oportunidades pueden existir en la comunidad empresarial para los
especialistas de información.
La gran cantidad de reportes en papel serán reducidas o eliminadas.
La madurez del Data Warehouse dependerá del uso activo y retroalimentación de
sus usuarios.
El uso de aplicaciones de soporte para la toma de decisiones por parte de los usuarios de
aplicaciones, necesitarán menos experiencia para construir su propia información y desarrollar
nuevas destrezas. En conclusión, el valor de un Data Warehouse queda descrito en tres
dimensiones:
Mejorar la Entrega de Información: Información completa, correcta, consistente,
oportuna y accesible. Información que la gente necesita, en el tiempo que la necesita
y en el formato que la necesita.
Mejorar el Proceso de Toma de Decisiones: Con un mayor soporte de
información se obtienen decisiones más rápidas; así también, la gente de negocios
adquiere mayor confianza en sus propias decisiones y las del resto, y logra un mayor
entendimiento de los impactos de sus decisiones.
Impacto Positivo sobre los Procesos Empresariales: cuando a la gente se le da
acceso a una mejor calidad de información, la empresa puede lograr por sí sola:
o o Eliminar los retardos de los procesos empresariales que resultan de
información incorrecta, inconsistente y/o no existente.
o o Integrar y optimizar procesos empresariales a través del uso compartido
e integrado de las fuentes de información.
o o Eliminar la producción y el procesamiento de datos que no son usados
ni necesarios, producto de aplicaciones mal diseñados o no utilizados.
BIBLIOGRAFÍA
Daniel Cohen, Enrique Asin Sistemas de Información para los negocios.Un enfoque de toma de decisiones. Enero, 2000.
Tercera Edición
McGrawHill / Interamericana Editores, S.A.
Barry Devlin Data Warehouse from architecture to implementation Agosto, 1997
Addison Wesley Longman, Inc.
Michael Corey, Michael Abbey
SQL Server 7, Data Warehousing
Osborne
McGrawHill
Microsoft Desinging and implementing a Data Warehousing using Microsoft SQL Server 7.0 Microsoft Training and Certification
BIBLIOGRAFÍA DE INTERNET www.datawarehousing.com
www.dw-institute.com
www.microsoft.com\olap
www.inei.gob.pe
www.oracle.com
www.sybase.com
www.desitersoft.com