Problems in Data Warehousing

Embed Size (px)

Citation preview

  • 7/30/2019 Problems in Data Warehousing

    1/6

    P r o c . o f 4 t h I n t ' l C o n f e r e n c e o n I n f o r m a t i o n a n d K n o w l e d g e M a n a g e m e n t C I K M , N o v . 1 9 9 5

    R e s e a r c h P r o b l e m s i n D a t a W a r e h o u s i n g

    J e n n i f e r W i d o m

    D e p a r t m e n t o f C o m p u t e r S c i e n c e

    S t a n f o r d U n i v e r s i t y

    S t a n f o r d , C A 9 4 3 0 5 - 2 1 4 0

    w i d o m @ d b . s t a n f o r d . e d u

    A b s t r a c t

    T h e t o p i c o f d a t a w a r e h o u s i n g e n c o m p a s s e s a r c h i t e c -

    t u r e s , a l g o r i t h m s , a n d t o o l s f o r b r i n g i n g t o g e t h e r s e -

    l e c t e d d a t a f r o m m u l t i p l e d a t a b a s e s o r o t h e r i n f o r m a -

    t i o n s o u r c e s i n t o a s i n g l e r e p o s i t o r y , c a l l e d a d a t a w a r e -

    h o u s e , s u i t a b l e f o r d i r e c t q u e r y i n g o r a n a l y s i s . I n r e c e n t

    y e a r s d a t a w a r e h o u s i n g h a s b e c o m e a p r o m i n e n t b u z -

    z w o r d i n t h e d a t a b a s e i n d u s t r y , b u t a t t e n t i o n f r o m t h e

    d a t a b a s e r e s e a r c h c o m m u n i t y h a s b e e n l i m i t e d . I n t h i s

    p a p e r w e m o t i v a t e t h e c o n c e p t o f a d a t a w a r e h o u s e , w e

    o u t l i n e a g e n e r a l d a t a w a r e h o u s i n g a r c h i t e c t u r e , a n d

    w e p r o p o s e a n u m b e r o f t e c h n i c a l i s s u e s a r i s i n g f r o m

    t h e a r c h i t e c t u r e t h a t w e b e l i e v e a r e s u i t a b l e t o p i c s f o r

    e x p l o r a t o r y r e s e a r c h .

    1 I n t r o d u c t i o n

    P r o v i d i n g i n t e g r a t e d a c c e s s t o m u l t i p l e , d i s t r i b u t e d ,

    h e t e r o g e n e o u s d a t a b a s e s a n d o t h e r i n f o r m a t i o n s o u r c e s

    h a s b e c o m e o n e o f t h e l e a d i n g i s s u e s i n d a t a b a s e r e -

    s e a r c h a n d i n d u s t r y 6 . I n t h e r e s e a r c h c o m m u n i t y ,

    m o s t a p p r o a c h e s t o t h e d a t a i n t e g r a t i o n p r o b l e m a r e

    b a s e d o n t h e f o l l o w i n g v e r y g e n e r a l t w o - s t e p p r o c e s s :

    1 . A c c e p t a q u e r y , d e t e r m i n e t h e a p p r o p r i a t e s e t o f

    i n f o r m a t i o n s o u r c e s t o a n s w e r t h e q u e r y , a n d g e n -

    e r a t e t h e a p p r o p r i a t e s u b q u e r i e s o r c o m m a n d s f o r

    e a c h i n f o r m a t i o n s o u r c e .

    2 . O b t a i n r e s u l t s f r o m t h e i n f o r m a t i o n s o u r c e s , p e r -

    f o r m a p p r o p r i a t e t r a n s l a t i o n , l t e r i n g , a n d m e r g -

    i n g o f t h e i n f o r m a t i o n , a n d r e t u r n t h e n a l a n -

    s w e r t o t h e u s e r o r a p p l i c a t i o n h e r e a f t e r c a l l e d

    t h e c l i e n t

    W e r e f e r t o t h i s p r o c e s s a s a l a z y o r o n - d e m a n d a p p r o a c h

    t o d a t a i n t e g r a t i o n , s i n c e i n f o r m a t i o n i s e x t r a c t e d f r o m

    t h e s o u r c e s o n l y w h e n q u e r i e s a r e p o s e d . T h i s p r o c e s s

    a l s o m a y b e r e f e r r e d t o a s a m e d i a t e d a p p r o a c h , s i n c e t h e

    m o d u l e t h a t d e c o m p o s e s q u e r i e s a n d c o m b i n e s r e s u l t s

    o f t e n i s r e f e r r e d t o a s a m e d i a t o r 2 0 .

    T h e n a t u r a l a l t e r n a t i v e t o a l a z y a p p r o a c h i s a n e a g e r

    o r i n - a d v a n c e a p p r o a c h t o d a t a i n t e g r a t i o n . I n a n e a g e r

    a p p r o a c h :

    1 . I n f o r m a t i o n f r o m e a c h s o u r c e t h a t m a y b e o f i n t e r -

    e s t i s e x t r a c t e d i n a d v a n c e , t r a n s l a t e d a n d l t e r e d

    a s a p p r o p r i a t e , m e r g e d w i t h r e l e v a n t i n f o r m a t i o n

    f r o m o t h e r s o u r c e s , a n d s t o r e d i n a l o g i c a l l y c e n -

    t r a l i z e d r e p o s i t o r y .

    2 . W h e n a q u e r y i s p o s e d , t h e q u e r y i s e v a l u a t e d d i -

    r e c t l y a t t h e r e p o s i t o r y , w i t h o u t a c c e s s i n g t h e o r i g -

    i n a l i n f o r m a t i o n s o u r c e s .

    T h i s a p p r o a c h i s c o m m o n l y r e f e r r e d t o a s d a t a w a r e h o u s -

    i n g , s i n c e t h e r e p o s i t o r y s e r v e s a s a w a r e h o u s e s t o r i n g

    t h e d a t a o f i n t e r e s t .

    A l a z y a p p r o a c h t o i n t e g r a t i o n i s a p p r o p r i a t e f o r i n -

    f o r m a t i o n t h a t c h a n g e s r a p i d l y , f o r c l i e n t s w i t h u n p r e -

    d i c t a b l e n e e d s , a n d f o r q u e r i e s t h a t o p e r a t e o v e r v a s t

    a m o u n t s o f d a t a f r o m v e r y l a r g e n u m b e r s o f i n f o r m a -

    t i o n s o u r c e s . H o w e v e r , t h e l a z y a p p r o a c h m a y i n c u r

    i n e c i e n c y a n d d e l a y i n q u e r y p r o c e s s i n g , e s p e c i a l l y

    w h e n q u e r i e s a r e i s s u e d m u l t i p l e t i m e s , w h e n i n f o r m a -

    t i o n s o u r c e s a r e s l o w , e x p e n s i v e , o r p e r i o d i c a l l y u n a v a i l -

    a b l e , a n d w h e n s i g n i c a n t p r o c e s s i n g i s r e q u i r e d f o r t h e

    t r a n s l a t i o n , l t e r i n g , a n d m e r g i n g s t e p s . I n c a s e s w h e r e

    i n f o r m a t i o n s o u r c e s d o n o t p e r m i t a d - h o c q u e r i e s , t h e

    l a z y a p p r o a c h i s s i m p l y n o t f e a s i b l e .

    I n t h e w a r e h o u s i n g a p p r o a c h , t h e i n t e g r a t e d i n f o r -

    m a t i o n i s a v a i l a b l e f o r i m m e d i a t e q u e r y i n g a n d a n a l y s i s

    b y c l i e n t s . T h u s , t h e w a r e h o u s i n g a p p r o a c h i s a p p r o -

    p r i a t e f o r :

    c l i e n t s r e q u i r i n g s p e c i c , p r e d i c t a b l e p o r t i o n s o f

    t h e a v a i l a b l e i n f o r m a t i o n

    c l i e n t s r e q u i r i n g h i g h q u e r y p e r f o r m a n c e t h e d a t a

    i s a v a i l a b l e l o c a l l y a t t h e w a r e h o u s e , b u t n o t n e c -

    e s s a r i l y r e q u i r i n g t h e m o s t r e c e n t s t a t e o f t h e i n -

    f o r m a t i o n

    e n v i r o n m e n t s i n w h i c h n a t i v e a p p l i c a t i o n s a t

    t h e i n f o r m a t i o n s o u r c e s r e q u i r e h i g h p e r f o r m a n c e

    l a r g e m u l t i - s o u r c e q u e r i e s a r e e x e c u t e d a t t h e

    w a r e h o u s e i n s t e a d

    c l i e n t s w a n t i n g a c c e s s t o p r i v a t e c o p i e s o f t h e i n -

    f o r m a t i o n s o t h a t i t c a n b e m o d i e d , a n n o t a t e d ,

    s u m m a r i z e d , a n d s o o n , o r c l i e n t s w a n t i n g t o s a v e

    i n f o r m a t i o n t h a t i s n o t m a i n t a i n e d a t t h e s o u r c e s

    s u c h a s h i s t o r i c a l i n f o r m a t i o n

  • 7/30/2019 Problems in Data Warehousing

    2/6

    Info.Source

    Info.Source

    Info.Source

    Wrapper/Monitor Wrapper/Monitor Wrapper/Monitor

    IntegratorWarehouse

    Data

    F i g u r e 1 : B a s i c a r c h i t e c t u r e o f a d a t a w a r e h o u s i n g s y s t e m

    T h e l a z y a n d w a r e h o u s i n g a p p r o a c h e s a r e e a c h v i -

    a b l e s o l u t i o n s t o t h e d a t a i n t e g r a t i o n p r o b l e m , a n d e a c h

    i s a p p r o p r i a t e f o r c e r t a i n s c e n a r i o s .

    1

    T h e d a t a b a s e r e -

    s e a r c h c o m m u n i t y h a s f o c u s e d p r i m a r i l y o n l a z y a p -

    p r o a c h e s t o i n t e g r a t i o n . I n t h i s p a p e r w e c o n s i d e r r e -

    s e a r c h p r o b l e m s a s s o c i a t e d w i t h t h e w a r e h o u s i n g a p -

    p r o a c h .

    2 I n d u s t r i a l P e r s p e c t i v e

    B e f o r e c o n s i d e r i n g t h e r e s e a r c h p r o b l e m s a s s o c i a t e d

    w i t h d a t a w a r e h o u s i n g , w e n o t e t h a t t h e r e h a s b e e n

    g r e a t i n t e r e s t i n t h e t o p i c w i t h i n t h e d a t a b a s e i n d u s t r y

    o v e r t h e l a s t s e v e r a l y e a r s 1 2 . M o s t l e a d i n g v e n d o r s

    c l a i m t o p r o v i d e a t l e a s t s o m e d a t a w a r e h o u s i n g t o o l s , "

    w h i l e s e v e r a l s m a l l c o m p a n i e s a r e d e v o t e d e x c l u s i v e l y t o

    d a t a w a r e h o u s i n g p r o d u c t s . D e s p i t e r a p i d a d v a n c e s i n

    c o m m e r c i a l d a t a w a r e h o u s i n g t o o l s a n d p r o d u c t s , m o s t

    o f t h e a v a i l a b l e s y s t e m s a r e r e l a t i v e l y i n e x i b l e a n d l i m -

    i t e d i n t h e i r f e a t u r e s . W e b e l i e v e t h a t a t r u l y g e n e r a l ,

    e c i e n t , e x i b l e , a n d s c a l a b l e d a t a w a r e h o u s i n g a r c h i -

    t e c t u r e r e q u i r e s a n u m b e r o f t e c h n i c a l a d v a n c e s , o u t -

    l i n e d b e l o w .

    T h e i m p o r t a n c e o f d a t a w a r e h o u s i n g i n t h e c o m m e r -

    c i a l s e g m e n t a p p e a r s t o b e d u e t o a n e e d f o r e n t e r p r i s e s

    t o g a t h e r a l l o f t h e i r i n f o r m a t i o n i n t o a s i n g l e p l a c e f o r

    i n - d e p t h a n a l y s i s , a n d t h e d e s i r e t o d e c o u p l e s u c h a n a l -

    y s i s f r o m o n - l i n e t r a n s a c t i o n p r o c e s s i n g s y s t e m s . A n -

    a l y t i c a l p r o c e s s i n g t h a t i n v o l v e s v e r y c o m p l e x q u e r i e s

    o f t e n w i t h a g g r e g a t e s a n d f e w o r n o u p d a t e s | u s u a l l y

    t e r m e d d e c i s i o n s u p p o r t | i s o n e o f t h e p r i m a r y u s e s o f

    d a t a w a r e h o u s e s , h e n c e t h e t e r m s d a t a w a r e h o u s i n g a n d

    d e c i s i o n s u p p o r t o f t e n a r e f o u n d t o g e t h e r , s o m e t i m e s

    i n t e r c h a n g e d .

    2

    S i n c e d e c i s i o n s u p p o r t o f t e n i s t h e g o a l

    o f d a t a w a r e h o u s i n g , c l e a r l y w a r e h o u s e s m a y b e t u n e d

    f o r d e c i s i o n s u p p o r t , a n d p e r h a p s v i c e - v e r s a . N e v e r t h e -

    l e s s , d e c i s i o n s u p p o r t i s a v e r y b r o a d a r e a , s o w e f o c u s

    t h i s p a p e r s p e c i c a l l y o n r e s e a r c h i s s u e s a s s o c i a t e d w i t h

    t h e w a r e h o u s i n g a p p r o a c h t o i n t e g r a t i o n .

    1

    A n o t h e r p r o m i s i n g a n d r e l a t i v e l y u n e x p l o r e d a p p r o a c h t o i n f o r -

    m a t i o n i n t e g r a t i o n i s a h y b r i d a p p r o a c h , i n w h i c h s o m e i n f o r m a t i o n

    i s s t o r e d i n a c e n t r a l i z e d r e p o s i t o r y w h i l e o t h e r i n f o r m a t i o n i s f e t c h e d

    o n d e m a n d , e . g . , 2 1 .

    2

    O t h e r r e l e v a n t t e r m s i n c l u d e d a t a m i n i n g o n - l i n e a n a l y t i c a l p r o -

    c e s s i n g O L A P , a n d m u l t i d i m e n s i o n a l a n a l y s i s , w h i c h w e v i e w a s

    r e n e m e n t s o r s u b c l a s s e s o f d e c i s i o n s u p p o r t .

    3 A r c h i t e c t u r e o f a D a t a W a r e h o u s i n g S y s t e m

    F i g u r e 1 i l l u s t r a t e s t h e b a s i c a r c h i t e c t u r e o f a d a t a w a r e -

    h o u s i n g s y s t e m . T h e b o t t o m o f t h e d i a g r a m s h o w s

    t h e i n f o r m a t i o n s o u r c e s . A l t h o u g h t h e t r a d i t i o n a l d i s k

    s h a p e s c o n n o t e c o n v e n t i o n a l d a t a b a s e s y s t e m s , i n t h e

    g e n e r a l c a s e t h e s e s o u r c e s m a y i n c l u d e n o n - t r a d i t i o n a l

    d a t a s u c h a s a t l e s , n e w s w i r e s , H T M L a n d S G M L

    d o c u m e n t s , k n o w l e d g e b a s e s , l e g a c y s y s t e m s , a n d s o

    o n . C o n n e c t e d t o e a c h i n f o r m a t i o n s o u r c e i s a w r a p -

    p e r m o n i t o r . T h e w r a p p e r c o m p o n e n t o f t h i s m o d u l e i s

    r e s p o n s i b l e f o r t r a n s l a t i n g i n f o r m a t i o n f r o m t h e n a t i v e

    f o r m a t o f t h e s o u r c e i n t o t h e f o r m a t a n d d a t a m o d e l

    u s e d b y t h e w a r e h o u s i n g s y s t e m , w h i l e t h e m o n i t o r c o m -

    p o n e n t i s r e s p o n s i b l e f o r a u t o m a t i c a l l y d e t e c t i n g c h a n -

    g e s o f i n t e r e s t i n t h e s o u r c e d a t a a n d r e p o r t i n g t h e m t o

    t h e i n t e g r a t o r .

    W h e n a n e w i n f o r m a t i o n s o u r c e i s a t t a c h e d t o t h e

    w a r e h o u s i n g s y s t e m , o r w h e n r e l e v a n t i n f o r m a t i o n a t

    a s o u r c e c h a n g e s , t h e n e w o r m o d i e d d a t a i s p r o p a -

    g a t e d t o t h e i n t e g r a t o r . T h e i n t e g r a t o r i s r e s p o n s i b l e

    f o r i n s t a l l i n g t h e i n f o r m a t i o n i n t h e w a r e h o u s e , w h i c h

    m a y i n c l u d e l t e r i n g t h e i n f o r m a t i o n , s u m m a r i z i n g i t ,

    o r m e r g i n g i t w i t h i n f o r m a t i o n f r o m o t h e r s o u r c e s . I n

    o r d e r t o p r o p e r l y i n t e g r a t e n e w i n f o r m a t i o n i n t o t h e

    w a r e h o u s e , i t m a y b e n e c e s s a r y f o r t h e i n t e g r a t o r t o

    o b t a i n f u r t h e r i n f o r m a t i o n f r o m t h e s a m e o r d i e r e n t

    i n f o r m a t i o n s o u r c e s . T h i s b e h a v i o r i s i l l u s t r a t e d b y t h e

    d o w n w a r d d a s h e d a r r o w s i n F i g u r e 1 .

    T h e d a t a w a r e h o u s e i t s e l f c a n u s e a n o - t h e - s h e l f

    o r s p e c i a l p u r p o s e d a t a b a s e m a n a g e m e n t s y s t e m . A l -

    t h o u g h i n F i g u r e 1 w e i l l u s t r a t e a s i n g l e , c e n t r a l i z e d

    w a r e h o u s e , t h e w a r e h o u s e c e r t a i n l y m a y b e i m p l e m e n -

    t e d a s a d i s t r i b u t e d d a t a b a s e s y s t e m , a n d i n f a c t d a t a

    p a r a l l e l i s m o r d i s t r i b u t i o n m a y b e n e c e s s a r y t o p r o v i d e

    t h e d e s i r e d p e r f o r m a n c e .

    T h e a r c h i t e c t u r e a n d b a s i c f u n c t i o n a l i t y w e h a v e d e -

    s c r i b e d i s m o r e g e n e r a l t h a n t h a t p r o v i d e d b y m o s t

    c o m m e r c i a l d a t a w a r e h o u s i n g s y s t e m s . I n p a r t i c u l a r ,

    c u r r e n t s y s t e m s u s u a l l y a s s u m e t h a t t h e s o u r c e s a n d

    t h e w a r e h o u s e s u b s c r i b e t o a s i n g l e d a t a m o d e l n o r -

    m a l l y r e l a t i o n a l , t h a t p r o p a g a t i o n o f i n f o r m a t i o n f r o m

    t h e s o u r c e s t o t h e w a r e h o u s e i s p e r f o r m e d a s a b a t c h

    p r o c e s s p e r h a p s o - l i n e , a n d t h a t q u e r i e s f r o m t h e i n -

    t e g r a t o r t o t h e i n f o r m a t i o n s o u r c e s a r e n e v e r n e e d e d .

  • 7/30/2019 Problems in Data Warehousing

    3/6

    4 R e s e a r c h P r o b l e m s

    B a s e d o n t h e g e n e r a l a r c h i t e c t u r e f o r d a t a w a r e h o u s -

    i n g d e s c r i b e d i n S e c t i o n 3 , w e n o w o u t l i n e a n u m b e r

    o f r e s e a r c h p r o b l e m s t h a t a r i s e f r o m t h e w a r e h o u s i n g

    a p p r o a c h .

    4 . 1 W r a p p e r M o n i t o r s

    T h e w r a p p e r m o n i t o r c o m p o n e n t s i l l u s t r a t e d i n F i g u r e 1

    h a v e t w o i n t e r r e l a t e d r e s p o n s i b i l i t i e s :

    1 T r a n s l a t i o n : M a k i n g t h e u n d e r l y i n g i n f o r m a t i o n

    s o u r c e a p p e a r a s i f i t s u b s c r i b e s t o t h e d a t a m o d e l

    u s e d b y t h e w a r e h o u s i n g s y s t e m . F o r e x a m p l e , i f

    t h e i n f o r m a t i o n s o u r c e c o n s i s t s o f a s e t o f a t l e s

    b u t t h e w a r e h o u s e m o d e l i s r e l a t i o n a l , t h e n t h e

    w r a p p e r m o n i t o r m u s t s u p p o r t a n i n t e r f a c e t h a t

    p r e s e n t s t h e d a t a f r o m t h e i n f o r m a t i o n s o u r c e a s

    i f i t w e r e r e l a t i o n a l . T h e t r a n s l a t i o n p r o b l e m i s

    i n h e r e n t i n a l m o s t a l l a p p r o a c h e s t o d a t a i n t e g r a -

    t i o n | b o t h l a z y a n d e a g e r | a n d i s n o t s p e c i c t o

    d a t a w a r e h o u s i n g . T y p i c a l l y , a c o m p o n e n t t h a t

    t r a n s l a t e s a n i n f o r m a t i o n s o u r c e i n t o a c o m m o n

    i n t e g r a t i n g m o d e l i s c a l l e d a t r a n s l a t o r o r w r a p p e r

    3 , 2 0 .

    3

    2 C h a n g e d e t e c t i o n : M o n i t o r i n g t h e i n f o r m a t i o n

    s o u r c e f o r c h a n g e s t o t h e d a t a t h a t a r e r e l e v a n t t o

    t h e w a r e h o u s e a n d p r o p a g a t i n g t h o s e c h a n g e s t o

    t h e i n t e g r a t o r . N o t e t h a t t h i s f u n c t i o n a l i t y r e l i e s

    o n t r a n s l a t i o n s i n c e , l i k e t h e d a t a i t s e l f , c h a n g e s t o

    t h e d a t a m u s t b e t r a n s l a t e d f r o m t h e f o r m a t a n d

    m o d e l o f t h e i n f o r m a t i o n s o u r c e i n t o t h e f o r m a t

    a n d m o d e l u s e d b y t h e w a r e h o u s i n g s y s t e m .

    O n e a p p r o a c h i s t o i g n o r e t h e c h a n g e d e t e c t i o n i s s u e

    a l t o g e t h e r a n d s i m p l y p r o p a g a t e e n t i r e c o p i e s o f r e l e -

    v a n t d a t a f r o m t h e i n f o r m a t i o n s o u r c e t o t h e w a r e h o u s e

    p e r i o d i c a l l y . T h e i n t e g r a t o r c a n c o m b i n e t h i s d a t a w i t h

    e x i s t i n g w a r e h o u s e d a t a f r o m o t h e r s o u r c e s , o r i t c a n r e -

    q u e s t c o m p l e t e i n f o r m a t i o n f r o m a l l s o u r c e s a n d r e c o m -

    p u t e t h e w a r e h o u s e d a t a f r o m s c r a t c h . I g n o r i n g c h a n g e

    d e t e c t i o n m a y b e a c c e p t a b l e i n c e r t a i n s c e n a r i o s , f o r

    e x a m p l e w h e n i t i s n o t i m p o r t a n t f o r t h e w a r e h o u s e

    d a t a t o b e c u r r e n t a n d i t i s a c c e p t a b l e f o r t h e w a r e -

    h o u s e t o b e o - l i n e o c c a s i o n a l l y . H o w e v e r , i f c u r r e n c y ,

    e c i e n c y , a n d c o n t i n u o u s a c c e s s a r e r e q u i r e d , t h e n w e

    b e l i e v e t h a t d e t e c t i n g a n d p r o p a g a t i n g c h a n g e s a n d i n -

    c r e m e n t a l l y f o l d i n g t h e c h a n g e s i n t o t h e w a r e h o u s e w i l l

    b e t h e p r e f e r r e d s o l u t i o n .

    I n c o n s i d e r i n g t h e c h a n g e d e t e c t i o n p r o b l e m , w e h a v e

    i d e n t i e d s e v e r a l r e l e v a n t t y p e s o f i n f o r m a t i o n s o u r c e s :

    C o o p e r a t i v e s o u r c e s : S o u r c e s t h a t p r o v i d e t r i g -

    g e r s o r o t h e r a c t i v e d a t a b a s e c a p a b i l i t i e s 1 9 , s o

    t h a t n o t i c a t i o n s o f c h a n g e s o f i n t e r e s t c a n b e p r o -

    g r a m m e d t o o c c u r a u t o m a t i c a l l y .

    L o g g e d s o u r c e s : S o u r c e s m a i n t a i n i n g a l o g t h a t

    c a n b e q u e r i e d o r i n s p e c t e d , s o c h a n g e s o f i n t e r e s t

    c a n b e e x t r a c t e d f r o m t h e l o g .

    3

    M o s t c o m m e r c i a l d a t a w a r e h o u s i n g s y s t e m s a s s u m e t h a t b o t h t h e

    i n f o r m a t i o n s o u r c e s a n d t h e w a r e h o u s e a r e r e l a t i o n a l , s o t r a n s l a t i o n

    i s n o t a n i s s u e . H o w e v e r , s o m e v e n d o r s d o p r o v i d e w r a p p e r s f o r o t h e r

    c o m m o n t y p e s o f i n f o r m a t i o n s o u r c e s .

    Q u e r y a b l e s o u r c e s : S o u r c e s t h a t a l l o w t h e w r a p -

    p e r m o n i t o r t o q u e r y t h e i n f o r m a t i o n a t t h e

    s o u r c e , s o t h a t p e r i o d i c p o l l i n g c a n b e u s e d t o d e -

    t e c t c h a n g e s o f i n t e r e s t .

    S n a p s h o t s o u r c e s : S o u r c e s t h a t d o n o t p r o v i d e

    t r i g g e r s , l o g s , o r q u e r i e s . I n s t e a d , p e r i o d i c d u m p s ,

    o r s n a p s h o t s , o f t h e d a t a a r e p r o v i d e d o - l i n e , a n d

    c h a n g e s a r e d e t e c t e d b y c o m p a r i n g s u c c e s s i v e

    s n a p s h o t s .

    E a c h t y p e o f i n f o r m a t i o n s o u r c e c a p a b i l i t y p r o v i d e s

    i n t e r e s t i n g r e s e a r c h p r o b l e m s f o r c h a n g e d e t e c t i o n . F o r

    e x a m p l e , i n c o o p e r a t i v e s o u r c e s , a l t h o u g h t r i g g e r s a n d

    a c t i v e d a t a b a s e s h a v e b e e n e x p l o r e d i n d e p t h , p u t t i n g

    s u c h c a p a b i l i t i e s t o u s e i n t h e w a r e h o u s i n g c o n t e x t s t i l l

    r e q u i r e s a d d r e s s i n g t h e t r a n s l a t i o n a s p e c t ; s i m i l a r l y f o r

    l o g g e d s o u r c e s . I n q u e r y a b l e s o u r c e s , i n a d d i t i o n t o

    t r a n s l a t i o n , o n e m u s t c o n s i d e r p e r f o r m a n c e a n d s e m a n -

    t i c i s s u e s a s s o c i a t e d w i t h p o l l i n g f r e q u e n c y : I f t h e f r e -

    q u e n c y i s t o o h i g h , p e r f o r m a n c e w i l l d e g r a d e , w h i l e i f

    t h e f r e q u e n c y i s t o o l o w , c h a n g e s o f i n t e r e s t m a y n o t b e

    d e t e c t e d i n a t i m e l y w a y . I n s n a p s h o t s o u r c e s , t h e c h a l -

    l e n g e i s t o c o m p a r e v e r y l a r g e d a t a b a s e d u m p s , d e t e c t -

    i n g t h e c h a n g e s o f i n t e r e s t i n a n e c i e n t a n d s c a l a b l e

    w a y 1 3 . A n i m p o r t a n t r e l a t e d p r o b l e m i n a l l o f t h e s e

    s c e n a r i o s i s t o d e v e l o p a p p r o p r i a t e r e p r e s e n t a t i o n s f o r

    t h e c h a n g e s t o t h e d a t a , e s p e c i a l l y i f a n o n - r e l a t i o n a l

    m o d e l i s u s e d 4 .

    F i n a l l y , w e n o t e t h a t a d i e r e n t w r a p p e r m o n i t o r

    c o m p o n e n t i s n e e d e d f o r e a c h i n f o r m a t i o n s o u r c e , s i n c e

    t h e f u n c t i o n a l i t y o f t h e w r a p p e r m o n i t o r i s d e p e n d e n t

    o n t h e t y p e o f t h e s o u r c e d a t a b a s e s y s t e m , l e g a c y s y s -

    t e m , n e w s w i r e , e t c . a s w e l l a s o n t h e d a t a p r o v i d e d

    b y t h a t s o u r c e . C l e a r l y i t i s u n d e s i r a b l e t o h a r d - c o d e

    a w r a p p e r m o n i t o r f o r e a c h i n f o r m a t i o n s o u r c e p a r t i c -

    i p a t i n g i n a w a r e h o u s i n g s y s t e m , e s p e c i a l l y i f n e w i n -

    f o r m a t i o n s o u r c e s b e c o m e a v a i l a b l e f r e q u e n t l y . H e n c e ,

    a s i g n i c a n t r e s e a r c h i s s u e i s t o d e v e l o p t e c h n i q u e s a n d

    t o o l s t h a t a u t o m a t e o r s e m i - a u t o m a t e t h e p r o c e s s o f

    i m p l e m e n t i n g w r a p p e r m o n i t o r s , t h r o u g h a t o o l k i t o r

    s p e c i c a t i o n - b a s e d a p p r o a c h 1 6 .

    4 . 2 I n t e g r a t o r

    A s s u m e t h a t t h e w a r e h o u s e h a s b e e n l o a d e d w i t h i t s i n i -

    t i a l s e t o f d a t a o b t a i n e d f r o m t h e i n f o r m a t i o n s o u r c e s .

    T h e t a s k o f s e t t i n g u p a n d l o a d i n g t h e d a t a w a r e h o u s e

    i s d i s c u s s e d i n S e c t i o n 4 . 5 b e l o w . T h e o n g o i n g j o b o f

    t h e i n t e g r a t o r i s t o r e c e i v e c h a n g e n o t i c a t i o n s f r o m t h e

    w r a p p e r m o n i t o r s f o r t h e i n f o r m a t i o n s o u r c e s a n d r e -

    e c t t h e s e c h a n g e s i n t h e d a t a w a r e h o u s e ; s e e F i g u r e 1 .

    A t a s u c i e n t l y a b s t r a c t l e v e l , t h e d a t a i n t h e w a r e -

    h o u s e c a n b e s e e n a s a m a t e r i a l i z e d v i e w o r s e t o f v i e w s ,

    w h e r e t h e b a s e d a t a r e s i d e s a t t h e i n f o r m a t i o n s o u r c e s .

    V i e w i n g t h e p r o b l e m i n t h i s w a y , t h e j o b o f t h e i n t e -

    g r a t o r i s e s s e n t i a l l y t o p e r f o r m m a t e r i a l i z e d v i e w m a i n t e -

    n a n c e 9 . I n d e e d , t h e r e i s a c l o s e c o n n e c t i o n b e t w e e n

    t h e v i e w m a i n t e n a n c e p r o b l e m a n d d a t a w a r e h o u s i n g

    1 5 . H o w e v e r , t h e r e a r e a n u m b e r o f r e a s o n s t h a t c o n -

    v e n t i o n a l v i e w m a i n t e n a n c e t e c h n i q u e s c a n n o t b e u s e d ,

    a n d e a c h o f t h e s e r e a s o n s h i g h l i g h t s a r e s e a r c h p r o b l e m

    a s s o c i a t e d w i t h d a t a w a r e h o u s i n g :

    I n m o s t d a t a w a r e h o u s i n g s c e n a r i o s , t h e v i e w s s t o r e d

    a t t h e w a r e h o u s e t e n d t o b e m o r e c o m p l i c a t e d t h a n c o n -

    v e n t i o n a l v i e w s . F o r e x a m p l e , e v e n i f t h e w a r e h o u s e a n d

  • 7/30/2019 Problems in Data Warehousing

    4/6

    t h e i n f o r m a t i o n s o u r c e s a r e r e l a t i o n a l , t h e v i e w s s t o r e d

    i n t h e w a r e h o u s e m a y n o t b e e x p r e s s i b l e u s i n g a s t a n -

    d a r d r e l a t i o n a l v i e w d e n i t i o n l a n g u a g e s u c h a s S Q L

    o v e r t h e b a s e d a t a . T y p i c a l l y , d a t a w a r e h o u s e s m a y

    c o n t a i n a s i g n i c a n t a m o u n t o f h i s t o r i c a l i n f o r m a t i o n

    e . g . , t h e h i s t o r y o f s t o c k p r i c e s o r r e t a i l t r a n s a c t i o n s ,

    w h i l e t h e u n d e r l y i n g s o u r c e s m a y n o t m a i n t a i n t h i s i n -

    f o r m a t i o n . H e n c e , w a r e h o u s e v i e w s m a y n o t b e f u n c -

    t i o n s o f t h e u n d e r l y i n g b a s e d a t a a s t r a d i t i o n a l v i e w s

    a r e , b u t r a t h e r f u n c t i o n s o f t h e h i s t o r y o f t h e u n d e r -

    l y i n g d a t a . R e l e v a n t a r e a s o f r e s e a r c h h e r e c e r t a i n l y

    i n c l u d e t e m p o r a l d a t a b a s e s 1 8 , a s w e l l a s w o r k o n e f -

    c i e n t m o n i t o r i n g o f h i s t o r i c a l i n f o r m a t i o n 5 .

    D a t a w a r e h o u s e s a l s o t e n d t o c o n t a i n h i g h l y a g g r e -

    g a t e d a n d s u m m a r i z e d i n f o r m a t i o n 7 . A l t h o u g h i n

    s o m e c a s e s a g g r e g a t i o n s m a y b e d e s c r i b a b l e i n a c o n -

    v e n t i o n a l v i e w d e n i t i o n l a n g u a g e , t h e e x p r e s s i v e n e s s

    o f a g g r e g a t e s a n d s u m m a r y o p e r a t o r s i n s u c h l a n g u a g e s

    a r e l i m i t e d , s o m o r e e x p r e s s i v e v i e w d e n i t i o n l a n g u a g e s

    m a y b e n e e d e d . F u r t h e r m o r e , e c i e n t v i e w m a i n t e -

    n a n c e i n t h e p r e s e n c e o f a g g r e g a t i o n a n d s u m m a r y i n -

    f o r m a t i o n a p p e a r s t o b e a n o p e n p r o b l e m 7 , 1 7 .

    T h e i n f o r m a t i o n s o u r c e s u p d a t i n g t h e b a s e d a t a g e n -

    e r a l l y o p e r a t e i n d e p e n d e n t l y f r o m t h e w a r e h o u s e w h e r e

    t h e v i e w i s s t o r e d , a n d t h e b a s e d a t a m a y c o m e f r o m

    l e g a c y s y s t e m s t h a t a r e u n a b l e o r u n w i l l i n g t o p a r t i c -

    i p a t e i n v i e w m a i n t e n a n c e . M o s t m a t e r i a l i z e d v i e w

    m a i n t e n a n c e t e c h n i q u e s r e l y o n t h e f a c t t h a t b a s e d a t a

    u p d a t e s a r e c l o s e l y t i e d t o t h e v i e w m a i n t e n a n c e m a -

    c h i n e r y , a n d v i e w m o d i c a t i o n o c c u r s w i t h i n t h e s a m e

    t r a n s a c t i o n a s t h e u p d a t e s . I n t h e w a r e h o u s i n g e n v i -

    r o n m e n t i t i s g e n e r a l l y t h e c a s e t h a t :

    T h e s y s t e m m a i n t a i n i n g t h e v i e w t h e i n t e g r a t o r

    i s o n l y l o o s e l y c o u p l e d t o t h e s y s t e m s h a n d l i n g t h e

    b a s e d a t a t h e i n f o r m a t i o n s o u r c e s .

    T h e u n d e r l y i n g i n f o r m a t i o n s o u r c e s d o n o t p a r -

    t i c i p a t e i n v i e w m a i n t e n a n c e b u t s i m p l y r e p o r t

    c h a n g e s .

    S o m e s o u r c e s m a y n o t p r o v i d e l o c k i n g c a p a b i l i t i e s ,

    a n d t h e r e a r e a l m o s t c e r t a i n l y n o g l o b a l t r a n s a c -

    t i o n s .

    I n t h i s s c e n a r i o , c e r t a i n a n o m a l i e s " a r i s e w h e n a t t e m -

    p t i n g t o k e e p v i e w s c o n s i s t e n t w i t h b a s e d a t a s e e 2 2 ,

    a n d a l g o r i t h m s m u s t b e u s e d t h a t a r e c o n s i d e r a b l y m o r e

    c o m p l i c a t e d t h a n c o n v e n t i o n a l v i e w m a i n t e n a n c e a l g o -

    r i t h m s .

    I n a d a t a w a r e h o u s e , t h e v i e w s m a y n o t n e e d t o b e

    r e f r e s h e d a f t e r e v e r y m o d i c a t i o n o r s e t o f m o d i c a -

    t i o n s t o t h e b a s e d a t a . R a t h e r , l a r g e b a t c h u p d a t e s

    t o t h e b a s e d a t a m a y b e c o n s i d e r e d , i n w h i c h c a s e e -

    c i e n t v i e w m a i n t e n a n c e t e c h n i q u e s m a y i n v o l v e d i e r e n t

    a l g o r i t h m s t h a n a r e u s e d f o r c o n v e n t i o n a l v i e w m a i n t e -

    n a n c e .

    I n a d a t a w a r e h o u s i n g e n v i r o n m e n t i t m a y b e n e c e s -

    s a r y t o t r a n s f o r m t h e b a s e d a t a s o m e t i m e s r e f e r r e d t o

    a s d a t a s c r u b b i n g b e f o r e i t i s i n t e g r a t e d i n t o t h e w a r e -

    h o u s e . T r a n s f o r m a t i o n s m i g h t i n c l u d e , f o r e x a m p l e , a g -

    g r e g a t i n g o r s u m m a r i z i n g t h e d a t a , s a m p l i n g t h e d a t a

    t o r e d u c e t h e s i z e o f t h e w a r e h o u s e , d i s c a r d i n g o r c o r -

    r e c t i n g d a t a s u s p e c t e d o f b e i n g e r r o n e o u s , i n s e r t i n g d e -

    f a u l t v a l u e s , o r e l i m i n a t i n g d u p l i c a t e s a n d i n c o n s i s t e n -

    c i e s .

    F i n a l l y , w e n o t e t h a t a l t h o u g h i n t e g r a t o r s c a n b e

    b a s e d p u r e l y o n t h e d a t a m o d e l u s e d b y t h e w a r e h o u s -

    i n g s y s t e m , a d i e r e n t i n t e g r a t o r s t i l l w i l l b e n e e d e d

    f o r e a c h d a t a w a r e h o u s e , s i n c e a d i e r e n t s e t o f v i e w s

    o v e r d i e r e n t b a s e d a t a w i l l b e s t o r e d . A s w i t h w r a p -

    p e r m o n i t o r s , i t i s d e s i r a b l e n o t t o r e q u i r e t h a t e a c h

    i n t e g r a t o r b e h a r d - c o d e d f r o m s c r a t c h , b u t r a t h e r t o

    p r o v i d e t e c h n i q u e s a n d t o o l s f o r g e n e r a t i n g i n t e g r a t o r s

    f r o m h i g h - l e v e l , n o n p r o c e d u r a l s p e c i c a t i o n s . T h i s g e n -

    e r a l a p p r o a c h i s s t a n d a r d p r a c t i c e i n c o n v e n t i o n a l v i e w

    m a i n t e n a n c e , h o w e v e r t h e r e a r e a n u m b e r o f i n t e r e s t i n g

    p r o b l e m s i n a d a p t i n g i t t o d a t a w a r e h o u s i n g , d i s c u s s e d

    i n t h e n e x t s e c t i o n .

    4 . 3 W a r e h o u s e S p e c i c a t i o n

    I n t h e p r e v i o u s s e c t i o n w e d r e w a n a n a l o g y b e t w e e n

    m a i n t e n a n c e o f a d a t a w a r e h o u s e a n d m a t e r i a l i z e d v i e w

    m a i n t e n a n c e . W e a l s o i n d i c a t e d t h a t i t i s u s e f u l t o p r o -

    v i d e c a p a b i l i t i e s f o r s p e c i f y i n g i n t e g r a t o r s i n a h i g h - l e v e l

    f a s h i o n , r a t h e r t h a n i m p l e m e n t i n g e a c h i n t e g r a t o r f r o m

    s c r a t c h . H e n c e , i n a n i d e a l a r c h i t e c t u r e , t h e c o n t e n t s

    o f t h e d a t a w a r e h o u s e a r e s p e c i e d a s a s e t o f v i e w

    d e n i t i o n s , f r o m w h i c h t h e w a r e h o u s e u p d a t i n g t a s k s

    p e r f o r m e d b y t h e i n t e g r a t o r a n d t h e c h a n g e d e t e c t i o n

    t a s k s r e q u i r e d o f t h e w r a p p e r m o n i t o r s a r e d e d u c e d a u -

    t o m a t i c a l l y .

    F o r c o n v e n t i o n a l v i e w m a i n t e n a n c e , a l g o r i t h m s h a v e

    b e e n d e v e l o p e d t o a u t o m a t i c a l l y g e n e r a t e a c t i v e d a t a -

    b a s e r u l e s f o r m a i n t a i n i n g S Q L - d e n e d v i e w s 2 . E a c h

    r u l e i s t r i g g e r e d " b y t h e n o t i c a t i o n o f a n u p d a t e t h a t

    m a y a e c t t h e v i e w , a n d t h e r u l e m o d i e s t h e v i e w a p -

    p r o p r i a t e l y . A s i m i l a r a p p r o a c h m a y b e a p p l i e d t o d a t a

    w a r e h o u s i n g i f a r u l e - d r i v e n i n t e g r a t o r i s u s e d . E a c h i n -

    t e g r a t o r r u l e i s t r i g g e r e d b y a c h a n g e n o t i c a t i o n p o s s i -

    b l y o f a s p e c i c t y p e f r o m a w r a p p e r m o n i t o r . S i m i l a r

    t o t h e v i e w m a i n t e n a n c e r u l e s , i n t e g r a t o r r u l e s m u s t

    u p d a t e t h e w a r e h o u s e t o r e e c t t h e b a s e d a t a u p d a t e s .

    H o w e v e r , i n t h e w a r e h o u s i n g s c e n a r i o , r u l e s m a y n e e d

    t o p e r f o r m m o r e c o m p l i c a t e d f u n c t i o n s , s u c h a s f e t c h i n g

    a d d i t i o n a l d a t a f r o m s o u r c e s u s i n g r e m o t e q u e r i e s 2 2

    a n d s c r u b b i n g " t h e d a t a a s d e s c r i b e d i n S e c t i o n 4 . 2 .

    D e s p i t e t h e a d d i t i o n a l c o m p l e x i t y o f r u l e s i n t h e w a r e -

    h o u s i n g e n v i r o n m e n t , i t s t i l l s h o u l d b e p o s s i b l e t o a u -

    t o m a t i c a l l y o r s e m i - a u t o m a t i c a l l y g e n e r a t e a p p r o p r i a t e

    r u l e s f r o m t h e w a r e h o u s e v i e w s p e c i c a t i o n .

    T h u s , t h e r e s e a r c h c h a l l e n g e i n r e a l i z i n g t h e i d e a l

    a r c h i t e c t u r e i s t o d e v i s e a w a r e h o u s e s p e c i c a t i o n l a n -

    g u a g e , r u l e c a p a b i l i t i e s , w r a p p e r m o n i t o r i n t e r f a c e s ,

    a n d a p p r o p r i a t e a l g o r i t h m s t o p e r m i t d e v e l o p e r s o f a

    d a t a w a r e h o u s i n g s y s t e m t o g e n e r a t e t h e i n t e g r a t o r a n d

    t h e r e l e v a n t c h a n g e d e t e c t i o n m e c h a n i s m s a u t o m a t i -

    c a l l y . W e s e l f - s e r v i n g l y n o t e t h a t t h i s a p p r o a c h i s b e -

    i n g p u r s u e d b y t h e W H I P S d a t a w a r e h o u s i n g p r o j e c t a t

    S t a n f o r d 1 1 .

    4 . 4 O p t i m i z a t i o n s

    I n t h i s s e c t i o n w e o u t l i n e t h r e e o p t i m i z a t i o n s t h a t c a n

    i m p r o v e t h e p e r f o r m a n c e o f t h e a r c h i t e c t u r e d e s c r i b e d

    S e c t i o n 3 : l t e r i n g i r r e l e v a n t m o d i c a t i o n s a t t h e s o u r -

    c e s , s t o r i n g a d d i t i o n a l d a t a a t t h e w a r e h o u s e f o r s e l f -

  • 7/30/2019 Problems in Data Warehousing

    5/6

    m a i n t a i n a b i l i t y , " a n d e c i e n t l y m a n a g i n g m u l t i p l e m a -

    t e r i a l i z e d v i e w s .

    4 . 4 . 1 U p d a t e F i l t e r i n g

    W e h a v e s a i d t h a t a l l d a t a m o d i c a t i o n s a t a s o u r c e

    t h a t m a y b e r e l e v a n t t o t h e w a r e h o u s e a r e p r o p a g a t e d

    t o t h e i n t e g r a t o r b y t h e w r a p p e r m o n i t o r . R e t u r n i n g

    t o o u r v i e w m a i n t e n a n c e a n a l o g y a n d c o n s i d e r i n g t h e

    r e l a t i o n a l c a s e a s a n e x a m p l e , w e w o u l d p r o p a g a t e a l l

    i n s e r t s , d e l e t e s , a n d u p d a t e s o n a n y r e l a t i o n t h a t p a r -

    t i c i p a t e s i n a v i e w a t t h e w a r e h o u s e . A n u m b e r o f p a -

    p e r s h a v e b e e n d e v o t e d t o t h e t o p i c o f d e t e r m i n i n g w h e n

    c e r t a i n m o d i c a t i o n s a r e g u a r a n t e e d t o l e a v e a v i e w u n -

    c h a n g e d , e . g . , 1 4 . R e l a t e d t e c h n i q u e s a l l o w d i s t r i b u t e d

    i n t e g r i t y c o n s t r a i n t s t o b e c h e c k e d a t a s i n g l e s i t e w h e n

    c e r t a i n t y p e s o f m o d i c a t i o n s o c c u r 1 0 . W e b e l i e v e

    t h a t t h e s e c l a s s e s o f t e c h n i q u e s c a n b e a d a p t e d t o d a t a

    w a r e h o u s i n g , w h e r e b y a s m a n y c h a n g e s a s p o s s i b l e a r e

    l t e r e d a t t h e s o u r c e r a t h e r t h a n p r o p a g a t e d t o t h e i n -

    t e g r a t o r .

    4 . 4 . 2 S e l f - m a i n t a i n a b i l i t y

    W h e n t h e i n t e g r a t o r r e c e i v e s a c h a n g e n o t i c a t i o n , i n

    o r d e r t o i n t e g r a t e t h a t c h a n g e i n t o t h e w a r e h o u s e t h e

    i n t e g r a t o r m a y n e e d t o f e t c h a d d i t i o n a l d a t a f r o m t h e

    s a m e o r d i e r e n t s o u r c e s . A s a s i m p l e e x a m p l e , i f t h e

    w a r e h o u s e j o i n s t w o r e l a t i o n s R a n d S , a n d t h e r e i s a

    n o t i c a t i o n o f a n i n s e r t t o r e l a t i o n R , t h e n t h e i n s e r t e d

    t u p l e m u s t b e j o i n e d w i t h t h e c o n t e n t s o f r e l a t i o n S . I s -

    s u i n g q u e r i e s t o s o u r c e s c a n i n c u r a p r o c e s s i n g d e l a y , t h e

    q u e r i e s m a y b e e x p e n s i v e , a n d s u c h q u e r i e s a r e t h e b a s i s

    o f t h e w a r e h o u s e m a i n t e n a n c e a n o m a l i e s " a l l u d e d t o i n

    S e c t i o n 4 . 2 2 2 . E v e n w o r s e , w h e n i n f o r m a t i o n s o u r c e s

    a r e h i g h l y s e c u r e o r w h e n t h e y a r e l e g a c y s y s t e m s , a d -

    h o c q u e r i e s m a y n o t b e p e r m i t t e d a t a l l . C o n s e q u e n t l y ,

    i t m a y b e d e s i r a b l e t o e n s u r e t h a t , a s m u c h a s p o s s i b l e ,

    q u e r i e s t o t h e s o u r c e s a r e n o t r e q u i r e d i n o r d e r t o k e e p

    t h e w a r e h o u s e d a t a c o n s i s t e n t .

    I n v i e w m a i n t e n a n c e , w h e n a d d i t i o n a l q u e r i e s o v e r

    b a s e d a t a a r e n e v e r r e q u i r e d t o m a i n t a i n a g i v e n v i e w ,

    t h e n t h e v i e w i s s a i d t o b e s e l f - m a i n t a i n a b l e 1 , 8 . M o s t

    v i e w s a r e n o t f u l l y s e l f - m a i n t a i n a b l e . H o w e v e r , s e l f -

    m a i n t a i n a b i l i t y c a n b e e n s u r e d b y s t o r i n g a d d i t i o n a l

    d a t a a t t h e w a r e h o u s e . F o r e x a m p l e , i n t h e e x t r e m e

    c a s e , a l l r e l e v a n t d a t a f r o m t h e s o u r c e s i s c o p i e d t o t h e

    w a r e h o u s e , a n d v i e w s c a n b e r e c o m p u t e d i n t h e i r e n -

    t i r e t y i f n e c e s s a r y . I t a p p e a r s t o b e a n o p e n r e s e a r c h

    p r o b l e m t o d e t e r m i n e t h e m i n i m u m a m o u n t o f e x t r a

    i n f o r m a t i o n n e e d e d f o r s e l f - m a i n t a i n a b i l i t y o f a g i v e n

    v i e w . A l s o i n t e r e s t i n g i s t o b a l a n c e t h e c o s t o f m a i n -

    t a i n i n g e x t r a d a t a a t t h e w a r e h o u s e a g a i n s t t h e c o s t o f

    i s s u i n g q u e r i e s t o t h e s o u r c e s .

    4 . 4 . 3 M u l t i p l e V i e w O p t i m i z a t i o n

    D a t a w a r e h o u s e s m a y c o n t a i n m u l t i p l e v i e w s , f o r e x a m -

    p l e t o s u p p o r t d i e r e n t t y p e s o f a n a l y s i s . W h e n t h e s e

    v i e w s a r e r e l a t e d t o e a c h o t h e r , e . g . , i f t h e y a r e d e n e d

    o v e r o v e r l a p p i n g p o r t i o n s o f t h e b a s e d a t a , t h e n i t m a y

    b e m o r e e c i e n t n o t t o m a t e r i a l i z e a l l o f t h e v i e w s , b u t

    r a t h e r t o m a t e r i a l i z e c e r t a i n s h a r e d s u b v i e w s , " o r p o r -

    t i o n s o f t h e b a s e d a t a , f r o m w h i c h t h e w a r e h o u s e v i e w s

    c a n b e d e r i v e d . W h e n a p p l i c a b l e , t h i s a p p r o a c h c a n r e -

    d u c e s t o r a g e c o s t s a t t h e w a r e h o u s e a n d c a n r e d u c e t h e

    e o r t r e q u i r e d t o i n t e g r a t e b a s e d a t a m o d i c a t i o n s i n t o

    t h e w a r e h o u s e . H o w e v e r , t h e s e s a v i n g s m u s t b e b a l -

    a n c e d a g a i n s t s l o w e r q u e r y r e s p o n s e a t t h e w a r e h o u s e ,

    s i n c e s o m e v i e w s m a y n o t b e f u l l y m a t e r i a l i z e d .

    4 . 5 M i s c e l l a n e o u s

    W e b r i e y n o t e a f e w o t h e r i m p o r t a n t i s s u e s t h a t a r i s e

    i n a d a t a w a r e h o u s i n g e n v i r o n m e n t .

    W a r e h o u s e m a n a g e m e n t : W e h a v e f o c u s e d p r i -

    m a r i l y o n p r o b l e m s a s s o c i a t e d w i t h t h e s t e a d y

    s t a t e " o f a d a t a w a r e h o u s i n g s y s t e m . H o w e v e r ,

    i s s u e s a s s o c i a t e d w i t h w a r e h o u s e d e s i g n , l o a d i n g ,

    a n d m e t a d a t a m a n a g e m e n t a r e i m p o r t a n t a s w e l l .

    I n f a c t , i t i s t h e s e p r o b l e m s t h a t h a v e r e c e i v e d

    t h e m o s t a t t e n t i o n f r o m a l a r g e s e g m e n t o f t h e

    d a t a w a r e h o u s i n g i n d u s t r y t o d a t e .

    S o u r c e a n d w a r e h o u s e e v o l u t i o n : A w a r e h o u s -

    i n g a r c h i t e c t u r e m u s t g r a c e f u l l y h a n d l e c h a n g e s t o

    t h e i n f o r m a t i o n s o u r c e s : s c h e m a c h a n g e s , a s w e l l

    a s t h e a d d i t i o n o f n e w i n f o r m a t i o n s o u r c e s a n d t h e

    r e m o v a l o f o l d o n e s . I n a d d i t i o n , i t i s l i k e l y t h a t

    c l i e n t s w i l l d e m a n d s c h e m a c h a n g e s a t t h e w a r e -

    h o u s e i t s e l f . A l l o f t h e s e c h a n g e s s h o u l d b e h a n -

    d l e d w i t h a s f e w d i s r u p t i o n s o r m o d i c a t i o n s t o

    o t h e r c o m p o n e n t s o f t h e w a r e h o u s i n g s y s t e m a s

    p o s s i b l e .

    D u p l i c a t e a n d i n c o n s i s t e n t i n f o r m a t i o n : A s i n

    a n y e n v i r o n m e n t i n v o l v i n g m u l t i p l e , h e t e r o g e n e -

    o u s i n f o r m a t i o n s o u r c e s , t h e r e i s t h e l i k e l i h o o d o f

    e n c o u n t e r i n g c o p i e s o f t h e s a m e i n f o r m a t i o n f r o m

    m u l t i p l e s o u r c e s r e p r e s e n t e d i n t h e s a m e o r d i f -

    f e r e n t w a y s , o r r e l a t e d i n f o r m a t i o n f r o m m u l t i p l e

    s o u r c e s t h a t i s i n c o n s i s t e n t . E a r l i e r , w e d e s c r i b e d

    t h e s c r u b b i n g " o f d a t a f r o m s i n g l e s o u r c e s . I n

    a d d i t i o n , i t i s d e s i r a b l e f o r t h e i n t e g r a t o r t o s c r u b

    m u l t i - s o u r c e d a t a , i n o r d e r t o e l i m i n a t e d u p l i c a t e s

    a n d i n c o n s i s t e n c i e s a s m u c h a s p o s s i b l e .

    O u t d a t e d i n f o r m a t i o n : A f e a t u r e o f d a t a w a r e -

    h o u s e s i s t h a t t h e y m a y c o n t a i n h i s t o r i c a l i n f o r m a -

    t i o n e v e n w h e n t h a t i n f o r m a t i o n i s n o t m a i n t a i n e d

    i n t h e s o u r c e s . N e v e r t h e l e s s , i n m a n y c a s e s i t i s

    u n d e s i r a b l e t o k e e p i n f o r m a t i o n f o r e v e r . " T e c h -

    n i q u e s a r e n e e d e d f o r s p e c i f y i n g r e c e n c y r e q u i r e -

    m e n t s i n a w a r e h o u s i n g e n v i r o n m e n t , a n d f o r e n -

    s u r i n g t h a t o u t d a t e d i n f o r m a t i o n i s a u t o m a t i c a l l y

    a n d e c i e n t l y p u r g e d f r o m t h e w a r e h o u s e .

    5 C o n c l u s i o n s

    I n t h e a r e a o f i n t e g r a t i n g m u l t i p l e , d i s t r i b u t e d , h e t -

    e r o g e n e o u s i n f o r m a t i o n s o u r c e s , d a t a w a r e h o u s i n g i s a

    v i a b l e a n d i n s o m e c a s e s s u p e r i o r a l t e r n a t i v e t o t r a -

    d i t i o n a l r e s e a r c h s o l u t i o n s . T r a d i t i o n a l a p p r o a c h e s r e -

    q u e s t , p r o c e s s , a n d m e r g e i n f o r m a t i o n f r o m s o u r c e s

    w h e n q u e r i e s a r e p o s e d . I n t h e d a t a w a r e h o u s i n g a p -

    p r o a c h , i n f o r m a t i o n i s r e q u e s t e d , p r o c e s s e d , a n d m e r g e d

    c o n t i n u o u s l y , s o t h e i n f o r m a t i o n i s r e a d i l y a v a i l a b l e f o r

    d i r e c t q u e r y i n g a n d a n a l y s i s a t t h e w a r e h o u s e .

    A l t h o u g h t h e c o n c e p t o f d a t a w a r e h o u s i n g a l r e a d y

    i s p r o m i n e n t i n t h e d a t a b a s e i n d u s t r y , w e b e l i e v e t h e r e

  • 7/30/2019 Problems in Data Warehousing

    6/6

    a r e a n u m b e r o f i m p o r t a n t o p e n r e s e a r c h p r o b l e m s , d e -

    s c r i b e d a b o v e , t h a t n e e d t o b e s o l v e d t o r e a l i z e t h e e x -

    i b l e , p o w e r f u l , a n d e c i e n t d a t a w a r e h o u s i n g s y s t e m s

    o f t h e f u t u r e .

    A c k n o w l e d g e m e n t s

    T h a n k s t o H e c t o r G a r c i a - M o l i n a f o r r e c o g n i z i n g t h e i m -

    p o r t a n c e o f d a t a w a r e h o u s i n g a n d i n t r o d u c i n g m e t o

    t h e t o p i c , t o t h e m e m b e r s o f t h e W H I P S d a t a w a r e -

    h o u s i n g p r o j e c t a t S t a n f o r d i n c l u d i n g J o a c h i m H a m -

    m e r , W i l b u r t L a b i o , B r i a n L e n t , D a l l a n Q u a s s , a n d Y u e

    Z h u g e , a n d t o E l e n a B a r a l i s , S t e f a n o C e r i , S u d a r s h a n

    C h a w a t h e , A s h i s h G u p t a , V e n k y H a r i n a r a y a n , Y a n n i s

    P a p a k o n s t a n t i n o u , a n d D a l l a n Q u a s s f o r h e l p f u l c o m -

    m e n t s o n a n i n i t i a l d r a f t o f t h i s p a p e r .

    R e f e r e n c e s

    1 J . A . B l a k e l e y , N . C o b u r n , a n d P . - A . L a r s o n . U p -

    d a t i n g d e r i v e d r e l a t i o n s : D e t e c t i n g i r r e l e v a n t a n d

    a u t o n o m o u s l y c o m p u t a b l e u p d a t e s . A C M T r a n s a c -

    t i o n s o n D a t a b a s e S y s t e m s , 1 4 3 : 3 6 9 4 0 0 , S e p t e m -

    b e r 1 9 8 9 .

    2 S . C e r i a n d J . W i d o m . D e r i v i n g p r o d u c t i o n r u l e s

    f o r i n c r e m e n t a l v i e w m a i n t e n a n c e . I n P r o c e e d i n g s

    o f t h e S e v e n t e e n t h I n t e r n a t i o n a l C o n f e r e n c e o n V e r y

    L a r g e D a t a B a s e s , p a g e s 5 7 7 5 8 9 , B a r c e l o n a , S p a i n ,

    S e p t e m b e r 1 9 9 1 .

    3 S . C h a w a t h e , H . G a r c i a - M o l i n a , J . H a m m e r ,

    K . I r e l a n d , Y . P a p a k o n s t a n t i n o u , J . U l l m a n , a n d

    J . W i d o m . T h e T s i m m i s p r o j e c t : I n t e g r a t i o n o f

    h e t e r o g e n e o u s i n f o r m a t i o n s o u r c e s . I n P r o c e e d i n g s

    o f 1 0 0 t h A n n i v e r s a r y M e e t i n g o f t h e I n f o r m a t i o n P r o -

    c e s s i n g S o c i e t y o f J a p a n , p a g e s 7 1 8 , T o k y o , J a p a n ,

    O c t o b e r 1 9 9 4 .

    4 S . C h a w a t h e , A . R a j a r a m a n , H . G a r c i a - M o l i n a ,

    a n d J . W i d o m . C h a n g e d e t e c t i o n i n h i e r a r c h i c a l l y

    s t r u c t u r e d i n f o r m a t i o n . T e c h n i c a l r e p o r t , D e p t .

    o f C o m p u t e r S c i e n c e , S t a n f o r d U n i v e r s i t y , 1 9 9 5 .

    A v a i l a b l e b y a n o n y m o u s f t p t o d b . s t a n f o r d . e d u i n

    l e p u b c h a w a t h e 1 9 9 5 t d i f f 2 - 0 . p s

    5 J . C h o m i c k i . H i s t o r y - l e s s c h e c k i n g o f d y n a m i c i n -

    t e g r i t y c o n s t r a i n t s . I n P r o c e e d i n g s o f t h e E i g h t h I n t e r -

    n a t i o n a l C o n f e r e n c e o n D a t a E n g i n e e r i n g , p a g e s 5 5 7

    5 6 4 , P h o e n i x , A r i z o n a , F e b r u a r y 1 9 9 2 .

    6 I E E E C o m p u t e r . S p e c i a l I s s u e o n H e t e r o g e n e o u s D i s -

    t r i b u t e d D a t a b a s e S y s t e m s , 2 4 1 2 , D e c e m b e r 1 9 9 1 .

    7 J . G r a y , A . B o s w o r t h , A . L a y m a n , a n d H . P i r a h e s h .

    D a t a C u b e : A r e l a t i o n a l o p e r a t o r g e n e r a l i z i n g

    g r o u p - b y , c r o s s - t a b s a n d s u b - t o t a l s . I E E E T r a n s a c -

    t i o n s o n K n o w l e d g e a n d D a t a E n g i n e e r i n g , 1 9 9 5 . T o

    a p p e a r .

    8 A . G u p t a , H . V . J a g a d i s h , a n d I . S . M u m i c k . D a t a

    i n t e g r a t i o n u s i n g s e l f - m a i n t a i n a b l e v i e w s . T e c h -

    n i c a l m e m o r a n d u m , A T & T B e l l L a b o r a t o r i e s ,

    N o v e m b e r 1 9 9 4 .

    9 A . G u p t a a n d I . S . M u m i c k . M a i n t e n a n c e o f m a -

    t e r i a l i z e d v i e w s : P r o b l e m s , t e c h n i q u e s , a n d a p -

    p l i c a t i o n s . I E E E D a t a E n g i n e e r i n g B u l l e t i n , S p e c i a l

    I s s u e o n M a t e r i a l i z e d V i e w s a n d D a t a W a r e h o u s i n g

    1 8 2 : 3 1 8 , J u n e 1 9 9 5 .

    1 0 A . G u p t a a n d J . W i d o m . L o c a l v e r i c a -

    t i o n o f g l o b a l i n t e g r i t y c o n s t r a i n t s i n d i s t r i b u t e d

    d a t a b a s e s . I n P r o c e e d i n g s o f t h e A C M S I G M O D I n -

    t e r n a t i o n a l C o n f e r e n c e o n M a n a g e m e n t o f D a t a , p a g e s

    4 9 5 8 , W a s h i n g t o n , D . C . , M a y 1 9 9 3 .

    1 1 J . H a m m e r , H . G a r c i a - M o l i n a , J . W i d o m ,

    W . L a b i o , a n d Y . Z h u g e . T h e S t a n f o r d D a t a W a r e -

    h o u s i n g P r o j e c t . I E E E D a t a E n g i n e e r i n g B u l l e t i n ,

    S p e c i a l I s s u e o n M a t e r i a l i z e d V i e w s a n d D a t a W a r e -

    h o u s i n g , 1 8 2 : 4 1 4 8 , J u n e 1 9 9 5 .

    1 2 W . H . I n m o n a n d C . K e l l e y . R d b V M S : D e v e l o p -

    i n g t h e D a t a W a r e h o u s e . Q E D P u b l i s h i n g G r o u p ,

    B o s t o n , M a s s a c h u s s e t t s , 1 9 9 3 .

    1 3 W . L a b i o a n d H . G a r c i a - M o l i n a . E c i e n t s n a p s h o t

    d i e r e n t i a l a l g o r i t h m s i n d a t a w a r e h o u s i n g . T e c h -

    n i c a l r e p o r t , D e p t . o f C o m p u t e r S c i e n c e , S t a n f o r d

    U n i v e r s i t y , 1 9 9 5 . A v a i l a b l e b y a n o n y m o u s f t p t o

    d b . s t a n f o r d . e d u i n l e p u b l a b i o 1 9 9 5 w i n d o w . p s

    1 4 A . L e v y a n d Y . S a g i v . Q u e r i e s i n d e p e n d e n t o f u p -

    d a t e s . I n P r o c e e d i n g s o f t h e N i n e t e n t h I n t e r n a t i o n a l

    C o n f e r e n c e o n V e r y L a r g e D a t a B a s e s , p a g e s 1 7 1 1 8 1 ,

    D u b l i n , I r e l a n d , A u g u s t 1 9 9 3 .

    1 5 D . L o m e t a n d J . W i d o m , e d i t o r s . S p e c i a l I s s u e

    o n M a t e r i a l i z e d V i e w s a n d D a t a W a r e h o u s i n g , I E E E

    D a t a E n g i n e e r i n g B u l l e t i n 1 8 2 , J u n e 1 9 9 5 .

    1 6 Y . P a p a k o n s t a n t i n o u , A . G u p t a , H . G a r c i a - M o l i n a ,

    a n d J . U l l m a n . A q u e r y t r a n s l a t i o n s c h e m e f o r

    r a p i d i m p l e m e n t a t i o n o f w r a p p e r s . I n P r o c e e d i n g s

    o f t h e F o u r t h I n t e r n a t i o n a l C o n f e r e n c e o n D e d u c t i v e

    a n d O b j e c t - O r i e n t e d D a t a b a s e s , S i n g a p o r e , D e c e m b e r

    1 9 9 5 .

    1 7 R . R a m a k r i s h n a n , K . A . R o s s , D . S r i v a s t a v a , a n d

    S . S u d a r s h a n . E c i e n t i n c r e m e n t a l e v a l u a t i o n o f

    q u e r i e s w i t h a g g r e g a t i o n . I n P r o c e e d i n g s o f t h e I n t e r -

    n a t i o n a l L o g i c P r o g r a m m i n g S y m p o s i u m , p a g e s 2 0 4

    2 1 8 , 1 9 9 4 .

    1 8 M . D . S o o . B i b l i o g r a p h y o n t e m p o r a l d a t a b a s e s .

    S I G M O D R e c o r d , 2 0 1 : 1 4 2 4 , M a r c h 1 9 9 1 .

    1 9 J . W i d o m a n d S . C e r i . A c t i v e D a t a b a s e S y s t e m s :

    T r i g g e r s a n d R u l e s f o r A d v a n c e d D a t a b a s e P r o c e s s -

    i n g . M o r g a n K a u f m a n n , S a n F r a n c i s c o , C a l i f o r n i a ,

    1 9 9 5 .

    2 0 G . W i e d e r h o l d . M e d i a t o r s i n t h e a r c h i t e c t u r e

    o f f u t u r e i n f o r m a t i o n s y s t e m s . I E E E C o m p u t e r

    2 5 3 : 3 8 4 9 , M a r c h 1 9 9 2 .

    2 1 G . Z h o u , R . H u l l , R . K i n g , a n d J . - C . F r a n c h i t t i .

    D a t a i n t e g r a t i o n a n d w a r e h o u s i n g u s i n g H 2 0 . I E E E

    D a t a E n g i n e e r i n g B u l l e t i n , S p e c i a l I s s u e o n M a t e r i a l -

    i z e d V i e w s a n d D a t a W a r e h o u s i n g , 1 8 2 : 2 9 4 0 , J u n e

    1 9 9 5 .

    2 2 Y . Z h u g e , H . G a r c i a - M o l i n a , J . H a m m e r , a n d

    J . W i d o m . V i e w m a i n t e n a n c e i n a w a r e h o u s i n g e n -

    v i r o n m e n t . I n P r o c e e d i n g s o f t h e A C M S I G M O D I n -

    t e r n a t i o n a l C o n f e r e n c e o n M a n a g e m e n t o f D a t a , p a g e s

    3 1 6 3 2 7 , S a n J o s e , C a l i f o r n i a , M a y 1 9 9 5 .