1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology 1 By_Durand Et Al

Embed Size (px)

Citation preview

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    1/24

    D I M A C S T e c h n i c a l R e p o r t 9 7 - 6 3

    O c t o b e r 1 9 9 7

    A S h o r t C o u r s e i n C o m p u t a t i o n a l M o l e c u l a r B i o l o g y

    1

    b y

    D . D u r a n d

    2

    C o m p u t a t i o n a l B i o l o g y G r o u p , U n i v e r s i t y o f P e n n s y l v a n i a

    D I M A C S , R u t g e r s U n i v e r s i t y

    d u r a n d d @ d i m a c s . r u t g e r s . e d u , h t t p : w w w . c s . p r i n c e t o n . e d u d u r a n d

    M . F a r a c h

    3

    D e p a r t m e n t o f C o m p u t e r S c i e n c e

    R u t g e r s U n i v e r s i t y

    f a r a c h @ c s . r u t g e r s . e d u , h t t p : w w w . c s . r u t g e r s . e d u f a r a c h

    R . R a v i

    4

    G r a d u a t e S c h o o l o f I n d u s t r i a l A d m i n i s t r a t i o n

    C a r n e g i e M e l l o n U n i v e r s i t y

    r a v i @ c m u . e d u

    M . S i n g h

    5

    D e p a r t m e n t o f C o m p u t e r S c i e n c e

    P r i n c e t o n U n i v e r s i t y

    m o n a @ c s . p r i n c e t o n . e d u

    1

    P r e s e n t e d a t t h e F i r s t I n t e r n a t i o n a l U n i v e r s i t y o f B u e n o s A i r e s D i m a c s T u t o r i a l i n B i o i n f o r m a t i c s

    2

    P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F G r a n t s B I R - 9 4 - 1 3 2 1 5 A 0 1 a n d B I R - 9 4 - 1 2 5 9 4 .

    3

    P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F C a r e e r D e v e l o p m e n t A w a r d C C R - 9 5 - 0 1 9 4 2 , N S F G r a n t

    B I R - 9 4 - 1 2 5 9 4 , a n A l f r e d P . S l o a n R e s e a r c h F e l l o w s h i p a n d N A T O G r a n t 9 6 - 0 2 1 5 .

    4

    P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F G r a n t B I R - 9 4 - 1 2 5 9 4 a n d N S F C A R E E R g r a n t 9 6 - 2 5 2 9 7 .

    5

    P e r m a n e n t M e m b e r , S u p p o r t e d b y N S F G r a n t B I R - 9 4 - 1 2 5 9 4 .

    D I M A C S i s a p a r t n e r s h i p o f R u t g e r s U n i v e r s i t y , P r i n c e t o n U n i v e r s i t y , A T & T R e s e a r c h ,

    B e l l c o r e , a n d B e l l L a b o r a t o r i e s .

    D I M A C S i s a n N S F S c i e n c e a n d T e c h n o l o g y C e n t e r , f u n d e d u n d e r c o n t r a c t S T C 9 1 1 9 9 9 9 ;

    a n d a l s o r e c e i v e s s u p p o r t f r o m t h e N e w J e r s e y C o m m i s s i o n o n S c i e n c e a n d T e c h n o l o g y .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    2/24

    A B S T R A C T

    T h e a d v e n t o f r e c o m b i n a n t D N A t e c h n o l o g y d u r i n g t h e 1 9 7 0 s h a s l e d t o a n i n u n d a t i o n o f

    b i o l o g i c a l s e q u e n c e d a t a . T h e c o m p i l a t i o n a n d a n a l y s i s o f D N A a n d p r o t e i n s e q u e n c e s i s

    n o w a f u n d a m e n t a l t a s k i n m o l e c u l a r b i o l o g y r e q u i r i n g . C o m p u t a t i o n a l M o l e c u l a r B i o l o g y i s

    t h e e l d o f c o m p u t e r s c i e n c e t h a t h a s e m e r g e d t o s o l v e a l g o r i t h m i c p r o b l e m s i n d e t e r m i n i n g

    s e q u e n c e s a n d a n a l y z i n g t h e m . S p e c i c r e s e a r c h e o r t s i n t h i s a r e a i n c l u d e s e q u e n c i n g

    a n d m a p p i n g , p a i r w i s e a n d m u l t i p l e s e q u e n c e c o m p a r i s o n , p r o t e i n s t r u c t u r e d e t e r m i n a t i o n

    a n d e v o l u t i o n a r y t r e e r e c o n s t r u c t i o n . S o l u t i o n s t o t h e s e p r o b l e m s c o n t r i b u t e b o t h t o b a s i c

    s c i e n t i c r e s e a r c h a n d p r o d u c t d e v e l o p m e n t i n t h e b i o t e c h n o l o g y i n d u s t r y . W e h a v e d e s i g n e d

    a c o u r s e t o g i v e a b a s i c i n t r o d u c t i o n t o t h e m a j o r a l g o r i t h m i c r e s e a r c h a r e a s i n c o m p u t a t i o n a l

    b i o l o g y .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    3/24

    O v e r v i e w

    1 . G e n e r a l B i o l o g y 3 h o u r s

    a B i o l o g i c a l s e q u e n c e s : D N A , R N A a n d p r o t e i n s .

    b M u t a t i o n s

    c G e n e a n d g e n o m e s t r u c t u r e

    d I n t r o d u c t i o n t o a l i g n m e n t s : w h a t a n d w h y ?

    2 . S e q u e n c e A n a l y s i s 4 . 5 h o u r s

    a D y n a m i c P r o g r a m m i n g : g l o b a l a n d l o c a l p a i r w i s e a l i g n m e n t , g a p p e n a l t y f u n c -

    t i o n s .

    b P a i r w i s e a l i g n m e n t r e v i s i t e d : l o g - o d d s s t a t i s t i c s , s u b s t i t u t i o n m a t r i c e s . D a t a b a s e

    s e a r c h i n g : B L A S T , F A S T A .

    c M u l t i p l e s e q u e n c e a l i g n m e n t .

    3 . S e q u e n c i n g a n d M a p p i n g 3 h o u r s

    a R e c o m b i n a n t D N A t e c h n o l o g y .

    b S e q u e n c e a s s e m b l y .

    c P h y s i c a l m a p p i n g .

    4 . P r o t e i n S t r u c t u r e 4 . 5 h o u r s

    a I n t r o d u c t i o n t o s t r u c t u r a l c l a s s i c a t i o n .

    b T e r t i a r y p r o t e i n s t r u c t u r e p r e d i c t i o n .

    c P r e d i c t i o n o f s e c o n d a r y s t r u c t u r e .

    d M o t i f r e c o g n i t i o n : s t a t i s t i c a l a n d c o m p u t a t i o n a l l e a r n i n g m e t h o d s .

    e P r o t e i n f o l d i n g a n d l a t t i c e m o d e l s .

    5 . E v o l u t i o n a r y T r e e s 3 h o u r s

    a M o l e c u l a r e v o l u t i o n : p a r a l o g y , g e n e t r e e s , m u t a t i o n a l m o d e l s .

    b M u l t i p l e s e q u e n c e a l i g n m e n t a n d t r e e r e c o n s t r u c t i o n .

    c P h y l o g e n y c o n s t r u c t i o n : m a x i m u m l i k e l i h o o d e s t i m a t i o n a n d d i s t a n c e m e t h o d s .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    4/24

    2

    1 G e n e r a l B i o l o g y

    G e n e t i c m a t e r i a l e n c o d e s t h e i n f o r m a t i o n t h a t d e t e r m i n e s t h e f u n c t i o n , d e v e l o p m e n t a n d

    d i e r e n t i a t i o n o f c e l l s , a n d , h e n c e , t h e a p p e a r a n c e o f t h e o r g a n i s m . T h i s i n f o r m a t i o n i s

    s t o r e d i n D N A m o l e c u l e s a n d e x p r e s s e d t h r o u g h t h e f o r m a t i o n o f p r o t e i n s . C e l l d e v e l o p m e n t

    a n d d i e r e n t i a t i o n i s c o n t r o l l e d t h r o u g h g e n e r e g u l a t i o n , w h i c h d e t e r m i n e s w h e n a n d h o w

    m u c h o f a p r o t e i n i s m a d e .

    1 . I n t r o d u c t i o n

    a W h a t i s c o m p u t a t i o n a l m o l e c u l a r b i o l o g y ?

    b W h a t w i l l w e c o v e r t o d a y ?

    2 . G e n e s a n d P r o t e i n S y n t h e s i s i n B a c t e r i a P r o c a r y o t e s

    a C h r o m o s o m e s a r e t h e D N A m o l e c u l e s o n w h i c h g e n e t i c i n f o r m a t i o n i s s t o r e d . A

    g e n e i s a s u b s e q u e n c e o f a c h r o m o s o m e t h a t e n c o d e s a s i n g l e p r o t e i n .

    b D N A

    i . D N A i s a p o l y m e r o f f o u r n u c l e o t i d e s a d e n i n e , c y t o s i n e , g u a n i n e a n d t h y m i n e

    a n d c a n b e v i e w e d a s a s t r i n g o v e r a f o u r l e t t e r a l p h a b e t A , C , G , T .

    i i . N u c l e o t i d e s a r e c o m p o s e d o f a s u g a r , a p h o s p h a t e a n d a b a s i c g r o u p . T h e

    b a s e d e t e r m i n e s t h e i d e n t i t y o f t h e n u c l e o t i d e .

    i i i . D N A s t r u c t u r e : d o u b l e s t r a n d e d , h e l i c a l s t r u c t u r e ; b a s e p a i r i n g A T , G C

    b o n d s ; o r i e n t a t i o n 3 ' 5 ' .

    c D N A r e p l i c a t i o n .

    d P r o t e i n S y n t h e s i s

    i . P r o t e i n s a r e a m i n o a c i d p o l y m e r s . T h e r e a r e t w e n t y a m i n o a c i d s , e a c h c o m -

    p o s e d o f a c a r b o n b a c k b o n e a n d a r e s i d u e t h a t d e t e r m i n e s i t s i d e n t i t y a n d

    i t s c h e m i c a l p r o p e r t i e s .

    i i . P r o t e i n s y n t h e s i s i s a t w o s t e p p r o c e s s m e d i a t e d b y R N A . R N A i s a s i n g l e

    s t r a n d e d n u c l e i c a c i d . I t d i e r s f r o m D N A i n t h a t i t s n u c l e o t i d e s c o n t a i n a

    d i e r e n t s u g a r a n d t h e n u c l e o t i d e , t h i a m i n e , i s r e p l a c e d w i t h t h e n u c l e o t i d e ,

    u r a c i l .

    i i i . F i r s t , D N A i s t r a n s c r i b e d i n t o m e s s e n g e r R N A a l s o c a l l e d m R N A . R e g u l a -

    t o r y s e q u e n c e s p r o m o t e r s , r e p r e s s o r s o n t h e c h r o m o s o m e d e t e r m i n e w h e n

    g e n e s a r e t r a n s c r i b e d .

    i v . S e c o n d , m R N A i s t r a n s l a t e d i n t o t h e a m i n o a c i d s e q u e n c e i t e n c o d e s , a i d e d

    b y t R N A m o l e c u l e s a n d r i b o s o m e s R N A a n d p r o t e i n c o m p l e x e s . A s i t i s

    s y n t h e s i z e d , t h e p r o t e i n t a k e s o n i t s t h r e e - d i m e n s i o n a l s t r u c t u r e .

    3 . G e n e s a n d P r o t e i n S y n t h e s i s i n E u c a r y o t e s h i g h e r " o r g a n i s m s

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    5/24

    3

    a G e n e t i c o r g a n i z a t i o n i n e u c a r y o t e s : t h e n u c l e u s , l i n e a r c h r o m o s o m e s , d i p l o i d y

    a n d p o l y p l o i d y , n u c l e o s o m e s .

    b D N A r e p l i c a t i o n r e v i s i t e d : R e c o m b i n a t i o n a n d m e i o s i s .

    c G e n e s t r u c t u r e i n e u c a r y o t e s : i n t r o n s , e x o n s a n d g e n e s p l i c i n g .

    d M o r e c o m p l e x g e n e r e g u l a t i o n : i n d u c e r s , e n h a n c e r s a n d t r a n s c r i p t i o n f a c t o r s .

    4 . G e n e a n d c h r o m o s o m e m u t a b i l i t y

    a P o i n t m u t a t i o n s

    i . i n s e r t i o n s a n d d e l e t i o n s .

    i i . s u b s t i t u t i o n s : t r a n s i t i o n s v e r s u s t r a n s v e r s i o n s ; s i l e n t , n e u t r a l , n o n s e n s e a n d

    m i s s e n s e m u t a t i o n s ; r e v e r s e m u t a t i o n .

    b G e n o m e r e a r r a n g e m e n t s : d u p l i c a t i o n , d e l e t i o n , i n v e r s i o n a n d t r a n s l o c a t i o n .

    c G e n e f a m i l i e s .

    5 . C o n c l u s i o n

    a S u m m a r y o f t o d a y ' s l e c t u r e .

    b W h a t w i l l w e c o v e r i n t h i s c o u r s e ?

    i . I n t r o d u c t i o n t o s e q u e n c e a l i g n m e n t .

    i i . A n o v e r v i e w o f p r o b l e m s i n c o m p u t a t i o n a l b i o l o g y .

    R e f e r e n c e s

    1 B r u c e A l b e r t s e t a l . M o l e c u l a r B i o l o g y o f t h e C e l l G a r l a n d , 1 9 9 4

    2 L a r r y G o n i c k a n d M a r k W h e e l i s . T h e C a r t o o n G u i d e t o G e n e t i c s H a r p e r P e r e n n i a l , 1 9 9 1

    3 J a m e s L . G o u l d a n d W i l l i a m T . K e e t o n B i o l o g i c a l S c i e n c e W . W . N o r t o n a n d C o . , 1 9 9 6

    4 A . J . F . G r i t h s , J . H . M i l l e r , D . T . S u z u k i , R . C . L e w o n t i n a n d W . M . G e l b a r t A n

    I n t r o d u c t i o n t o G e n e t i c A n a l y s i s F r e e m a n , 1 9 9 6

    5 R . C . K i n g a n d W . D . S t a n s e l d A D i c t i o n a r y o f G e n e t i c s O x f o r d U n i v e r s i t y P r e s s ,

    1 9 9 0

    6 B e n j a m i n L e w i n G e n e s V I O x f o r d U n i v e r s i t y P r e s s , 1 9 9 7

    7 W e n - H s i u n g L i a n d D a n G r a u r F u n d a m e n t a l s o f M o l e c u l a r E v o l u t i o n S i n a u e r A s s o c i a t e s ,

    1 9 9 1

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    6/24

    4

    2 S e q u e n c e A n a l y s i s

    1 . D y n a m i c P r o g r a m m i n g a n d A l i g n m e n t s

    a D e n i t i o n s

    i . E d i t o p e r a t i o n s : I n s e r t i o n s , D e l e t i o n s , S u b s t i t u t i o n s

    i i . E d i t d i s t a n c e

    i i i . G l o b a l A l i g n m e n t

    i v . L o c a l A l i g n m e n t

    b E d i t o p e r a t i o n s c o m e i n a c a n o n i c a l o r d e r i n g

    c T h e r e f o r e , w e c a n c o m p u t e

    S i m A i ; B j = m a x

    8

    :

    S i m A i , 1 ; B j , 1 + S A i ; B j

    S i m A i , 1 ; B j + I A i

    S i m A i ; B j , 1 + I B j

    d I n i t i a l c o n d i t i o n s c h a n g e b e h a v i o u r :

    A s a n e x e r c i s e , w h a t d o w e d o i f w e w a n t d e l e t i o n o f p r e x e s t o b e f r e e ?

    S i m A 0 ; B i = S i m A j ; B 0 = 0

    e H o w d o w e c o m p u t e L o c a l A l i g n m e n t ?

    i . D e l e t i n g p r e x e s i s f r e e .

    i i . D e l e t i n g s u x e s i s f r e e : w e a r e l o o k i n g f o r m a x i m u m i n t h e e n t i r e m a t r i x ,

    n o t j u s t S i m A n ; B m .

    i i i . H o w d o w e a l l o w p r e x e s o f b o t h s t r i n g s t o b e d e l e t e d ?

    L S i m A i ; B j = m a x

    8

    :

    L S i m A i , 1 ; B j , 1 + S A i ; B j

    L S i m A i , 1 ; B j + I A i

    L S i m A i ; B j , 1 + I B j

    0

    N o t e : t h e l a s t c a s e k i c k s i n w h e n p r e x e s a r e b a d l y a l i g n m e n t a n d m u s t b e

    d e l e t e d .

    f G a p s : w h a t i f k d e l e t i o n s i n a r o w c o s t f k , r a t h e r t h a n k f 1 , t h a t i s , a g a p o f

    l e n g t h k i s n o t s i m p l y t h e s a m e a s k i n d i v i d u a l s i n g l e c h a r a c t e r g a p s ?

    i . A n e g a p f u n c t i o n s

    i i . C o n v e x c o n c a v e g a p f u n c t i o n s

    g A l i g n m e n t i n l i n e a r s p a c e .

    2 . S e q u e n c e A n a l y s i s : S t a t i s t i c s a n d P r o g r a m s

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    7/24

    5

    a S e a r c h i n g a s i n g l e s e q u e n c e f o r m a x i m a l s c o r i n g s e g m e n t s

    i . R a n d o m m o d e l s o f a r b i t r a r y g e n e t i c s e q u e n c e s a n d t a r g e t g e n e t i c s e q u e n c e s .

    W h a t a s s u m p t i o n s a r e n e e d e d t o s t u d y t h e s t a t i s t i c s o f t h e m a x i m a l s c o r i n g

    s e g m e n t s ?

    i i . G i v e n a s e q u e n c e a n d a s c o r i n g v e c t o r w i t h a s c o r e f o r e a c h c h a r a c t e r , w h a t

    i s t h e s t a t i s t i c a l s i g n i c a n c e o f i t s m a x i m a l s e g m e n t s c o r e ?

    i i i . W h a t i s t h e d i s t r i b u t i o n o f c h a r a c t e r s i n s e g m e n t s w i t h v e r y h i g h s c o r e s ?

    b C o m p a r i s o n o f t w o s e q u e n c e s f o r m a x i m a l s e g m e n t p a i r s

    i . R a n d o m m o d e l s w i t h o c c u r r e n c e f r e q u e n c i e s , a n d t a r g e t f r e q u e n c i e s f o r a l i g n e d

    p a i r s w i t h n o g a p s . W h a t a s s u m p t i o n s a r e n e e d e d t o s t u d y t h e s t a t i s t i c s

    o f t h e m a x i m a l s e g m e n t p a i r t h e p a i r o f s e g m e n t s f r o m t h e t w o s e q u e n c e s

    w h o s e l o c a l g a p l e s s a l i g n m e n t h a s t h e m a x i m u m s i m i l a r i t y s c o r e o v e r a l l s u c h

    p a i r s ?

    i i . G i v e n a p a i r o f s e q u e n c e s a n d a s c o r i n g m a t r i x w i t h a p a i r w i s e a l i g n m e n t

    s c o r e f o r e v e r y p a i r o f c h a r a c t e r s , w h a t i s t h e s t a t i s t i c a l s i g n i c a n c e o f t h e

    a l i g n m e n t s c o r e o f t h e m a x i m a l s e g m e n t p a i r ?

    i i i . W h a t i s t h e d i s t r i b u t i o n o f t h e a l i g n e d p a i r s o f c h a r a c t e r s i n s e g m e n t p a i r s

    w i t h v e r y h i g h s c o r e s ?

    i v . R e a s o n i n g b a c k w a r d s , g i v e n a t a r g e t d i s t r i b u t i o n o f a l i g n e d p a i r s o f c h a r a c -

    t e r s , h o w c a n w e d e s i g n a s c o r i n g m a t r i x t o b e s t p i c k o u t s u c h a l i g n m e n t s a s

    i t s m a x i m a l s e g m e n t p a i r s ?

    c D a t a b a s e s e a r c h t o o l s : B L A S T a n d F A S T

    i . W h a t a r e t h e y ?

    i i . W h e r e a r e t h e y ? C h e c k o u t , e . g . , h t t p : w w w . n c b i . n l m . n i h . g o v B L A S T

    a n d

    h t t p : s w a r m e r . s t a n f o r d . e d u c g i - b i n f a s t a q - f o r m ? o p t i o n s = s i m p l e .

    i i i . H o w d o t h e y w o r k ?

    i v . H o w c a n o n e i n t e r p r e t t h e i r r e s u l t s ?

    R e f e r e n c e s

    1 M e t h o d s f o r a s s e s s i n g t h e s t a t i s t i c a l s i g n i c a n c e o f m o l e c u l a r s e q u e n c e f e a t u r e s

    b y u s i n g g e n e r a l s c o r i n g s c h e m e s , " S . K a r l i n a n d S . A l t s c h u l , P r o c . o f t h e N a t l .

    A c a d . S c i . U S A , V o l . 8 7 , p p . 2 2 6 4 - 2 2 6 8 1 9 9 0 . T h i s r e f e r e n c e c o n t a i n s a d e s c r i p -

    t i o n w i t h o u t d e r i v a t i o n o f t h e r e s u l t s o n t h e s t a t i s t i c s o f m a x i m a l s e g m e n t s c o r e s

    f o r s i n g l e s e q u e n c e s a n d o f m a x i m a l s e g m e n t p a i r s f o r p a i r s o f s e q u e n c e s , i n t e r m s

    o f t h e s c o r i n g m a t r i c e s u s e d .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    8/24

    6

    2 C h a p t e r 3 . 5 , I n t r o d u c t i o n t o C o m p u t a t i o n a l M o l e c u l a r B i o l o g y , J . S e t u b a l a n d

    J . M e i d a n i s , P W S P u b l i s h i n g C o m p a n y , 1 9 9 7 . T h i s c h a p t e r c o n t a i n s a n i n t u i t i v e

    d e r i v a t i o n o f t h e P A M m a t r i x s c o r e s , a l o n g w i t h b r i e f d e s c r i p t i o n s o f t h e d e s i g n

    o f t h e F A S T a n d B L A S T p r o g r a m s f o r g e n e t i c d a t a b a s e s e a r c h .

    3 I m p r o v e d t o o l s f o r b i o l o g i c a l s e q u e n c e c o m p a r i s o n , " W . R . P e a r s o n a n d D . J . L i p -

    m a n , P r o c . N a t l . A c a d . S c i . U S A , V o l . 8 5 , p p . 2 4 4 4 - 2 4 4 4 8 1 9 8 8 . T h i s p a p e r c o n -

    t a i n s a d e s c r i p t i o n o f t h e F A S T s u i t e o f p r o g r a m s f o r l o c a l s i m i l a r i t y s e a r c h e s o f

    g e n e t i c d a t a b a s e s w i t h a q u e r y s t r i n g .

    4 B a s i c L o c a l A l i g n m e n t S e a r c h T o o l , " S . A l t s c h u l , W . G i s h , W . M i l l e r , E . W . M y -

    e r s , a n d D . J . L i p m a n , J . M o l . B i o l . , 2 1 5 , 4 0 3 - 4 1 0 1 9 9 0 . T h i s i s t h e m a i n a r t i c l e

    d e s c r i b i n g B L A S T , a p o p u l a r p r o g r a m f o r g e n e t i c d a t a b a s e s e a r c h i n g f o r l o c a l

    a l i g n m e n t m a t c h e s w i t h a q u e r y s e q u e n c e . I t a l s o c o n t a i n s s o m e j u s t i c a t i o n f o r

    t h e p a r a m e t e r s e t t i n g u s e d a s d e f a u l t b y t h e p r o g r a m .

    5 A m i n o a c i d s u b s t i t u t i o n m a t r i c e s f r o m a n i n f o r m a t i o n t h e o r e t i c p e r s p e c t i v e , "

    S . A l t s c h u l , J . M o l . B i o l . , 2 1 9 , 5 5 5 - 5 6 5 1 9 9 1 . T h i s p a p e r c o n t a i n s a n i n t e r -

    p r e t a t i o n o f l o c a l a l i g n m e n t s c o r e s i n u n i t s o f b i t s o f i n f o r m a t i o n b y e x a m i n g

    s u b s t i t u t i o n m a t r i c e s i n t e r m s o f t h e i r e n t r o p y . F r o m t h i s p e r s p e c t i v e , t h e p a -

    p e r p r e s c r i b e s t y p i c a l l e n g t h s o f s i g n i c a n t l o c a l a l i g n m e n t s f o r a n a v e r a g e s e a r c h

    u s i n g a p a r t i c u l a r P A M m a t r i x f o r a r e q u i s i t e l e v e l o f s i g n i c a n c e .

    6 S e q u e n c e a l i g n m e n t a n d p e n a l t y c h o i c e , " M . V i n g r o n a n d M . S . W a t e r m a n , J .

    M o l . B i o l . , 2 3 5 , 1 - 1 2 1 9 9 4 . T h i s r e v i e w a r t i c l e c o n t a i n s t w o p a r t s : T h e r s t p a r t

    d e s c r i b e s a p a r a m e t r i c a p p r o a c h t o d e s c r i b i n g o p t i m a l a l i g n m e n t s f o r a l l p o s s i b l e

    s e t t i n g s o f g a p p e n a l t i e s . T h e s e c o n d p a r t d e s c r i b e s a p r o b a b i l i s t i c p h a s e t r a n s i t i o n

    i n t h e b e h a v i o r o f o p t i m a l a l i g n m e n t s a s a n e x p e c t e d s c o r e m e a s u r e a s s o c i a t e d w i t h

    t h e s c o r i n g m a t r i x i s i n c r e a s e d . T h i s t h r e s h o l d i d e n t i e s a b o u n d a r y b e t w e e n l o c a l

    a n d g l o b a l a l i g n m e n t s a n d t h u s h e l p s i n i d e n t i f y i n g f a v o r a b l e s c o r i n g s c h e m e s f o r

    t h e s e t w o d i s t i n c t t y p e s o f a l i g n m e n t s .

    3 . M u l t i p l e S e q u e n c e A l i g n m e n t

    a A n i n t r o d u c t i o n t o M u l t i p l e S e q u e n c e A l i g n m e n t M S A

    i . I n t u i t i v e n o t i o n s o f M S A a s a n e x t e n s i o n o f p a i r w i s e a l i g n m e n t .

    i i . G l o b a l v e r s u s l o c a l M S A

    b A p p l i c a t i o n s o f M S A

    i . C h a r a c t e r i z i n g c o n s e r v e d p a t t e r n s .

    i i . P h y l o g e n y r e c o n s t r u c t i o n

    i i i . S t r u c t u r e p r e d i c t i o n .

    c G l o b a l A l i g n m e n t

    i . A f o r m a l d e n i t i o n o f M S A a s a n o p t i m i z a t i o n p r o b l e m .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    9/24

    7

    i i . S c o r i n g f u n c t i o n s f o r M S A : S u m - o f - P a i r s S P , t r e e a l i g n m e n t T A , s t a r

    a l i g n m e n t

    i i i . C o m p l e x i t y r e s u l t s : h a r d n e s s o f g l o b a l M S A

    d E x a c t m e t h o d s f o r c o n s t r u c t i n g g l o b a l M S A ' s .

    i . S u m - o f - p a i r s u s i n g d y n a m i c p r o g r a m m i n g

    i i . T r e e a l i g n m e n t .

    i i i . I m p r o v i n g p e r f o r m a n c e b y p r u n i n g t h e s e a r c h s p a c e .

    e A p p r o x i m a t i o n a l g o r i t h m s f o r g l o b a l M S A

    f B i o l o g i c a l m e a s u r e s o f M S A q u a l i t y

    i . U s i n g s t r u c t u r a l i n f o r m a t i o n t o c o n s t r u c t o r v a l i d a t e a l i g n m e n t s .

    i i . E x p e r i m e n t a l c o m p a r i s o n s o f M S A a l g o r i t h m s .

    g A s a m p l i n g o f h e u r i s t i c m e t h o d s .

    R e f e r e n c e s

    1 S . C . C h a n , A . K . C . W o n g a n d D . K . Y . C h i u . A S u r v e y o f M u l t i p l e S e q u e n c e C o m -

    p a r i s o n M e t h o d s " B u l l e t i n o f M a t h e m a t i c a l B i o l o g y 1 9 9 2 5 4 : 5 6 3 5 9 8

    2 A d a m G o d z i k . T h e s t r u c t u r a l a l i g n m e n t b e t w e e n t w o p r o t e i n s : I s t h e r e a u n i q u e

    a n s w e r ? " P r o t e i n S c i e n c e 1 9 9 6 5 : 1 3 2 5 1 3 3 8

    3 M . A . M c C l u r e , T . K . V a s i a n d W . M . F i t c h . C o m p a r a t i v e A n a l y s i s o f M u l t i p l e

    P r o t e i n - S e q u e n c e A l i g n m e n t M e t h o d s " M o l . B i o l . E v o l . 1 9 9 4 1 1 : 5 7 1 5 9 2

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    10/24

    8

    3 S e q u e n c i n g a n d M a p p i n g

    1 . R e c o m b i n a n t D N A T e c h n o l o g y

    a C u t , p a s t e a n d c o p y

    i . V e c t o r s : p l a s m i d s , p h a g e s , c o s m i d s a n d b a c t e r i a .

    i i . C u t t e r s : r e s t r i c t i o n e n d o n u c l e a s e s ; c o n s t r u c t i n g r e s t r i c t i o n m a p s ; R F L P s .

    i i i . P a s t e r s : L i g a s e s .

    i v . C l o n i n g : c u t a n d p a s t e i n t o a v e c t o r , t h e n u s e b a c t e r i a t o p r o d u c e s e v e r a l

    c o p i e s ; M e t h o d s f o r r e c o g n i t i o n o f s u c c e s s f u l l y c l o n e d c o p i e s .

    v . C o p y : P o l y m e r a s e C h a i n R e a c t i o n P C R : U s e p o l y m e r a s e a n d p r i m e r s a n k -

    i n g t h e D N A r e g i o n o f i n t e r e s t t o p r o d u c e s e v e r a l c o p i e s w i t h o u t c l o n i n g .

    b B a s i c s e q u e n c i n g

    i . G e l E l e c t r o p h o r e s i s .

    i i . C h a i n - t e r m i n a t e d P C R o r S a n g e r ' s m e t h o d .

    i i i . t i m e p e r m i t t i n g S e q u e n c i n g b y h y b r i d i z a t i o n S B H .

    R e f e r e n c e s

    1 U n d e r s t a n d i n g D N A a n d g e n e c l o n i n g s e c o n d e d . , K . D r l i c a , J o h n W i l e y &

    S o n s , I n c . 1 9 9 2 . T h i s b o o k c o n t a i n s a v e r y r e a d a b l e a c c o u n t o f t h e v a r i o u s

    l a b o r a t o r y m e t h o d s i n r e c o m b i n a n t D N A t e c h n o l o g y .

    2 T o w a r d s D N A s e q u e n c i n g c h i p s , " P . P e v z n e r a n d R . L i p s h u t z , i n P r o c .

    M F C S ' 9 4 , S p r i n g e r - V e r l a g L N C S 8 4 1 , p p . 1 4 3 - 1 5 8 1 9 9 4 . A g o o d s u r v e y

    o n s e q u e n c i n g b y h y b r i d i z a t i o n .

    2 . S e q u e n c e A s s e m b l y

    a B i o l o g y

    i . S h o t g u n s e q u e n c i n g .

    i i . I d e a l c a s e - c o n s e n s u s s e q u e n c e .

    i i i . C o m p l i c a t i o n s : c h i m e r i s m , u n k n o w n o r i e n t a t i o n , r e p e a t e d r e g i o n s , l a c k o f

    c o v e r a g e .

    b M o d e l s

    i . C o v e r a g e e s t i m a t i o n b y s t a t i s t i c a l m o d e l .

    i i . S h o r t e s t C o m m o n S u p e r s t r i n g .

    i i i . A w e a k e r r e c o n s t r u c t i o n m o d e l i n c o r p o r a t i n g o r i e n t a t i o n .

    c M e t h o d s

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    11/24

    9

    i . G r e e d y a l g o r i t h m f o r S C S a n d t h e o r e t i c a l e m b e l l i s h m e n t s .

    i i . H e u r i s t i c m e t h o d s t o a i d G r e e d y : n d o v e r l a p s , b u i l d l a y o u t u s e s t a t i s t i c s t o

    e x t e n d o v e r l a p p i n g m a t c h e s , c o m p u t e a l i g n m e n t f o r c o n s e n s u s t o x e r r o r s .

    R e f e r e n c e s

    1 G e n o m i c m a p p i n g b y n g e r p r i n t i n g r a n d o m c l o n e s : a m a t h e m a t i c a l a n a l y -

    s i s , " E . S . L a n d e r a n d M . S . W a t e r m a n , G e n o m i c s 2 , 2 3 1 - 2 3 9 1 9 8 8 . T h i s

    a r t i c l e c o n t a i n s a p r o b a b i l i s t i c a n a l y s i s o f t h e n u m b e r o f c o n t i g s a n d o c e a n s

    g a p s i n a l a r g e s c a l e s e q u e n c i n g p r o j e c t a s a f u n c t i o n o f t h e n u m b e r o f

    c l o n e s u s e d o r a l t e r n a t i v e l y , t h e c o v e r a g e o f t h e g e n o m e b y t h e c l o n e s u s e d .

    2 E x a c t a n d a p p r o x i m a t e a l g o r i t h m s f o r t h e s e q u e n c e r e c o n s t r u c t i o n p r o b -

    l e m , " J . D . K e c e c i o g l u a n d E . W . M y e r s , A l g o r i t h m i c a 1 3 1 - 2 , 7 - 5 1 1 9 9 5 .

    T h i s p a p e r g i v e s a l g o r i t h m s f o r t h e v a r i o u s s u b p r o b l e m s a r i s i n g i n s e q u e n c e

    a s s e m b l y .

    3 A q u a n t i t a t i v e c o m p a r i s o n o f D N A s e q u e n c e a s s e m b l y p r o g r a m s , "

    M . J . M i l l e r a n d J . I . P o w e l l , J . C o m p u t . B i o l . , 1 4 , 2 5 7 - 2 6 9 1 9 9 4 . T h i s

    p a p e r p r e s e n t s a c o m p a r i s o n o f n e a r l y a d o z e n s e q u e n c e a s s e m b l y p r o g r a m s

    f o r t h e i r a c c u r a c y a n d r e p r o d u c i b i l i t y o f D N A f r a g m e n t s .

    3 . P h y s i c a l M a p p i n g

    a B i o l o g y

    i . H y b r i d i z a t i o n m a p p i n g ; n o n - u n i q u e p r o b e s v e r s u s S e q u e n c e T a g g e d S i t e s

    S T S a s u n i q u e p r o b e s ;

    i i . T y p e s o f c o m m o n e r r o r s : f a l s e p o s i t i v e s a n d n e g a t i v e s , c h i m e r i s m .

    b M o d e l s

    i . I d e a l c a s e : i n t e r v a l g r a p h r e c o g n i t i o n .

    i i . M o d e l i n g e r r o r s : a H a m m i n g d i s t a n c e T r a v e l i n g S a l e s p e r s o n P r o b l e m T S P .

    c M e t h o d s

    i . E x a c t a l g o r i t h m s f o r t e s t i n g c o n s e c u t i v e - o n e s p r o p e r t y a r e u s e f u l i n r e c o g n i z -

    i n g i n t e r v a l g r a p h s ; H e u r i s t i c e x t e n s i o n s t o a l l o w e r r o r s ;

    i i . H e u r i s t i c s f o r s c r e e n i n g c h i m e r i c c l o n e s ; L o c a l i m p r o v e m e n t a l g o r i t h m s f o r

    n d i n g g o o d p r o b e o r d e r i n g s b y s o l v i n g t h e H a m m i n g T S P .

    d O t h e r m e t h o d s t i m e p e r m i t t i n g

    i . R H R a d i a t i o n H y b r i d m a p p i n g - t h e b i o l o g y ; E r r o r t y p e s : f a l s e p o s i t i v e s

    a n d f a l s e n e g a t i v e s ; F o r m u l a t i o n a s n d i n g t h e o r d e r i n g a n d p l a c e m e n t o f

    m a r k e r s ; G r e e d y a n d l o c a l i m p r o v e m e n t a l g o r i t h m s .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    12/24

    1 0

    R e f e r e n c e s

    1 P h y s i c a l m a p p i n g o f c h r o m o s o m e s u s i n g u n i q u e p r o b e s , " F . A l i z a d e h ,

    R . M . K a r p , D . K . W e i s s e r a n d G . Z w e i g , J . C o m p u t . B i o l . 2 2 , 1 5 9 - 1 8 4

    1 9 9 5 . T h i s p a p e r d e s c r i b e s c o m b i n a t o r i a l m e t h o d s f o r c o n s t r u c t i n g p h y s i c a l

    m a p s w i t h S T S p r o b e s , i n c l u d i n g t e c h n i q u e s f o r t h e H a m m i n g T S P s o l u t i o n

    s u c h a s s i m u l a t e d a n n e a l i n g , a n d s c r e e n i n g m e t h o d s f o r e r r o r s i n t h e d a t a .

    2 P h y s i c a l m a p p i n g o f c h r o m o s o m e s : a c o m b i n a t o r i a l p r o b l e m i n m o l e c u l a r

    b i o l o g y , " F . A l i z a d e h , R . M . K a r p , L . A . N e w b e r g a n d D . K . W e i s s e r , A l -

    g o r i t h m i c a 1 3 1 - 2 , 5 2 - 7 6 1 9 9 5 . T h i s p a p e r a d d r e s s e s t h e c l o n e o r d e r i n g

    p r o b l e m g i v e n h y b r i d i z a t i o n n g e r p r i n t s w i t h n o n - u n i q u e p r o b e s b y s o l v i n g

    a n a p p r o x i m a t i o n t o a l i k e l i h o o d f u n c t i o n u s i n g o v e r l a p i n f o r m a t i o n . T h i s

    p a p e r a l s o a r g u e s t h e s t a t i s t i c a l c o n s i s t e n c y o f t h i s m e t h o d .

    3 R a d i a t i o n h y b r i d m a p p i n g : a s o m a t i c c e l l g e n e t i c m e t h o d f o r c o n s t r u c t i n g

    h i g h - r e s o l u t i o n m a p s o f m a m m a l i a n c h r o m o s o m e s , " D . C o x e t a l . , S c i e n c e

    2 5 0 , 2 4 5 - 2 5 0 1 9 9 0 . T h i s p a p e r i n t r o d u c e s t h e R H m a p p i n g t e c h n i q u e .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    13/24

    1 1

    4 P r o t e i n S t r u c t u r e

    1 . I n t r o d u c t i o n

    a P r o t e i n s p l a y a k e y r o l e i n a l m o s t a l l b i o l o g i c a l p r o c e s s e s .

    b A p r o t e i n i s a l i n e a r c h a i n o f a m i n o a c i d r e s i d u e s .

    c A m i n o a c i d s e q u e n c e s p e c i e s t h r e e - d i m e n s i o n a l s t r u c t u r e .

    d T h e f u n c t i o n a l p r o p e r t i e s o f p r o t e i n s d e p e n d o n t h e i r 3 D s t r u c t u r e s .

    e P r o t e i n s t r u c t u r e s c a n b e d e t e r m i n e d v i a e x p e r i m e n t a l m e t h o d s s u c h a s X - r a y

    c r y s t a l l o g r a p h y a n d N M R , b u t s u c h m e t h o d s a r e t i m e c o n s u m i n g .

    f T h e p r o t e i n s t r u c t u r e p r e d i c t i o n p r o b l e m i s : g i v e n t h e a m i n o a c i d s e q u e n c e w h i c h

    s p e c i e s a p r o t e i n , d e t e r m i n e t h e t h r e e - d i m e n s i o n a l s t r u c t u r e o f t h e p r o t e i n .

    2 . L e v e l s o f S t r u c t u r e i n P r o t e i n A r c h i t e c t u r e

    a T h e o n e - d i m e n s i o n a l a m i n o a c i d s e q u e n c e o f a p r o t e i n ' s p o l y p e p t i d e c h a i n i s c a l l e d

    i t s p r i m a r y s t r u c t u r e .

    b A p r o t e i n s t r u c t u r e c a n b e d e s c r i b e d i n t e r m s o f i t s s e c o n d a r y s t r u c t u r e , w h i c h

    a r e l o c a l r e g u l a r s t r u c t u r e s s u c h a s - h e l i c e s a n d - s h e e t s .

    c T h e t e r t i a r y s t r u c t u r e o f a p r o t e i n i s t h e c o m p l e t e 3 D s t r u c t u r e o f t h e p r o t e i n .

    d Q u a r t e n a r y s t r u c t u r e c o n s i s t s o f s e v e r a l p o l y p e p t i d e c h a i n s a r r a n g e d t o g e t h e r .

    3 . T e r t i a r y S t r u c t u r e P r e d i c t i o n

    a E n e r g y m i n i m i z a t i o n m e t h o d s .

    i . M o d e l p r i n c i p a l f o r c e s i n p r o t e i n f o l d i n g .

    i i . S e a r c h c o n f o r m a t i o n a l s p a c e .

    i i i . C u r r e n t l i m i t a t i o n s o f t h e s e a p p r o a c h e s .

    b T h r e a d i n g

    i . T h r e a d i n g a p p r o a c h e s a r e b a s e d o n t h e a s s u m p t i o n t h a t t h e r e a r e a l i m i t e d

    n u m b e r o f p r o t e i n f o l d s .

    i i . F o r m a l d e n i t i o n o f p r o b l e m .

    i i i . T h e t h r e a d i n g p r o b l e m i s N P - c o m p l e t e .

    i v . A p p r o x i m a t i o n a l g o r i t h m s f o r s i m p l e r v e r s i o n s o f t h e t h r e a d i n g p r o b l e m .

    v . H e u r i s t i c s .

    v i . C u r r e n t l i m i t a t i o n s o f t h r e a d i n g .

    4 . S e c o n d a r y S t r u c t u r e P r e d i c t i o n

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    14/24

    1 2

    a T h e s e c o n d a r y s t r u c t u r e p r o b l e m i s : g i v e n a n a m i n o a c i d s e q u e n c e , l a b e l e a c h

    a m i n o a c i d r e s i d u e a s e i t h e r a l p h a h e l i x , b e t a s h e e t o r o t h e r .

    b C e r t a i n a m i n o a c i d r e s i d u e s s h o w m o d e s t p r e f e r e n c e f o r p a r t i c u l a r s e c o n d a r y

    s t r u c t u r e s .

    c A v a r i e t y o f a p p r o a c h e s - f r o m n e u r a l n e t s t o o t h e r s t a t i s t i c a l m e t h o d s - h a v e

    b e e n t r i e d , w i t h o v e r a l l a c c u r a c y s t i l l b e l o w 7 0 .

    5 . M o t i f R e c o g n i t i o n

    a S t r u c t u r a l m o t i f s a r e l o c a l t h r e e - d i m e n s i o n a l f o l d i n g p a t t e r n s t h a t a r e c o m m o n l y

    o c c u r r i n g i n p r o t e i n s t r u c t u r e s , a n d a r e m a d e u p o f p a r t i c u l a r s e c o n d a r y s t r u c t u r e

    u n i t s e . g . , E F - h a n d m o t i f , c o i l e d c o i l s .

    b T h e s t r u c t u r a l m o t i f r e c o g n i t i o n p r o b l e m i s : g i v e n a k n o w n l o c a l 3 D s t r u c t u r e , o r

    m o t i f , d e t e r m i n e w h e t h e r t h i s m o t i f o c c u r s i n a g i v e n a m i n o a c i d s e q u e n c e , a n d

    i f s o , i n w h a t p o s i t i o n s .

    c T h e g e n e r a l f r a m e w o r k f o r m o s t a p p r o a c h e s t o s t r u c t u r a l m o t i f r e c o g n i t i o n i s :

    i . B u i l d a d a t a b a s e o f s u b s e q u e n c e s w h i c h t a k e p a r t i n a m o t i f .

    i i . D e t e r m i n e w h e t h e r n e w s e q u e n c e s s h a r e e n o u g h d i s t i n g u i s h i n g f e a t u r e s w i t h

    t h e k n o w n e x a m p l e s o f t h e m o t i f t o b e c o n s i d e r e d a g o o d c a n d i d a t e o f t h e

    m o t i f .

    d P r o b a b i l i s t i c f r a m e w o r k f o r m o t i f r e c o g n i t i o n

    i . A p p l i c a t i o n t o c o i l e d c o i l s .

    i i . W i n d o w b a s e d a l g o r i t h m .

    e H i d d e n M a r k o v m o d e l a p p r o a c h e s

    i . I n t r o d u c t i o n t o H M M s .

    i i . A p p l y i n g H M M s t o r e c o g n i z i n g E F - h a n d m o t i f s a n d g l o b i n s .

    f L i m i t a t i o n s o f c u r r e n t a p p r o a c h e s t o m o t i f r e c o g n i t i o n .

    i . L i m i t e d n u m b e r o f k n o w n e x a m p l e s f o r a p a r t i c u l a r m o t i f .

    i i . D i e r e n t i a t i n g c l o s e l y r e l a t e d m o t i f s .

    i i i . I t e r a t i v e l e a r n i n g a l g o r i t h m s a s a p o s s i b l e w a y t o o v e r c o m e l i m i t e d d a t a p r o b -

    l e m s .

    6 . L a t t i c e M o d e l s

    a P r o t e i n s a r e r e p r e s e n t e d a s s e l f a v o i d i n g w a l k s o n l a t t i c e s .

    b A p r o t e i n i s m o d e l e d a s a s p e c i c s e q u e n c e o f h y d r o p h o b i c H a n d p o l a r P

    r e s i d u e s .

    c B a s e d o n t h e a s s u m p t i o n t h a t t h e h y d r o p h o b i c e e c t i s t h e d o m i n a n t f o r c e i n

    p r o t e i n f o l d i n g , a s i m p l i e d e n e r g y f u n c t i o n f a v o r s H - H c o n t a c t s .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    15/24

    1 3

    d T h e p r o t e i n s t r u c t u r e p r e d i c t i o n p r o b l e m i n t h e H P l a t t i c e m o d e l i s t h o u g h t t o b e

    N P - c o m p l e t e ; h o w e v e r , t h e r e a r e s o m e a p p r o x i m a t i o n a l g o r i t h m s f o r t h i s p r o b l e m .

    e D o e s i t m a k e s e n s e t o u s e t h e H P - l a t t i c e m o d e l t o t r y t o s o l v e t h e p r o t e i n s t r u c t u r e

    p r e d i c t i o n p r o b l e m ?

    f S i m u l a t i o n s o f p r o t e i n f o l d i n g u s i n g t h e s e s i m p l i e d m o d e l s c a n c a p t u r e s o m e o f

    t h e q u a l i t a t i v e f e a t u r e s o f p r o t e i n f o l d i n g .

    R e f e r e n c e s

    1 C . B r a n d o n a n d J . T o o z e . I n t r o d u c t i o n t o P r o t e i n S t r u c t u r e . G a r l a n d P u b l i s h i n g , I n c . ,

    1 9 9 1 .

    2 F . E i s e n h a b e r , B . P e r s s o n a n d P . A r g o s . P r o t e i n s t r u c t u r e p r e d i c t i o n : r e c o g n i t i o n o f

    p r i m a r y , s e c o n d a r y a n d t e r t i a r y s t r u c t u r a l f e a t u r e s f r o m a m i n o a c i d s e q u e n c e . " C r i t i c a l

    R e v i e w s i n B i o c h e m i s t r y a n d M o l e c u l a r B i o l o g y 1 9 9 5 3 0 1 : 1 9 4 .

    3 T . D e f a y a n d F . C o h e n . E v a l u a t i o n o f C u r r e n t T e c h n i q u e s f o r A b I n i t i o P r o t e i n S t r u c -

    t u r e P r e d i c t i o n . " P R O T E I N S : S t r u c t u r e , F u n c t i o n a n d G e n e t i c s 1 9 9 5 2 3 : 4 3 1 4 4 5 .

    4 C . L e m e r , M . R o o m a n , a n d S . W o d a k . P r o t e i n s t r u c t u r e p r e d i c t i o n b y t h r e a d i n g m e t h -

    o d s : e v a l u a t i o n o f c u r r e n t t e c h n i q u e s . " P R O T E I N S : S t r u c t u r e , F u n c t i o n a n d G e n e t i c s

    1 9 9 5 2 3 : 3 3 7 3 5 5 .

    5 T . A k u t s u a n d S . M i y a n o . O n t h e a p p r o x i m a t i o n o f p r o t e i n t h r e a d i n g . " I n 1 s t A n n u a l

    C o n f e r e n c e o n C o m p u t a t i o n a l M o l e c u l a r B i o l o g y , J a n u a r y 1 9 9 7 .

    6 R . L a t h r o p . P r o t e i n t h r e a d i n g p r o b l e m w i t h s e q u e n c e a m i n o - a c i d a c t i o n p r e f e r e n c e s i s

    N P - c o m p l e t e . " P r o t e i n E n g i n e e r i n g 1 9 9 4 7 : 1 0 5 9 - 1 0 6 8 .

    7 B . B e r g e r . A l g o r i t h m s f o r p r o t e i n s t r u c t u r a l m o t i f r e c o g n i t i o n . " J o u r n a l o f C o m p u t a -

    t i o n a l B i o l o g y 1 9 9 5 2 : 1 2 5 1 3 8 .

    8 B . B e r g e r , D . B . W i l s o n , E . W o l f , T . T o n c h e v , M . M i l l a a n d P . S . K i m . P r e d i c t i n g

    c o i l e d c o i l s u s i n g p a i r w i s e r e s i d u e c o r r e l a t i o n s . " P r o c e e d i n g s o f t h e N a t i o n a l A c a d e m y

    o f S c i e n c e s 1 9 9 5 9 2 : 8 2 5 9 8 2 6 3 .

    9 B . B e r g e r a n d M . S i n g h . A n i t e r a t i v e m e t h o d f o r i m p r o v e d p r o t e i n s t r u c t u r a l m o t i f

    r e c o g n i t i o n . " I n 1 s t A n n u a l C o n f e r e n c e o n C o m p u t a t i o n a l M o l e c u l a r B i o l o g y , J a n u a r y

    1 9 9 7 . J o u r n a l o f C o m p u t a t i o n a l B i o l o g y , i n p r e s s .

    1 0 L . R . R a b i n e r a n d B . H . J u a n g . A n i n t r o d u c t i o n t o H i d d e n M a r k o v m o d e l s . " I E E E

    A S S P M a g a z i n e 1 9 8 6 3 1 : 4 - 1 6 .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    16/24

    1 4

    1 1 A . K r o g h , M . B r o w n , S . M i a n , K . S j o l a n d e r a n d D . H a u s s l e r . H i d d e n M a r k o v m o d e l s

    i n c o m p u t a t i o n a l b i o l o g y : A p p l i c a t i o n s t o p r o t e i n m o d e l i n g . " J o u r n a l o f M o l e c u l a r

    B i o l o g y 1 9 9 4 2 3 5 : 1 5 0 1 1 5 3 1 .

    1 2 H . S . C h a n a n d K . D i l l . T h e p r o t e i n f o l d i n g p r o b l e m . " P h y s i c s T o d a y , F e b r u a r y 1 9 9 3 .

    1 3 H . L i , R . H e l l i n g , C . T a n g a n d N . W i n g r e e n . E m e r g e n c e o f p r e f e r r e d s t r u c t u r e s i n a

    s i m p l e m o d e l o f p r o t e i n f o l d i n g . " S c i e n c e 1 9 9 6 2 7 3 : 6 6 6 6 6 9 .

    1 4 G . C r i p p e n . F a i l u r e s o f i n v e r s e f o l d i n g a n d t h r e a d i n g w i t h g a p p e d a l i g n m e n t . " P R O -

    T E I N S : S t r u c t u r e , F u n c t i o n a n d G e n e t i c s 1 9 9 6 2 6 : 1 6 7 1 7 1 .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    17/24

    1 5

    5 E v o l u t i o n a r y T r e e s

    1 . H o w d o e s D a r w i n i a n e v o l u t i o n w o r k ?

    a W h a t i s s e l e c t i o n ?

    b W h a t a r e m u t a t i o n s ?

    2 . W h a t i s a s p e c i e s ?

    a H o w a r e s p e c i e s d e n e d ?

    b H o w a r e e x t a n t s p e c i e s r e l a t e d ?

    c H o w a r e e x t a n t s p e c i e s r e l a t e d t o e x t i n c t s p e c i e s ?

    d W h a t i s a s p e c i a t i o n e v e n t ?

    3 . H o w i s D N A r e l a t e d t o e v o l u t i o n ?

    a E v o l u t i o n o f D N A p r o c e e d s a l o n g a b i n a r y t r e e . H o w d o e s R e c o m b i n a t i o n v i o l a t e

    t h i s a s s u m p t i o n ?

    b S e q u e n c e s a r e r e l a t e d b y h o m o l o g y o r p a r a l o g y

    4 . W h a t i s t h e d i e r e n c e b e t w e e n a G e n e T r e e a n d a S p e c i e s T r e e ?

    5 . W h a t o b s e r v a b l e s c a n b e u s e d t o b u i l d t r e e s f r o m e x t a n t s p e c i e s ?

    a M o r p h o l o g y f o r s p e c i e s t r e e

    b G e n o m i c s f o r g e n e t r e e a n d m a y b e f o r s p e c i e s t r e e

    6 . G i v e n o b s e r v a t i o n s , h o w d o w e n d t r e e s ?

    a P a r s i m o n y

    i . S t e i n e r t r e e i n h a m m i n g s p a c e

    i i . A s s u m e s t h a t m u t a t i o n s a r e r a r e d e v e l o p e d f o r m o r p h o l o g y

    i i i . M A X - S N P h a r d

    i v . U n s t a b l e

    v . P o p u l a r

    b M a x i m u m L i k e l i h o o d E s t i m a t i o n M L E

    i . W h a t i s s t o c h a s t i c m o d e l o f e v o l u t i o n ?

    i i . W h i c h m o d e l s a r e t r a c t a b l e ?

    i i i . W h a t u n r e a s o n a b l e a s s u m p t i o n s d o t h e m o d e l s m a k e ?

    i v . H o w c a n w e s o l v e s u c h m o d e l s w i t h o u t s o l v i n g e n t i r e M L E p r o b l e m i . e . a r e

    t h e r e g o o d h a c k s ? ?

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    18/24

    1 6

    c D i s t a n c e M e t h o d s

    i . W h a t i s a n a d d i t i v e m e t r i c ?

    i i . W h a t i s a n u l t r a m e t r i c ?

    i i i . U l t r a m e t r i c s h a v e s u b d o m i n a n c e p r o p e r t y .

    i v . O p t i m a l A l g o r i t h m f o r L

    1

    f o r U l t r a m e t r i c s

    v . P i v o t r e l a t i o n s h i p b e t w e e n U l t r a m e t r i c s a n d A d d i t i v e m e t r i c s

    v i . H e u r i s t i c s

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    19/24

    1 7

    P r o b l e m S e t 1

    1 . a G i v e n o n l y t h e r s t t w o n u c l e o t i d e s o f a c o d o n , i n h o w m a n y c a s e s i n t h e g e n e t i c

    c o d e w o u l d y o u f a i l t o k n o w t h e a m i n o a c i d s p e c i e d b y t h a t c o d o n ?

    b I f y o u k n e w t h e a m i n o a c i d s p e c i e d b y a c o d o n , i n h o w m a n y c a s e s w o u l d y o u

    b e u n a b l e t o d e t e r m i n e i t s r s t t w o n u c l e o t i d e s ?

    2 . Y o u a r e s t u d y i n g a g e n e i n E . C o l i t h a t s p e c i e s a p r o t e i n . A p a r t o f i t s s e q u e n c e i s :

    A L A P R O T R P S E R G L U L Y S C Y S H I S

    Y o u r e c o v e r a s e r i e s o f m u t a n t s f o r t h i s g e n e t h a t s h o w n o e n z y m a t i c a c t i v i t y . I s o l a t i n g

    t h e m u t a n t e n z y m e p r o d u c t s , y o u n d t h e f o l l o w i n g s e q u e n c e s :

    M u t a n t 1 : A L A P R O T R P A R G G L U L Y S C Y S H I S

    M u t a n t 2 : A L A P R O

    M u t a n t 3 : A L A P R O G L Y V A L L Y S A S N C Y S H I S

    M u t a n t 4 : A L A P R O T R P P H E P H E T H R C Y S H I S

    W h a t i s t h e m o l e c u l a r b a s i s f o r e a c h m u t a t i o n ? W h a t i s t h e D N A s e q u e n c e t h a t

    s p e c i e s t h i s p a r t o f t h e p r o t e i n ?

    3 . A d o u b l e - s t r a n d e d D N A s e q u e n c e , s h o w n b e l o w , p r o d u c e s , i n v i v o , a p o l y p e p t i d e t h a t

    i s v e a m i n o a c i d s l o n g .

    T A C A T G A T C A T T T C A C G G A A T T T C T A G C A T G T A

    A T G T A C T A G T A A A G T G C C T T A A A G A T C G T A C A T

    a W h i c h s t r a n d o f D N A i s t r a n s c r i b e d , a n d i n w h i c h d i r e c t i o n ?

    b L a b e l t h e 5 ' a n d 3 ' e n d s o f e a c h s t r a n d .

    c I f a n i n v e r s i o n o c c u r s b e t w e e n t h e s e c o n d a n d t h i r d t r i p l e t s f r o m t h e l e f t a n d r i g h t

    e n d s , r e s p e c t i v e l y , a n d t h e s a m e s t r a n d o f D N A i s t r a n s c r i b e d , h o w l o n g w i l l t h e

    r e s u l t a n t p o l y p e p t i d e b e ?

    d A s s u m e t h a t t h e o r i g i n a l m o l e c u l e i s i n t a c t a n d t h a t t r a n s c r i p t i o n o c c u r s o n t h e

    b o t t o m s t r a n d f r o m l e f t t o r i g h t . G i v e t h e b a s e s e q u e n c e , a n d l a b e l t h e 5 ' a n d 3 '

    e n d s o f t h e a n t i c o d o n t h a t i n s e r t s t h e f o u r t h a m i n o a c i d i n t o t h e n a s c e n t p o l y p e p -

    t i d e . W h a t i s t h i s a m i n o a c i d ?

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    20/24

    1 8

    P r o b l e m S e t 2

    1 . S u p p o s e w e w a n t t o c o m p u t e t h e L C S o f t w o s t r i n g s , a s l o n g a s t h a t L C S i s o f l e n g t h

    a t l e a s t n , k , b u t i f i t i s l e s s t h a n t h i s l e n g t h , w e d o n ' t c a r e h o w l o n g i t i s . G i v e a n

    a l g o r i t h m w h i c h s o l v e s t h i s p r o b l e m i n t i m e O n k f o r t w o s t r i n g s o f l e n g t h n .

    2 . a S u p p o s e w e a r e g i v e n t w o s e q u e n c e s a n d a s c o r i n g m a t r i x w h i c h w e u s e t o n d a

    m a x i m u m s i m i l a r i t y g l o b a l a l i g n m e n t , w i t h e x p l i c i t s c o r e s f o r d i e r e n t i n d e l s i n s e r t i o n s

    o r d e l e t i o n s t h a t a l i g n d i e r e n t c h a r a c t e r s a g a i n s t a b l a n k . S u p p o s e n o w t h a t w e a d d

    a x e d n u m b e r a t o t h e s c o r e f o r a l i g n i n g a n y p a i r o f c h a r a c t e r s . W h a t q u a n t i t y i n

    t e r m s o f a m u s t w e a d d t o t h e s c o r e o f a n y i n d e l , s o t h a t w e p r e s e r v e t h e r e l a t i v e s c o r e s

    o f d i e r e n t g l o b a l a l i g n m e n t s i . e . , s o t h a t t h e l a r g e s t s c o r i n g a l i g n m e n t c o n t i n u e s t o

    s t a y t h e l a r g e s t u n d e r t h e n e w s c o r i n g s c h e m e , t h e s e c o n d l a r g e s t i s t h e s e c o n d l a r g e s t

    i n t h e n e w s c h e m e a n d s o o n ? W h y ?

    b F o r g l o b a l a l i g n m e n t s , i s t h e r e l i k e l y t o b e a l o g - o d d s i n t e r p r e t a t i o n f o r s c o r i n g

    m a t r i c e s a n a l o g o u s t o t h a t f o r l o c a l a l i g n m e n t s ? W h y o r w h y n o t ?

    3 . W e s a w i n c l a s s t h a t a t y p i c a l s c o r e e n t r y s

    i j

    f o r a p a i r o f c h a r a c t e r s i a n d j i n t h e

    P A M - 1 m a t r i x i s o f t h e f o r m

    1

    l o g

    e

    q 1

    i j

    p

    i

    p

    j

    f o r s o m e c o n s t a n t . H e r e t h e t e r m q 1

    i j

    r e p r e s e n t s t h e t r a n s i t i o n p r o b a b i l i t y o f t h e u n d i r e c t e d t r a n s i t i o n b e t w e e n i a n d j i n

    o n e u n i t o f e v o l u t i o n a r y t i m e . W r i t e o u t a f o r m u l a f o r q k

    i j

    , t h e t r a n s i t i o n p r o b a b i l i t y

    o f c h a n g i n g f r o m i t o j i n k u n i t s o f t i m e . N o t e t h a t t h e i ; j - t h e n t r y i n t h e P A M - k

    m a t r i x i s o f t h e f o r m

    1

    0

    l o g

    e

    q k

    i j

    p

    i

    p

    j

    f o r s o m e o t h e r c o n s t a n t

    0

    . U s e t h i s f o r m u l a , a n d

    t h e f a c t t h a t q 1

    i j

    = q 1

    j i

    f o r e v e r y p a i r i ; j t o s h o w t h a t P A M - k i s a s y m m e t r i c

    m a t r i x f o r a l l k 1 .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    21/24

    1 9

    P r o b l e m S e t 3

    1 . S h o w t h a t a n o p t i m a l a l i g n m e n t o f k s p e c i e s c a n b e o b t a i n e d u s i n g d y n a m i c p r o g r a m -

    m i n g i n O 2

    k

    N

    k

    e v a l u a t i o n s o f a c o s t f u n c t i o n , d , u s i n g O N

    k

    s p a c e .

    2 . F o r t h i s p r o b l e m , u s e t h e s u m - o f - p a i r s m e t r i c a n d f o l l o w t h e o n c e a g a p , a l w a y s a

    g a p " r u l e . C o n s i d e r t h e f o l l o w i n g t h r e e s e q u e n c e s .

    1 A C G T C

    2 T C C T

    3 A C G T C C T

    a C o m p u t e a l l t h r e e o p t i m a l p a i r w i s e a l i g n m e n t s a s s u m i n g a c o s t o f 2 f o r e a c h

    d e l e t i o n a n d 3 f o r e a c h s u b s t i t u t i o n . G i v e t h e c o s t o f e a c h a l i g n m e n t .

    b C o m p u t e a p r o g r e s s i v e m u l t i p l e a l i g n m e n t s t a r t i n g w i t h t h e p a i r w i s e a l i g n m e n t

    1 , 3 . N o w u s e t h e p a i r w i s e a l i g n m e n t 2 , 3 t o m e r g e s e q u e n c e 2 i n t o t h e m u l t i p l e

    a l i g n m e n t . S h o w t h e r e s u l t i n g a l i g n m e n t a n d g i v e i t s c o s t .

    c R e p e a t p r o b l e m 2 , b u t t h i s t i m e u s e t h e p a i r w i s e a l i g n m e n t 1 , 2 t o m e r g e s e -

    q u e n c e 2 i n t o t h e m u l t i p l e a l i g n m e n t . S h o w t h e r e s u l t i n g a l i g n m e n t a n d g i v e i t s

    c o s t . A r e t h e t w o a l i g n m e n t s t h e s a m e ? W h i c h h a s a l o w e r c o s t ?

    d W h a t i s t h e o p t i m a l m u l t i p l e a l i g n m e n t ?

    e S u p p o s e y o u c h a r g e a c o s t o f 1 f o r e a c h d e l e t i o n a n d 1 f o r e a c h s u b s t i t u t i o n . W h a t

    i s t h e o p t i m a l a l i g n m e n t ? I s i t u n i q u e ?

    3 . S u p p o s e y o u a r e s t u d y i n g a n e w p l a s m i d w i t h c i r c u l a r D N A t h a t i s 2 5 0 0 b a s e s l o n g ,

    w h o s e r e s t r i c t i o n m a p y o u w i s h t o c o n s t r u c t . Y o u t r e a t t h e p l a s m i d D N A w i t h a s e t

    o f r e s t r i c t i o n e n d o n u c l e a s e s a n d m e a s u r e t h e s i z e o f t h e r e s u l t i n g f r a g m e n t s b y g e l

    e l e c t r o p h o r e s i s t o o b t a i n t h e f o l l o w i n g r e s u l t s .

    E c o R I - 2 5 0 0

    H i n d I I I - 2 5 0 0

    P s t I - 2 5 0 0

    M b o I - 1 3 0 0 , 8 0 0 , 4 0 0

    M b o I + E c o R I - 1 3 0 0 , 6 0 0 , 4 0 0 , 2 0 0

    M b o I + H i n d I I I - 1 3 0 0 , 8 0 0 , 3 0 0 , 1 0 0

    M b o I + P s t I - 1 0 0 0 , 8 0 0 , 4 0 0 , 3 0 0

    E c o R I + H i n d I I I - 2 0 0 0 , 5 0 0

    E c o R I + P s t I - 1 6 0 0 , 9 0 0

    H i n d I I I + P s t I - 2 1 0 0 , 4 0 0

    C o n s t r u c t a r e s t r i c t i o n m a p b a s e d o n t h i s i n f o r m a t i o n . T o b r e a k t h e c i r c u l a r i t y , p l a c e

    b a s e p a i r 1 a t t h e H i n d I I I c l e a v a g e s i t e .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    22/24

    2 0

    P r o b l e m S e t 4

    1 . I n t h i s p r o b l e m , y o u m u s t g u r e o u t h o w m a n y c l o n e s y o u r e q u i r e f o r a l a r g e - s c a l e

    s e q u e n c i n g p r o j e c t o f a b a c t e r i u m w h o s e g e n o m e i s 2 m i l l i o n b a s e s l o n g . A s s u m e t h a t

    y o u b r e a k t h e g e n o m e i n t o f r a g m e n t s o f a v e r a g e l e n g t h 2 0 0 0 b a s e s e a c h , a n d t h a t y o u

    c a n d e t e c t c l o n e o v e r l a p s o f 1 0 o r m o r e . A s y o u r e - a s s e m b l e t h e c l o n e s i n t o c o n t i g s ,

    s o m e g a p s o c e a n s " a r e i n e v i t a b l e , a n d s u p p o s e y o u a r e w i l l i n g t o t o l e r a t e 1 0 g a p s .

    a H o w m a n y c l o n e s d o y o u e x p e c t y o u w i l l n e e d ? W h a t i s t h e i r c o v e r a g e ?

    b W h a t i s t h e p r o b a b i l i t y t h a t y o u w i l l h a v e a g a p o f a t l e a s t 2 0 , 0 0 0 b a s e s a t t h e

    e n d o f o n e o f y o u r c o n t i g s ?

    2 . C o n s i d e r a m a p p i n g p r o b l e m w i t h n o n - u n i q u e p r o b e s t h a t o c c u r a t a P o i s s o n r a t e o f

    a l o n g t h e c h r o m o s o m e a n d u n i t c l o n e s d i s t r i b u t e d u n i f o r m l y o v e r t h e e n t i r e c h r o -

    m o s o m e t h a t c o v e r i t c o m p l e t e l y . S u p p o s e w e o b t a i n t h e o r d e r i n g o f t h e c l o n e s u s i n g

    H a m m i n g d i s t a n c e i n f o r m a t i o n o f h y b r i d i z a t i o n w i t h p r o b e s s a y b y s o l v i n g t h e H a m -

    m i n g T S P p r o b l e m t h a t a r i s e s f r o m t h i s i n s t a n c e . T h e g o a l i n t h i s p r o b l e m i s t o s h o w

    t h a t t h i s m e t h o d i s s t a t i s t i c a l l y c o n s i s t e n t - i n o t h e r w o r d s , a s t h e n u m b e r o f p r o b e s

    u s e d i n t h e h y b r i d i z a t i o n e x p e r i m e n t i n c r e a s e s i . e . , a s i n c r e a s e s , t h e o r d e r i n g o u t -

    p u t b y a n y m e t h o d b a s e d o n t h e H a m m i n g d i s t a n c e s a p p r o a c h e s t h e t r u e o r d e r i n g o f

    t h e c l o n e s w i t h p r o b a b i l i t y o n e .

    T o s o l v e t h i s p r o b l e m , r s t d e n e a t r u e d i s t a n c e " d b e t w e e n t w o u n i t c l o n e s , s a y ,

    a s t h e s u m o f t h e d i e r e n c e s b e t w e e n t h e i r r e s p e c t i v e e n d p o i n t s . T h e n i t s u c e s t o

    s h o w t h a t a s t h e n u m b e r o f p r o b e s i n c r e a s e s , t h e r e l a t i v e o r d e r i n g b e t w e e n p a i r s o f

    c l o n e s a c c o r d i n g t o t h e H a m m i n g d i s t a n c e a p p r o a c h e s t h e o r d e r i n g a c c o r d i n g t o t h e

    t r u e d i s t a n c e d e n e d a b o v e . I n p a r t i c u l a r , f o r p a i r s i ; j a n d k ; l , i f t h e e s t i m a t e d

    H a m m i n g d i s t a n c e s d u e t o t h e p r o b e h y b r i d i z a t i o n s a r e d e n o t e d b y h , t h e n s h o w t h a t

    h

    i j

    h

    k l

    d

    i j

    d

    k l

    w i t h p r o b a b i l i t y o n e a s t h e n u m b e r o f p r o b e s i n c r e a s e s .

    3 . S h o w i f t h e s c o r e f u n c t i o n f o r p r o t e i n t h r e a d i n g i g n o r e s i n t e r a c t i o n s b e t w e e n a m i n o

    a c i d s , w h i l e s t i l l a l l o w i n g v a r i a b l e - l e n g t h l o o p r e g i o n s , t h e t h r e a d i n g p r o b l e m c a n b e

    s o l v e d i n p o l y n o m i a l t i m e .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    23/24

    2 1

    P r o b l e m S e t 5

    1 . C o n s i d e r t h e w i n d o w b a s e d a p p r o a c h t o m o t i f r e c o g n i t i o n g i v e n i n c l a s s . W e a r e

    g i v e n a n a m i n o a c i d s u b s e q u e n c e a

    1

    ; a

    2

    ; : : : ; a

    n

    , s c o r e s s

    1

    ; s

    2

    ; : : : ; s

    n , w + 1

    , w h e r e s

    i

    i s

    t h e s c o r e " o f a w - l o n g w i n d o w s t a r t i n g a t a m i n o a c i d a

    i

    . E . g . , f o r w i n d o w l e n g t h

    5 , s

    1

    i s t h e s c o r e o f t h e w i n d o w c o n t a i n i n g a m i n o a c i d s a

    1

    ; a

    2

    ; a

    3

    ; a

    4

    ; a

    5

    . S h o w t h a t

    n d i n g t h e m a x i m u m w i n d o w s c o r e s f o r a l l a m i n o a c i d r e s i d u e s i . e . , f o r e a c h a m i n o

    a c i d r e s i d u e , n d i n g t h e m a x i m u m s c o r e o f a n y w i n d o w c o n t a i n i n g i t c a n b e c o m p u t e d

    i n O n t i m e , i n d e p e n d e n t o f t h e w i n d o w s i z e w .

    2 . a G i v e a n e x a m p l e o f a n H P p r o t e i n s e q u e n c e o f l e n g t h n f o r w h i c h h a l f o f t h e r e s i d u e s

    a r e h y d r o p h o b i c b u t f o r w h i c h t h e r e a r e n o p o s s i b l e H - H c o n t a c t s o n a s q u a r e l a t t i c e .

    b G i v e a n o t h e r s i m p l e l a t t i c e f o r w h i c h t h e s a m e s e q u e n c e c a n g e t O n H - H c o n t a c t s .

    3 . S h o w t h a t t h e n u m b e r o f p o s s i b l e s t r u c t u r e s s e l f - a v o i d i n g w a l k s o f l e n g t h n

    2

    o n a

    n n s q u a r e l a t t i c e i s e x p o n e n t i a l i n n .

  • 7/30/2019 1997_Unknown_DIMACS Technical Report 97-63 October 1997 a Short Course in Computational Molecular Biology

    24/24

    2 2

    P r o b l e m S e t 6

    G e n e r a l n o t e s : L e t T b e a r o o t e d t r e e w i t h n o d e g r e e 1 n o d e s a n d w i t h l e a f l a b e l s d r a w n

    f r o m a s e t S . W e c a n r e p r e s e n t T e i t h e r i n t h e t r a d i t i o n a l w a y w i t h p o i n t e r s f r o m p a r e n t s

    t o c h i l d r e n , o r a s f o l l o w s . L a b e l e a c h i n t e r n a l n o d e w i t h t h e s e t o f l a b e l s o n t h e l e a v e s b e l o w

    i t . T h e n w e c a n d e n e T b y t h e s e t o f l a b e l s o n t h e i n t e r n a l n o d e s o f T . F o r e x a m p l e , t h e

    t r e e f f a ; b g ; f a ; b ; c g ; f d ; e g ; f a ; b ; c ; d ; e g g d e s c r i b e s a t r e e w h e r e t h e r o o t h a s t w o s u b t r e e s ,

    o n e c o n t a i n i n g l e a v e s d , e , a n d t h e i r c o m m o n p a r e n t . T h e o t h e r s u b t r e e b e l o w t h e r o o t h a s

    t w o i n t e r n a l n o d e s , a n d s o f o r t h .

    1 . C o n s i d e r t h e S p e c i e s t r e e f f a ; b g ; f a ; b ; c g ; f d ; e g ; f f ; g g ; f d ; e ; f ; g g ; f a ; b ; c ; d ; e ; f ; g g g

    a n d t h e G e n e t r e e f f a ; d g ; f a ; c ; d g ; f f ; g g ; f e ; f ; g g ; f b ; e ; f ; g g ; f a ; b ; c ; d ; e ; f ; g g g . W h a t

    i s t h e s m a l l e s t n u m b e r o f d u p l i c a t i o n p a r a l o g o u s e v e n t s w h i c h c a n e x p l a i n t h i s a r -

    r a n g e m e n t ?

    2 . W e s h o w e d t h a t u l t r a m e t r i c s h a v e t h e s u b d o m i n a n t p r o p e r t y , t h a t i s , f o r e v e r y m a t r i x

    M , t h e r e i s a n u l t r a m e t r i c U

    M

    M , s u c h t h a t i f U

    0

    i s a n u l t r a m e t r i c a n d U

    0

    M , t h e n

    U

    0

    U

    M

    . W e c a n s i m i l a r l y d e n e t h e s u p e r d o m i n a n c e p r o p e r t y b y r e p l a c i n g w i t h

    i n t h e a b o v e d e n i t i o n . F o r e a c h o f t h e f o l l o w i n g , p r o v e o r g i v e a c o u n t e r - e x a m p l e .

    a U l t r a m e t r i c s h a v e t h e s u p e r d o m i n a n t p r o p e r t y .

    b A d d i t i v e m e t r i c s h a v e t h e s u b d o m i n a n t p r o p e r t y .

    c A d d i t i v e m e t r i c s h a v e t h e s u p e r d o m i n a n t p r o p e r t y .

    d M e t r i c s h a v e t h e s u b d o m i n a n t p r o p e r t y .

    e M e t r i c s h a v e t h e s u p e r d o m i n a n t p r o p e r t y .

    3 . I n c l a s s , w e s h o w e d t h a t b y r o o t i n g a t r e e T a t a l e a f a w e c a n d e n e a c e n t r o i d C

    a

    s u c h t h a t T + C

    a

    i s u l t r a m e t r i c . S u p p o s e w e w a n t e d t o r o o t T a t t h e m i d p o i n t b e t w e e n

    t w o l e a v e s a a n d b . H o w w o u l d y o u d e n e C

    a b

    s o t h a t T + C

    a b

    i s u l t r a m e t r i c ?