julie d.thompson, desmond g.higgins and toby j.gibson- clustal w: improving the sensitivity of...

Upload: yopghm698

Post on 06-Apr-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    1/8

    N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 2 4 6 7 3 - 4 6 8 0

    CLUSTAL W : i m p r o v i n g t h e s e n s i t i v i t y o f p r o g r e s s i v em u l t i p l e s e q u e n c e a l i g n m e n t t h r o u g h s e q u e n c e w e i g h t i n g ,p o s i t i o n - s p e c i f i c g a p p e n a l t i e s a n d w e i g h t m a t r i x c h o i c eJ u l i e D . T h o m p s o n , D e s m o n d G . H i g g i n s + a n d T o b y J . G i b s o n *E u r o p e a n M o l e c u l a r B i o l o g y L a b o r a t o r y , P o s t f a c h 1 0 2 2 0 9 , M e y e r h o f s t r a s s e 1 , D - 6 9 0 1 2 H e i d e l b e r g ,G e r m a n yR e c e i v e d J u l y 1 2 , 1 9 9 4 ; R e v i s e d a n d A c c e p t e d S e p t e m b e r 2 3 , 1 9 9 4

    ABSTRACTT h e s e n s i t i v i t y o f t h e commonly u s e d p r o g r e s s i v em u l t i p l e s e q u e n c e a l i g n m e n t m e t h o d h a s b e e n g r e a t l yi m p r o v e d f o r t h e a l i g n m e n t o f d i v e r g e n t p r o t e i ns e q u e n c e s . F i r s t l y , i n d i v i d u a l w e i g h t s a r e a s s i g n e d t oe a c h s e q u e n c e i n a p a r t i a l a l i g n m e n t i n o r d e r t o d o w n -w e i g h t n e a r - d u p l i c a t e s e q u e n c e s a n d u p - w e i g h t t h em o s t d i v e r g e n t o n e s . S e c o n d l y , a m i n o a c i d s u b s t i t u t i o nm a t r i c e s a r e v a r i e d a t d i f f e r e n t a l i g n m e n t s t a g e sa c c o r d i n g t o t h e d i v e r g e n c e o f t h e s e q u e n c e s t o b ea l i g n e d . T h i r d l y , r e s i d u e - s p e c i f i c g a p p e n a l t i e s a n dl o c a l l y r e d u c e d g a p p e n a l t i e s i n h y d r o p h i l i c r e g i o n se n c o u r a g e new g a p s i n p o t e n t i a l l o o p r e g i o n s r a t h e rt h a n r e g u l a r s e c o n d a r y s t r u c t u r e . F o u r t h l y , p o s i t i o n si n e a r l y a l i g n m e n t s w h e r e g a p s h a v e b e e n o p e n e dr e c e i v e l o c a l l y r e d u c e d g a p p e n a l t i e s t o e n c o u r a g e t h eo p e n i n g u p o f n ew g a p s a t t h e s e p o s i t i o n s . T h e s em o d i f i c a t i o n s a r e i n c o r p o r a t e d i n t o a new p r o g r a m ,CLUSTAL W w h i c h i s f r e e l y a v a i l a b l e .INTRODUCTIONT h e s i m u l t a n e o u s a l i g n m e n t o f m a n y n u c l e o t i d e o r a m i n o a c i ds e q u e n c e s i s now a n e s s e n t i a l t o o l i n m o l e c u l a r b i o l o g y . M u l t i p l ea l i g n m e n t s a r e u s e d t o f i n d d i a g n o s t i c p a t t e r n s t o c h a r a c t e r i s ep r o t e i n f a m i l i e s ; t o d e t e c t o r d e m o n s t r a t e h o m o l o g y b e t w e e n n e ws e q u e n c e s a n d e x i s t i n g f a m i l i e s o f s e q u e n c e s ; t o h e l p p r e d i c t t h es e c o n d a r y a n d t e r t i a r y s t r u c t u r e s o f new s e q u e n c e s ; t o s u g g e s to l i g o n u c l e o t i d e p r i m e r s f o r P C R ; a s a n e s s e n t i a l p r e l u d e t om o l e c u l a r e v o l u t i o n a r y a n a l y s i s . T h e r a t e o f a p p e a r a n c e o f news e q u e n c e d a t a i s s t e a d i l y i n c r e a s i n g a n d t h e d e v e l o p m e n t o fe f f i c i e n t a n d a c c u r a t e a u t o m a t i c m e t h o d s f o r m u l t i p l e a l i g n m e n ti s , t h e r e f o r e , o f m a j o r i m p o r t a n c e . T h e m a j o r i t y o f a u t o m a t i cm u l t i p l e a l i g n m e n t s a r e now c a r r i e d o u t u s i n g t h e ' p r o g r e s s i v e 'a p p r o a c h o f F e n g a n d D o o l i t t l e ( 1 ) . I n t h i s p a p e r , we d e s c r i b ea n u m b e r o f i m p r o v e m e n t s t o t h e p r o g r e s s i v e m u l t i p l e a l i g n m e n tm e t h o d w h i c h g r e a t l y i m p r o v e t h e s e n s i t i v i t y w i t h o u t s a c r i f i c i n ga n y o f t h e s p e e d a n d e f f i c i e n c y w h i c h m a k e s t h i s a p p r o a c h s o

    p r a c t i c a l . T h e n e w m e t h o d s a r e m a d e a v a i l a b l e i n a p r o g r a mc a l l e d C L U S T A L W, w h i c h i s f r e e l y a v a i l a b l e a n d p o r t a b l e t oa w i d e v a r i e t y o f c o m p u t e r s a n d o p e r a t i n g s y s t e m s .I n o r d e r t o a l i g n j u s t t w o s e q u e n c e s , i t i s s t a n d a r d p r a c t i c e t ou s e d y n a m i c p r o g r a m m i n g ( 2 ) . T h i s g u a r a n t e e s a m a t h e m a t i c a l l yo p t i m a l a l i g n m e n t , g i v e n a t a b l e o f s c o r e s f o r m a t c h e s a n dm i s m a t c h e s b e t w e e n a l l a m i n o a c i d s o r n u c l e o t i d e s [ e . g . t h ePAM250 m a t r i x ( 3 ) o r BLOSUM62 m a t r i x ( 4 ) ] a n d p e n a l t i e sf o r i n s e r t i o n s o r d e l e t i o n s o f d i f f e r e n t l e n g t h s . A t t e m p t s a tg e n e r a l i s i n g d y n a m i c p r o g r a m m i n g t o m u l t i p l e a l i g n m e n t s a r el i m i t e d t o s m a l l n u m b e r s o f s h o r t s e q u e n c e s ( 5 ) . F o r m u c h m o r et h a n e i g h t o r s o p r o t e i n s o f a v e r a g e l e n g t h , t h e p r o b l e m i su n c o m p u t a b l e g i v e n c u r r e n t c o m p u t e r p o w e r . T h e r e f o r e , a l l o ft h e m e t h o d s c a p a b l e o f h a n d l i n g l a r g e r p r o b l e m s i n p r a c t i c a lt i m e s c a l e s m a k e u s e o f h e u r i s t i c s . C u r r e n t l y , t h e m o s t w i d e l yu s e d a p p r o a c h i s t o e x p l o i t t h e f a c t t h a t h o m o l o g o u s s e q u e n c e sa r e e v o l u t i o n a r i l y r e l a t e d . O n e c a n b u i l d u p a m u l t i p l e a l i g n m e n tp r o g r e s s i v e l y b y a s e r i e s o f p a i r w i s e a l i g n m e n t s , f o l l o w i n g t h eb r a n c h i n g o r d e r i n a p h y l o g e n e t i c t r e e ( 1 ) . O n e f i r s t a l i g n s t h em o s t c l o s e l y r e l a t e d s e q u e n c e s , g r a d u a l l y a d d i n g i n t h e m o r ed i s t a n t o n e s . T h i s a p p r o a c h i s s u f f i c i e n t l y f a s t t o a l l o w a l i g n m e n t so f v i r t u a l l y a n y s i z e . F u r t h e r , i n s i m p l e c a s e s , t h e q u a l i t y o f t h ea l i g n m e n t s i s e x c e l l e n t , a s j u d g e d b y t h e a b i l i t y t o c o r r e c t l y a l i g nc o r r e s p o n d i n g d o m a i n s f r o m s e q u e n c e s o f k n o w n s e c o n d a r y o rt e r t i a r y s t r u c t u r e ( 6 ) . I n m o r e d i f f i c u l t c a s e s , t h e a l i g n m e n t s g i v eg o o d s t a r t i n g p o i n t s f o r f u r t h e r a u t o m a t i c o r m a n u a l r e f i n e m e n t .T h i s a p p r o a c h w o r k s w e l l w h e n t h e d a t a s e t c o n s i s t s o fs e q u e n c e s o f d i f f e r e n t d e g r e e s o f d i v e r g e n c e . P a i r w i s e a l i g n m e n to f v e r y c l o s e l y r e l a t e d s e q u e n c e s c a n b e c a r r i e d o u t v e r ya c c u r a t e l y . T h e c o r r e c t a n s w e r may o f t e n b e o b t a i n e d u s i n g aw i d e r a n g e o f p a r a m e t e r v a l u e s ( g a p p e n a l t i e s a n d w e i g h t m a t r i x ) .B y t h e t i m e t h e m o s t d i s t a n t l y r e l a t e d s e q u e n c e s a r e a l i g n e d , o n ea l r e a d y h a s a s a m p l e o f a l i g n e d s e q u e n c e s w h i c h g i v e s i m p o r t a n ti n f o r m a t i o n a b o u t t h e v a r i a b i l i t y a t e a c h p o s i t i o n . T h e p o s i t i o n so f t h e g a p s t h a t w e r e i n t r o d u c e d d u r i n g t h e e a r l y a l i g n m e n t s o ft h e c l o s e l y r e l a t e d s e q u e n c e s a r e n o t c h a n g e d a s n ew s e q u e n c e sa r e a d d e d . T h i s i s j u s t i f i e d b e c a u s e t h e p l a c e m e n t o f g a p s i n

    * T o whom c o r r e s p o n d e n c e s h o u l d b e a d d r e s s e d' P r e s e n t a d d r e s s : E u r o p e a n B i o i n f o r m a t i c s I n s t i t u t e , H i n x t o n H a l l , H i n x t o n , C a m b r i d g e C B 1 0 1 R Q , UK

    \ . j 1 9 9 4 O x f o r d U n i v e r s i t y P r e s s

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    2/8

    4 6 7 4 N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 2a l i g n m e n t s b e t w e e n c l o s e l y r e l a t e d s e q u e n c e s i s m u c h m o r ea c c u r a t e t h a n b e t w e e n d i s t a n t l y r e l a t e d o n e s . When a l l o f t h es e q u e n c e s a r e h i g h l y d i v e r g e n t ( e . g . l e s s t h a n - 2 5 - 3 0 % i d e n t i t yb e t w e e n a n y p a i r o f s e q u e n c e s ) , t h i s p r o g r e s s i v e a p p r o a c hb e c o m e s m u c h l e s s r e l i a b l e .T h e r e a r e t w o m a j o r p r o b l e m s w i t h t h e p r o g r e s s i v e a p p r o a c h :t h e l o c a l m i n i m u m p r o b l e m a n d t h e c h o i c e o f a l i g n m e n tp a r a m e t e r s . T h e l o c a l m i n i m u m p r o b l e m s t e m s f r o m t h e ' g r e e d y 'n a t u r e o f t h e a l i g n m e n t s t r a t e g y . T h e a l g o r i t h m g r e e d i l y a d d ss e q u e n c e s t o g e t h e r , f o l l o w i n g t h e i n i t i a l t r e e . T h e r e i s n og u a r a n t e e t h a t t h e g l o b a l o p t i m a l s o l u t i o n , a s d e f i n e d b y s o m eo v e r a l l m e a s u r e o f m u l t i p l e a l i g n m e n t q u a l i t y ( 7 , 8 ) , o r a n y t h i n gc l o s e t o i t , w i l l b e f o u n d . M o r e s p e c i f i c a l l y , a n y m i s t a k e s( m i s a l i g n e d r e g i o n s ) m a d e e a r l y i n t h e a l i g n m e n t p r o c e s s c a n n o tb e c o r r e c t e d l a t e r a s n e w i n f o r m a t i o n f r o m o t h e r s e q u e n c e s i sa d d e d . T h i s p r o b l e m i s f r e q u e n t l y t h o u g h t o f a s m a i n l y r e s u l t i n gf r o m a n i n c o r r e c t b r a n c h i n g o r d e r i n t h e i n i t i a l t r e e . T h e i n i t i a lt r e e s a r e d e r i v e d f r o m a m a t r i x o f d i s t a n c e s b e t w e e n s e p a r a t e l ya l i g n e d p a i r s o f s e q u e n c e s a n d a r e m u c h l e s s r e l i a b l e t h a n t r e e sf r o m c o m p l e t e m u l t i p l e a l i g n m e n t s . I n o u r e x p e r i e n c e , h o w e v e r ,t h e r e a l p r o b l e m i s c a u s e d s i m p l y b y e r r o r s i n t h e i n i t i a la l i g n m e n t s . E v e n i f t h e t o p o l o g y o f t h e g u i d e t r e e i s c o r r e c t , e a c ha l i g n m e n t s t e p i n t h e m u l t i p l e a l i g n m e n t p r o c e s s m a y h a v e s o m ep e r c e n t a g e o f t h e r e s i d u e s m i s a l i g n e d . T h i s p e r c e n t a g e w i l l b ev e r y l o w o n a v e r a g e f o r v e r y c l o s e l y r e l a t e d s e q u e n c e s b u t w i l li n c r e a s e a s s e q u e n c e s d i v e r g e . I t i s t h e s e m i s a l i g n m e n t s w h i c hc a r r y t h r o u g h f r o m t h e e a r l y a l i g n m e n t s t e p s t h a t c a u s e t h e l o c a lm i n i m u m p r o b l e m . T h e o n l y w a y t o c o r r e c t t h i s i s t o u s e a ni t e r a t i v e o r s t o c h a s t i c s a m p l i n g p r o c e d u r e ( e . g . 7 , 9 , 1 0 ) . W e d on o t d i r e c t l y a d d r e s s t h i s p r o b l e m i n t h i s p a p e r .T h e a l i g n m e n t p a r a m e t e r c h o i c e p r o b l e m i s , i n o u r v i e w , a tl e a s t a s s e r i o u s a s t h e l o c a l m i n i m u m p r o b l e m . S t o c h a s t i c o ri t e r a t i v e a l g o r i t h m s w i l l b e j u s t a s b a d l y a f f e c t e d a s p r o g r e s s i v eo n e s i f t h e p a r a m e t e r s a r e i n a p p r o p r i a t e : t h e y w i l l a r r i v e a t af a l s e g l o b a l m i n i m u m . T r a d i t i o n a l l y , o n e c h o o s e s o n e w e i g h tm a t r i x a n d t w o g a p p e n a l t i e s ( o n e f o r o p e n i n g a n e w g a p a n do n e f o r e x t e n d i n g a n e x i s t i n g g a p ) a n d h o p e t h a t t h e s e w i l l w o r kw e l l o v e r a l l p a r t s o f a l l t h e s e q u e n c e s i n t h e d a t a s e t . When t h es e q u e n c e s a r e a l l c l o s e l y r e l a t e d , t h i s w o r k s . T h e f i r s t r e a s o ni s t h a t v i r t u a l l y a l l r e s i d u e w e i g h t m a t r i c e s g i v e m o s t w e i g h t t oi d e n t i t i e s . When i d e n t i t i e s d o m i n a t e a n a l i g n m e n t , a l m o s t a n yw e i g h t m a t r i x w i l l f i n d a p p r o x i m a t e l y t h e c o r r e c t s o l u t i o n . W i t hv e r y d i v e r g e n t s e q u e n c e s , h o w e v e r , t h e s c o r e s g i v e n t o n o n -i d e n t i c a l r e s i d u e s w i l l b e c o m e c r i t i c a l l y i m p o r t a n t ; t h e r e w i l l b em o r e m i s m a t c h e s t h a n i d e n t i t i e s . D i f f e r e n t w e i g h t m a t r i c e s w i l lb e o p t i m a l a t d i f f e r e n t e v o l u t i o n a r y d i s t a n c e s o r f o r d i f f e r e n tc l a s s e s o f p r o t e i n s .T h e s e c o n d r e a s o n i s t h a t t h e r a n g e o f g a p p e n a l t y v a l u e s t h a tw i l l f i n d t h e c o r r e c t o r b e s t p o s s i b l e s o l u t i o n c a n b e v e r y b r o a df o r h i g h l y s i m i l a r s e q u e n c e s ( 1 1 ) . A s m o r e a n d m o r e d i v e r g e n ts e q u e n c e s a r e u s e d , h o w e v e r , t h e e x a c t v a l u e s o f t h e g a p p e n a l t i e sb e c o m e i m p o r t a n t f o r s u c c e s s . I n e a c h c a s e , t h e r e m a y b e a v e r yn a r r o w r a n g e o f v a l u e s w h i c h w i l l d e l i v e r t h e b e s t a l i g n m e n t .F u r t h e r , i n p r o t e i n a l i g n m e n t s , g a p s d o n o t o c c u r r a n d o m l y ( i . e .w i t h e q u a l p r o b a b i l i t y a t a l l p o s i t i o n s ) . T h e y o c c u r f a r m o r e o f t e nb e t w e e n t h e m a j o r s e c o n d a r y s t r u c t u r a l e l e m e n t s o f a - h e l i c e s a n df l - s t r a n d s t h a n w i t h i n ( 1 2 ) .T h e m a j o r i m p r o v e m e n t s d e s c r i b e d i n t h i s p a p e r a t t e m p t t oa d d r e s s t h e a l i g n m e n t p a r a m e t e r c h o i c e p r o b l e m . W e d y n a m i c a l l yv a r y t h e g a p p e n a l t i e s i n a p o s i t i o n - a n d r e s i d u e - s p e c i f i c m a n n e r .T h e o b s e r v e d r e l a t i v e f r e q u e n c i e s o f g a p s a d j a c e n t t o e a c h o f

    p e n a l t y a f t e r e a c h r e s i d u e . S h o r t s t r e t c h e s o f h y d r o p h i l i c r e s i d u e s( e . g . 5 or m o r e ) u s u a l l y i n d i c a t e l o o p or r a n d o m c o i l r e g i o n sa n d t h e ga p o p e n i n g p e n a l t i e s a re l o c a l l y r e d u c e d i n t h e s es t r e t c h e s . I n a d d i t i o n , t h e l o c a t i o n s o f t h e gaps f o u n d i n t h e e a r l ya l i g n m e n t s a r e a l s o g i v e n r e d u c e d ga p o p e n i n g p e n a l t i e s . I t h a sb e e n o b s e r v e d i n a l i g n m e n t s b e t w e e n sequences o f knowns t r u c t u r e t h a t gaps t e n d n o t t o b e c l o s e r t h a n r o u g h l y e i g h tr e s i d u e s o n average ( 1 2 ) . We i n c r e a s e t h e ga p o p e n i n g p e n a l t yw i t h i n e i g h t r e s i d u e s o f e x i s i n g gaps. T h e two m a i n s e r i e s o fa m i n o a c i d w e i g h t m a t r i c e s t h a t a re u s e d t o d a y are t h e PAMs e r i e s ( 3 ) a n d t h e B L O S U M s e r i e s ( 4 ) . I n e a c h case, t h e r e i sa r an ge o f m a t r i c e s t o c h o o s e f r o m . S o m e m a t r i c e s a r ea p p r o p r i a t e f o r a l i g n i n g very c l o s e l y r e l a t e d sequences w h e r emos t w e i g h t b y f a r i s g i v e n t o i d e n t i t i e s , w i t h o n l y t h e mostf r e q u e n t c o n s e r v a t i v e s u b s t i t u t i o n s r e c e i v i n g h i g h s c o r e s . O t h e rm a t r i c e s w o r k b e t t e r a t g r e a t e r e v o l u t i o n a r y d i s t a n c e s w h e r e l e s si m p o r t a n c e i s a t t a c h e d t o i d e n t i t i e s ( 1 3 ) . W e c h o o s e d i f f e r e n tw e i g h t m a t r i c e s , as t h e a l i g n m e n t p r o c e e d s , d e p e n d i n g on t h ee s t i m a t e d d i v e r g e n c e o f t h e sequences t o b e a l i g n e d a t e a c h s t a g e .

    S e q u e n c e s a r e w e i g h t e d t o c o r r e c t f o r u n e q u a l s a m p l i n g acrossa l l e v o l u t i o n a r y d i s t a n c e s i n t h e d a t a s e t ( 1 4 ) . T h i s d o w n - w e i g h t ssequences t h a t a re very s i m i l a r t o o t h e r sequences i n t h e d a t as e t a n d u p - w e i g h t s t h e most d i v e r g e n t ones. T h e w e i g h t s arec a l c u l a t e d d i r e c t l y f r o m t h e b r a n c h l e n g t h s i n t h e i n i t i a l g u i d et r e e ( 1 5 ) . S e q u e n c e w e i g h t i n g h a s a l r e a d y b e e n s h o w n t o b ee f f e c t i v e i n i m p r o v i n g t h e s e n s i t i v i t y o f p r o f i l e s e a r c h e s ( 1 5 , 1 6 ) .I n t h e o r i g i n a l C L U S T A L p r o g r a m s ( 1 7 - 1 9 ) , t h e i n i t i a l g u i d et r e e s , u s e d t o g u i d e t h e m u l t i p l e a l i g n m e n t , w e r e c a l c u l a t e d usingt h e UPGMA m e t h o d ( 2 0 ) . W e now us e t h e N e i g h b o u r - J o i n i n gm e t h o d ( 2 1 ) w h i c h i s more r o b u s t a g a i n s t t h e e f f e c t s o f u n e q u a le v o l u t i o n a r y r a t e s i n d i f f e r e n t l i n e a g e s a n d w h i c h g i v e s b e t t e re s t i m a t e s o f i n d i v i d u a l b r a n c h l e n g t h s . T h i s i s u s e f u l b e c a u s e i ti s t h e s e b r a n c h l e n g t h s w h i c h are u s e d t o d e r i v e t h e sequencew e i g h t s . We a l s o a l l o w users t o c h o o s e b e t w e e n f a s t a p p r o x i m a t ea l i g n m e n t s ( 2 2 ) o r f u l l d y n a m i c p r o g r a m m i n g f o r t h e d i s t a n c ec a l c u l a t i o n s u s e d t o m a k e t h e g u i d e t r e e .The new i m p r o v e m e n t s d r a m a t i c a l l y i m p r o v e t h e s e n s i t i v i t yo f t h e p r o g r e s s i v e a l i g n m e n t m e t h o d f o r d i f f i c u l t a l i g n m e n t si nv o l v i ng h i g h l y d i v e r g e d sequences. We s h o w o n e v e r yd e m a n d i n g t e s t c a s e o f o v e r 6 0 S H 3 d o m a i n s ( 2 3 ) w h i c h i n c l u d e ss eque n c e p a i r s w i t h as l i t t l e as 1 2 % i d e n t i t y a n d w h e r e t h e r e i so n l y one exactly c o n s e r v e d r e s i d u e a c r o s s a l l o f t h e s eque n c e s .U s i n g d e f a u l t p a r a m e t e r s , we can a c h i e v e an a l i g n m e n t t h a t i sa l m o s t e x a c t l y c o r r e c t , a c c o r d i n g t o a v a i l a b l e s t r u c t u r a li n f o r m a t i o n ( 2 4 ) . U s i n g t h e program i n a w i d e v a r i e t y o fs i t u a t i o n s , we f i n d t h a t i t w i l l n o r m a l l y f i n d t h e c o r r e c t a l i g n m e n ti n a l l b u t t h e m o s t d i f f i c u l t a n d p a t h o l o g i c a l o f cases.M A T E R I A L AND M E T H O D ST he b a s i c a l i g n m e n t methodThe b a s i c m u l t i p l e a l i g n m e nt a l g o r i t h m c o n s i s t s o f t h r e e m a i ns t a g e s : ( i ) a l l p a i r s o f sequ en c es a r e a l i g n e d s e p a r a t e l y i n o r d e rt o c a l c u l a t e a d i s t a n c e m a t r i x g i v i n g t h e d i v e r g e n c e o f e a c h p a i ro f s eque n c e s; ( i i ) a g u i d e t r e e i s c a l c u l a t e d f r o m t h e d i s t a n c em a t r i x ; ( i i i ) t h e sequences a r e p r o g r e s s i v e l y a l i g n e d a c c o r d i n gt o the b r a n c h i n g o r d e r i n t h e g u i d e t r e e . A n e x a m p l e u s i n g 7g l o b i n sequences o f k n o w n t e r t i a r y s t r u c t u r e ( 2 5 ) i s g i v e n i nF i g u r e 1 .T h e d i s t a n c e m a t r i x / p a i r w i s e a l i g n m e n t s

    I n t h e o r i g i n a l CLUSTAL programs, the p a i r w i s e d i s t a n c e s weret h e 2 0 a m i n o a c i d s ( 1 2 ) a r e u s e d t o l o c a l l y a d j u s t t h e g a p o p e n i n g c a l c u l a t e d u s i n g a f a s t a p p r o x i m a t e m e t h o d ( 2 2 ) . T h i s a l l o w s v e r y

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    3/8

    N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 2 4 6 7 5

    H b a - H o r s e M y g _ P h y - aHba_HunH b b b H o r s e

    Hbb_Hunun G I b 5 _ P e t n a

    L g b 2 _ L u p l u.86H b b _ H u m a n : 0 . 2 2 1.226061 H b b _ H o r s e : 0 . 2 2 5

    .01 H b a _ H u n u a n : 0 . 1 9 4H b a - j H o r s e : 0 . 2 0 3~ ~ M y g . . P b y c a : 0 . 4 1 1

    38 9 G i b 5 P e t m a : 0 3 9 8Lgb2..Lupiu: 0.442

    -VEK9W~ 1 0 0 1 . 3 ? M L O- - V _y, 2 UV LV I aV W aK Sht A in o o DzL3Lvx4I1aLqcVDM1LKV w a I l *I3KKRSM 1 tI3E0DLVKVY*IA0TIV0

    AUWVXSVNDAX Df - U O m n ZDL"QVD "VI - PM]v 4 ? A = : v vGaA L= ~~ ~~~~~~~~~~~~~~~~~~~~~~~~E---

    ZL LDK 1 L h S V --1 ---LOW P)LDlIV T KY - - - - - -LAV - -- AII-CIA-----V I I ? DA---. . .

    F i g u r e 1 . T h e b a s i c p r o g r e s s i v e a l i g n m e n t p r o c e d u r e , i l l u s t r a t e d u s i n g a s e t o f7 g l o b i n s o f k n o w n t e r t i a r y s t r u c t u r e . T h e sequence names ar e f r o m S w i s s P r o t( 3 8 ) : H b a _ H o r s e : h o r s e c a - g l o b i n ; H b a - H u m a n : h u m a n c a - g l o b i n ; H b b _ H o r s e :h o r s e 3 - g l o b i n ; HbbHuman: h u m a n , B - g l o b i n ; Myg.Phyca: sperm w h a l em y o g l o b i n ; G l b 5 . P e t m a : l a m p r e y c y a n o h a e m o g l o b i n ; L g b 2 _ L u p l u : l u p i nl e g h a e m o g l o b i n . I n t h e d i s t a n c e m a t r i x , t h e mean n u m b e r o f d i f f e r e n c e s pe r r e s i d u ei s g i v e n . T h e u n r o o t e d t r e e s h o w s a l l b r a n c h l e n g t h s d r a w n t o s c a l e . I n t h e r o o t e dt r e e , a l l b r a n c h l e n g t h s ( m e a n n u m be r o f d i f f e r e n c e s p e r r e s i d u e a l o n g e a c h b r a n c h )a r e g i v e n a s w e l l a s w e i g h t s f o r e a c h sequence. I n t h e m u l t i p l e a l i g n m e n t , t h ea p p r o x i m a t e p o s i t i o n s o f t h e 7 a - h e l i c e s common t o a l l 7 p r o t e i n s a r e s h o w n .T h i s a l i g n m e n t w a s d e r i v e d u s i n g C L U S T A L W w i t h d e f a u l t p a r a m e t e r s a n dt h e PAM ( 3 ) s e r i e s o f w e i g h t m a t r i c e s .

    l a r g e n u m b e r s o f sequences t o b e a l i g n e d , even o n am i c r o c o m p u t e r . T h e s c o r e s a r e c a l c u l a t e d a s t h e n u m b e r o f k -t u p l e m a t c h e s ( r u n s o f i d e n t i c a l r e s i d u e s , t y p i c a l l y 1 or 2 l o n gf o r p r o t e i n s o r 2-4 l o n g f o r n u c l e o t i d e s e q u e n c e s ) i n t h e b e s ta l i g n m e n t b e t w e e n two sequences m i n u s a f i x e d p e n a l t y f o r e v e r yg a p . We now o f f e r a c h o i c e b e t w e e n t h i s m e t h o d a n d t h e s l o w e rb u t m o r e a c c u r a t e scores f r o m f u l l d y n a m i c p r o g r a m m i n ga l i g n m e n t s u s i n g two ga p p e n a l t i e s ( f o r o p e n i n g o r e x t e n d i n gg a p s ) a n d a f u l l a m i n o a c i d w e i g h t m a t r i x . T h e s e s co re s a rec a l c u l a t e d a s t h e n u m b e r o f i d e n t i t i e s i n t h e b e s t a l i g n m e n t d i v i d e db y t h e n u m b e r o f r e s i d u e s c o m p a r e d ( g a p p o s i t i o n s a r e e x c l u d e d ) .B o t h o f t h e s e scores are i n i t i a l l y c a l c u l a t e d a s p e r c e n t i d e n t i t yscores a n d are c o n v e r t e d t o d i s t a n c e s b y d i v i d i n g b y 1 0 0 a n ds u b t r a c t i n g f r o m 1 . 0 t o g i v e n u m b e r o f d i f f e r e n c e s p e r s i t e . Wed o n o t c o r r e c t f o r m u l t i p l e s u b s t i t u t i o n s i n t h e s e i n i t i a l d i s t a n c e s .

    I n F i g u r e 1 we g i v e t h e 7 x7 d i s t a n c e m a t r i x b e t w e e n t h e 7 g l o b i ns e q u e n c e s c a l c u l a t e d u s i n g t h e f u l l d y n a m i c p r o g r a m m i n gm e t h o d .T h e g u i d e t r e eT h e t r e e s u s e d t o g u i d e t h e f i n a l m u l t i p l e a l i g n m e n t process a r ec a l c u l a t e d f r o m t h e d i s t a n c e m a t r i x o f s t e p 1 u s i n g t h e N e i g h b o u r -J o i n i n g m e t h o d ( 2 1 ) . T h i s p r o d u c e s u n r o o t e d t r e e s w i t h b r a n c hl e n g t h s p r o p o r t i o n a l t o e s t i m a t e d d i v e r g e n c e a l o n g e a c h b r a n c h .T h e r o o t i s p l a c e d b y a ' m i d - p o i n t ' m e t h o d ( 1 5 ) a t a p o s i t i o nw h e r e t h e m e a n s o f t h e b r a n c h l e n g t h s on e i t h e r s i d e o f t h e r o o ta r e e q u a l . T h e s e t r e e s a re a l s o u s e d t o d e r i v e a w e i g h t f o r e a c hsequence ( 1 5 ) . T h e w e i g h t s are d e p e n d e n t upon t h e d i s t a n c e f r o mt h e r o o t o f t h e t r e e b u t sequences w h i c h h a v e a common b r a n c hw i t h o t h e r sequences s h a r e t h e w e i g h t d e r i v e d f r o m t h e s h a r e db r a n c h . I n t h e e x a m p l e i n F i g u r e 1 , t h e l e g h a e m o g l o b i n( L g b 2 - L u p l u ) g e t s a w e i g h t o f 0 . 4 4 2 , w h i c h i s e q u a l t o t h el e n g t h o f t h e b r a n c h f r o m t h e r o o t t o i t . T h e h u m a n ( - g l o b i n(Hbb_Human) g e t s a w e i g h t c o n s i s t i n g o f t h e l e n g t h o f t h eb r a n c h l e a d i n g t o i t t h a t i s n o t s h a r e d w i t h a n y o t h e r sequences( 0 . 0 8 1 ) p l u s h a l f t h e l e n g t h o f t h e b r a n c h s h a r e d w i t h t h e h o r s e3 - g l o b i n ( 0 . 2 2 6 / 2 ) p l u s o n e q u a r t e r t h e l e n g t h o f t h e b r a n c hs h a r e d b y a l l f o u r h a e m o g l o b i n s ( 0 . 0 6 1 / 4 ) p l u s o n e f i f t h t h eb r a n c h s h a r e d b e t w e e n t h e h a e m o g l o b i n s a n d m y o g l o b i n( 0 . 0 1 5 / 5 ) p l u s o n e s i x t h t h e b r a n c h l e a d i n g t o a l l t h e v e r t e b r a t eg l o b i n s ( 0 . 0 6 2 ) . T h i s su ms t o a t o t a l o f 0 . 2 2 1 . I n c o n t r a s t , i nt h e n o r m a l p r o g r e s s i v e a l i g n m e n t a l g o r i t h m , a l l sequences w o u l db e e q u a l l y w e i g h t e d . T h e r o o t e d t r e e w i t h b r a n c h l e n g t h s a n dsequence w e i g h t s f o r t h e 7 g l o b i n s i s g i v e n i n F i g u r e 1 .P r o g r e s s i v e a l i g n m e n tT h e b a s i c p r o c e d u r e a t t h i s s t a g e i s t o us e a s e r i e s o f p a i r w i s ea l i g n m e n t s t o a l i g n l a r g e r a n d l a r g e r groups o f sequences,f o l l o w i n g t h e b r a n c h i n g o r d e r i n t h e g u i d e t r e e . You p r o c e e df r o m t h e t i p s o f t h e r o o t e d t r e e t o w a r d s t h e r o o t . I n t h e g l o b i ne x a m p l e i n F i g u r e 1 y o u a l i g n t h e sequences i n t h e f o l l o w i n go r d e r : h u m a n v s . h o r s e , B - g l o b i n ; h u m a n v s . h o r s e c t - g l o b i n ; t h e2 o a - g l o b i n s v s . t h e 2 0 - g l o b i n s ; t h e m y o g l o b i n v s . t h eh a e m o g l o b i n s ; t h e c y a n o h a e m o g l o b i n v s . t h e h a e m o g l o b i n s p l u sm y o g l o b i n ; t h e l e g h a e m o g l o b i n v s . a l l t h e r e s t . A t e a c h s t a g ea f u l l d y n a m i c p r o g r a m m i n g ( 2 6 , 2 7 ) a l g o r i t h m i s u s e d w i t h ar e s i d u e w e i g h t m a t r i x a n d p e n a l t i e s f o r o p e n i n g a n d e x t e n d i n gg a p s . E a c h s t e p c o n s i s t s o f a l i g n i n g two e x i s t i n g a l i g n m e n t s o rs e q u e n c e s . G a p s t h a t a r e p r e s e n t i n o l d e r a l i g n m e n t s r e m a i n f i x e d .I n t h e b a s i c a l g o r i t h m , new g a p s t h a t a r e i n t r o d u c e d a t e a c h s t a g eg e t f u l l ga p o p e n i n g a n d e x t e n s i o n p e n a l t i e s , even i f t h e y a r ei n t r o d u c e d i n s i d e o l d ga p p o s i t i o n s ( s e e t h e s e c t i o n o n gapp e n a l t i e s b e l o w f o r m o d i f i c a t i o n s t o t h i s r u l e ) . I n o r d e r t oc a l c u l a t e t h e score b e t w e e n a p o s i t i o n f r o m o n e s e q u e n c e o ra l i g n m e n t a n d o n e f r o m a n o t h e r , t h e a v e r a g e o f a l l t h e p a i r w i s ew e i g h t m a t r i x scores f r o m t h e a m i n o a c i d s i n t h e two s e t s o fsequences i s u s e d , i . e . i f y o u a l i g n 2 a l i g n m e n t s w i t h 2 a n d 4sequences r e s p e c t i v e l y , t h e score a t e a c h p o s i t i o n i s t h e a v e r a g eo f 8 ( 2 x 4 ) c o m p a r i s o n s . T h i s i s i l l u s t r a t e d i n F i g u r e 2 . I f e i t h e rs e t o f s e q u e n c e s c o n t a i n s o n e or m o r e g a p s i n o ne o f t h e p o s i t i o n sb e i n g c o n s i d e r e d , e a c h gap versus a r e s i d u e i s s c o r e d a s z e r o .T h e d e f a u l t a m i n o a c i d w e i g h t m a t r i c e s we use a r e r e s c o r e d t oh a v e o n l y p o s i t i v e v a l u e s . T h e r e f o r e , t h i s t r e a t m e n t o f g a p s t r e a t st h e score o f a r e s i d u e v er sus a g a p a s h a v i n g t h e w o r s t p o s s i b l es c o r e . Wh e n s e q u e n c e s a r e w e i g h t e d ( s e e I m p r o v e m e n t s t op r o g r e s s i v e a l i g n m e n t , b e l o w ) , e a c h w e i g h t m a t r i x v a l u e i s

    Hbb_Human 1IH b b _ H o r s e 2Hba_Hunan 3H b a _ H o r s e 4M y g Y P h y c a 5G l b S _ P e t m a 6L g b 2 _ L u p l u 7

    . 1 75959. 7 7. 8 1. 8 7

    .60. 5 9 . 1 3. 7 7 . 7 5 . 7 5. 8 2 . 7 3 . 7 4. 8 6 . 8 6 . 8 8 .9 0P a i r w i s e a l i g n m e n tC a c u l a t e d i t n e m t i

    ln o t d N e i g h b o r - j o i n i n g tR o o t e d N J t r e e ( g u i d e t r e e )a n d sequence w e i g h t s

    P r o g r e s s i v ea l i g n m e n t nA l i g n f o l l o w i n g .aavt h e g u i d e t r e e_ 5 1 i_ - L=- -= =

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    4/8

    4 6 7 6 N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 21 peeksava 12 geek a a 13 padk tnv k aa4 a a d k t n v a

    5 egewql h v6 a a e k t k sa

    W i t h o u t s e q u e n c e W e i g h t s :Score- m ( t . T )+ Y ( t , 1 )+ Y(1,-)+ Y ( 1 , )+ K(k,v)+ M ( k , 1 )+ M ( k , v )* M ( k , 1 ) / S

    W i t h s e q ue n c e W e ig h t s W i :Bore - ( t I V )*j5+ M ( t , L )Wj.w6* K l 1 , ) 1 S W

    + Y ( 1 , 1 ) * W z W e+ K l k , v ) W t W 5+ Y ( l c k , 1 ) U % t W 6* K ( k , v ) 1 I 4 W 5* MM, 1) 1W e/S

    G a p o p e i n p e r a l t y

    QLSQEEMVLALWDKVN--EEEVGGEALGRLLVVYPWTQRFFDSFGDLVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSVLSAADKTNVKAAWSKVGGHAGEYGAEALERMFLGFPTTKTYFPHFDLSF i g u r e 2 . T h e s c o r i n g s c h e m e f o r c o m p a r i n g t w o p o s i t i o n s f r o m t w o a l i g n m e n t s .Two s e c t i o n s o f a l i g n m e n t w i t h 4 a n d 2 s e q u e n c e s r e s p e c t i v e l y a r e s h o w n . T h es c o r e o f t h e p o s i t i o n w i t h a m i n o a c i d s T , L , K , K v e r s u s t h e p o s i t i o n w i t h a m i n oa c i d s V a n d I i s g i v e n w i t h a n d w i t h o u t s e q u e n c e w e i g h t s . M ( X , Y ) i s t h e w e i g h tm a t r i x e n t r y f o r a m i n o a c i d X v e r s u s a m i n o a c i d Y . W , , i s t h e w e i g h t f o rs e q u e n c e n .m u l t i p l i e d b y t h e w e i g h t s f r o m t h e 2 s e q u e n c e s , a s i l l u s t r a t e di n F i g u r e 2 .I m p r o v e m e n t s t o p r o g r e s s i v e a l i g n m e n tA l l o f t h e r e m a i n i n g m o d i f i c a t i o n s a p p l y o n l y t o t h e f m a lp r o g r e s s i v e a l i g n m e n t s t a g e . S e q u e n c e w e i g h t i n g i s r e l a t i v e l ys t r a i g h t f o r w a r d a n d i s a l r e a d y w i d e l y u s e d i n p r o f i l e s e a r c h e s( 1 5 , 1 6 ) . T h e t r e a t m e n t o f g a p p e n a l t i e s i s m o r e c o m p l i c a t e d .I n i t i a l g a p p e n a l t i e s a r e c a l c u l a t e d d e p e n d i n g o n t h e w e i g h tm a t r i x , t h e s i m i l a r i t y o f t h e s e q u e n c e s a n d t h e l e n g t h o f t h es e q u e n c e s . T h e n , a n a t t e m p t i s m a d e t o d e r i v e s e n s i b l e l o c a l g a po p e n i n g p e n a l t i e s a t e v e r y p o s i t i o n i n e a c h p r e a l i g n e d g r o u p o fs e q u e n c e s t h a t w i l l v a r y a s n e w s e q u e n c e s a r e a d d e d . T h e u s eo f d i f f e r e n t w e i g h t m a t r i c e s a s t h e a l i g n m e n t p r o g r e s s e s i s n o v e la n d l a r g e l y b y - p a s s e s t h e p r o b l e m o f i n i t i a l c h o i c e o f w e i g h tm a t r i x . T h e f i n a l m o d i f i c a t i o n a l l o w s u s t o d e l a y t h e a d d i t i o no f v e r y d i v e r g e n t s e q u e n c e s u n t i l t h e e n d o f t h e a l i g n m e n tp r o c e s s , w h e n a l l o f t h e m o r e c l o s e l y r e l a t e d s e q u e n c e s h a v ea l r e a d y b e e n a l i g n e d .S e q u e n c e w e i g h t i n gS e q u e n c e w e i g h t s a r e c a l c u l a t e d d i r e c t l y f r o m t h e g u i d e t r e e . T h ew e i g h t s a r e n o r m a l i s e d s u c h t h a t t h e b i g g e s t o n e i s s e t t o 1 . 0a n d t h e r e s t a r e a l l l e s s t h a n 1 . 0 . G r o u p s o f c l o s e l y r e l a t e ds e q u e n c e s r e c e i v e l o w e r e d w e i g h t s b e c a u s e t h e y c o n t a i n m u c hd u p l i c a t e d i n f o r m a t i o n . H i g h l y d i v e r g e n t s e q u e n c e s w i t h o u t a n yc l o s e r e l a t i v e s r e c e i v e h i g h w e i g h t s . T h e s e w e i g h t s a r e u s e d a ss i m p l e m u l t i p l i c a t i o n f a c t o r s f o r s c o r i n g p o s i t i o n s f r o m d i f f e r e n ts e q u e n c e s o r p r e a l i g n e d g r o u p s o f s e q u e n c e s . T h e m e t h o d i si l l u s t r a t e d i n F i g u r e 2 . I n t h e g l o b i n e x a m p l e i n F i g u r e 1 , t h et w o a t - g l o b i n s g e t d o w n - w e i g h t e d b e c a u s e t h e y a r e a l m o s td u p l i c a t e s e q u e n c e s ( a s d o t h e t w o 3 - g l o b i n s ) ; t h e y r e c e i v e ac o m b i n e d w e i g h t o f o n l y s l i g h t l y m o r e t h a n i f a s i n g l e a - g l o b i nw a s u s e d .I n i t i a l g a p p e n a l t i e sI n i t i a l l y , t w o g a p p e n a l t i e s a r e u s e d : a g a p o p e n i n g p e n a l t y( G O P ) , w h i c h g i v e s t h e c o s t o f o p e n i n g a n e w g a p o f a n y l e n g t h ,a n d a g a p e x t e n s i o n p e n a l t y ( G E P ) , w h i c h g i v e s t h e c o s t o f e v e r yi t e m i n a g a p . I n i t i a l v a l u e s c a n b e s e t b y t h e u s e r f r o m a m e n u .T h e s o f t w a r e t h e n a u t o m a t i c a l l y a t t e m p t s t o c h o o s e a p p r o p r i a t eg a p p e n a l t i e s f o r e a c h s e q u e n c e a l i g n m e n t , d e p e n d i n g o n t h ef o l l o w i n g f a c t o r s .

    F i g u r e 3 . T h e v a r i a t i o n i n l o c a l g a p o p e n i n g p e n a l t y i s p l o t t e d f o r a s e c t i o n o fa l i g n m e n t . T h e i n i t a l g a p o p e n i n g p e n a l t y i s i n d i c a t e d b y a d o t t e d l i n e . Twoh y d r o p h i l i c s t r e t c h e s a r e u n d e r l i n e d . T h e l o w e s t p e n a l t i e s c o r r e s p o n d t o t h e e n d so f t h e a l i g n m e n t , t h e h y d r o p h i l i c s t r e t c h e s a n d t h e t w o p o s i t i o n s w i t h g a p s . T h eh i g h e s t v a l u e s a r e w i t h i n 8 r e s i d u e s o f t h e t w o g a p p o s i t i o n s . T h e r e s t o f t h ev a r i a t i o n i s c a u s e d b y t h e r e s i d u e s p e c i f i c g a p p e n a l t i e s ( 1 2 ) .

    D e p e n d e n c e o n t h e w e i g h t m a t r i x . I t h a s b e e n s h o w n ( 1 6 , 2 8 ) t h a tv a r y i n g t h e g a p p e n a l t i e s u s e d w i t h d i f f e r e n t w e i g h t m a t r i c e s c a ni m p r o v e t h e a c c u r a c y o f s e q u e n c e a l i g n m e n t s . H e r e , w e u s e t h ea v e r a g e s c o r e f o r t w o m i s m a t c h e d r e s i d u e s ( i . e . o f f - d i a g o n a lv a l u e s i n t h e m a t r i x ) a s a s c a l i n g f a c t o r f o r t h e G O P .D e p e n d e n c e o n t h e s i m i l a r i t y o f t h e s e q u e n c e s . T h e p e r c e n ti d e n t i t y o f t h e t w o ( g r o u p s o f ) s e q u e n c e s t o b e a l i g n e d i s u s e dt o i n c r e a s e t h e GO P f o r c l o s e l y r e l a t e d s e q u e n c e s a n d d e c r e a s ei t f o r m o r e d i v e r g e n t s e q u e n c e s o n a l i n e a r s c a l e .D e p e n d e n c e o n t h e l e n g t h s o f t h e s e q u e n c e s . T h e s c o r e s f o r b o t ht r u e a n d f a l s e s e q u e n c e a l i g n m e n t s g r o w w i t h t h e l e n g t h o f t h es e q u e n c e s . W e u s e t h e l o g a r i t h m o f t h e l e n g t h o f t h e s h o r t e rs e q u e n c e t o i n c r e a s e t h e GO P w i t h s e q u e n c e l e n g t h . U s i n g t h e s et h r e e m o d i f i c a t i o n s , t h e i n i t i a l GO P c a l c u l a t e d b y t h e p r o g r a m i s :GO P - [ G O P + l o g [ m i n ( N , M ) ] } * ( a v e r a g e r e s i d u e m i s m a t c hs c o r e ) * ( p e r c e n t i d e n t i t y s c a l i n g f a c t o r )w h e r e N , M a r e t h e l e n g t h s o f t h e t w o s e q u e n c e s .D e p e n d e n c e o n t h e d i f f e r e n c e i n t h e l e n g t h s o f t h e s e q u e n c e s .T h e GEP i s m o d i f i e d d e p e n d i n g o n t h e d i f f e r e n c e b e t w e e n t h el e n g t h s o f t h e t w o s e q u e n c e s t o b e a l i g n e d . I f o n e s e q u e n c e i sm u c h s h o r t e r t h a n t h e o t h e r , t h e GEP i s i n c r e a s e d t o i n h i b i t t o om a n y l o n g g a p s i n t h e s h o r t e r s e q u e n c e . T h e i n i t i a l GEPc a l c u l a t e d b y t h e p r o g r a m i s :GEP - GEP * [ 1 . 0 + I l o g ( N / M ) I ]w h e r e N , M a r e t h e l e n g t h s o f t h e t w o s e q u e n c e s .P o s i t i o n - s p e c i f i c g a p p e n a l t i e sI n m o s t d y n a m i c p r o g r a m m i n g a p p l i c a t i o n s , t h e i n i t i a l g a po p e n i n g a n d e x t e n s i o n p e n a l t i e s a r e a p p l i e d e q u a l l y a t e v e r yp o s i t i o n i n t h e s e q u e n c e , r e g a r d l e s s o f t h e l o c a t i o n o f a g a p ,e x c e p t f o r t e r m i n a l g a p s w h i c h a r e u s u a l l y a l l o w e d a t n o c o s t .I n C L U S T A L W, b e f o r e a n y p a i r o f s e q u e n c e s o r p r e a l i g n e dg r o u p s o f s e q u e n c e s a r e a l i g n e d , we g e n e r a t e a t a b l e o f g a po p e n i n g p e n a l t i e s f o r e v e r y p o s i t i o n i n t h e t w o ( s e t s o f ) s e q u e n c e s .A n e x a m p l e i s s h o w n i n F i g u r e 3 . W e m a n i p u l a t e t h e i n i t i a l g a po p e n i n g p e n a l t y i n a p o s i t i o n - s p e c i f i c m a n n e r , i n o r d e r t o m a k eg a p s m o r e o r l e s s l i k e l y a t d i f f e r e n t p o s i t i o n s .

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    5/8

    N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 2 4 6 7 7T h e l o c a l g a p p e n a l t y m o d i f i c a t i o n r u l e s a r e a p p l i e d i n ah i e r a r c h i c a l m a n n e r . T h e e x a c t d e t a i l s o f e a c h r u l e a r e g i v e n

    b e l o w . F i r s t l y , i f t h e r e i s a g a p a t a p o s i t i o n , t h e g a p o p e n i n ga n d g a p e x t e n s i o n p e n a l t i e s a r e l o w e r e d ; t h e o t h e r r u l e s d o n o ta p p l y . T h i s m a k e s g a p s m o r e l i k e l y a t p o s i t i o n s w h e r e t h e r e a r ea l r e a d y g a p s . I f t h e r e i s n o g a p a t a p o s i t i o n , t h e n t h e g a p o p e ni n gp e n a l t y i s i n c r e a s e d i f t h e p o s i t i o n i s w i t h i n 8 r e s i d u e s o f a ne x i s t i n g g a p . T h i s d i s c o u r a g e s g a p s t h a t a r e t o o c l o s e t o g e t h e r .F i n a l l y , a t a n y p o s i t i o n w i t h i n a r u n o f h y d r o p h i l i c r e s i d u e s , t h ep e n a l t y i s d e c r e a s e d . T h e s e r u n s u s u a l l y i n d i c a t e l o o p r e g i o n si n p r o t e i n s t r u c t u r e s . I f t h e r e i s n o r u n o f h y d r o p h i l i c r e s i d u e s ,t h e p e n a l t y i s m o d i f i e d u s i n g a t a b l e o f r e s i d u e - s p e c i f i c g a pp r o p e n s i t i e s ( 1 2 ) . T h e s e p r o p e n s i t i e s w e r e d e r i v e d b y c o u n t i n gt h e f r e q u e n c y o f e a c h r e s i d u e a t e i t h e r e n d o f g a p s i n a l i g n m e n t so f p r o t e i n s o f k n o w n s t r u c t u r e . An i l l u s t r a t i o n o f t h e a p p l i c a t i o no f t h e s e r u l e s f r o m o n e p a r t o f t h e g l o b i n e x a m p l e i n F i g u r e 1i s g i v e n i n F i g u r e 3 .L o w e r e d g a p p e n a l t i e s a t e x i s t i n g g a p s . I f t h e r e a r e a l r e a d y g a p sa t a p o s i t i o n , t h e n t h e GO P i s r e d u c e d i n p r o p o r t i o n t o t h e n u m b e ro f s e q u e n c e s w i t h a g a p a t t h i s p o s i t i o n a n d t h e GEP i s l o w e r e db y a h a l f . T h e n e w g a p o p e n i n g p e n a l t y i s c a l c u l a t e d a s :GO P - GO P * 0 . 3 * ( n o . o f s e q u e n c e s w i t h o u t a g a p / n o . o fs e q u e n c e s ) .I n c r e a s e d g a p p e n a l t i e s n e a r e x i s t i n g g a p s . I f a p o s i t i o n d o e sn o t h a v e a n y g a p s b u t i s w i t h i n 8 r e s i d u e s o f a n e x i s t i n g g a p ,t h e GO P i s i n c r e a s e d b y :GO P - GO P * t 2 + [ ( 8 - d i s t a n c e f r o m g a p ) * 2 ] / 8 j

    R e d u c e d g a p p e n a l t i e s i n h y d r o p h i l i c s t r e t c h e s . A n y r un o f 5h y d r o p h i l i c r e s i d u e s i s c o n s i d e r e d t o b e a h y d r o p h i l i c s t r e t c h .T h e r e s i d u e s t h a t a r e t o b e c o n s i d e r e d h y d r o p h i l i c may b e s e tb y t h e u s e r b u t a r e c o n s e r v a t i v e l y s e t t o D , E , G , K , N , Q , P ,R o r S b y d e f a u l t . I f , a t a n y p o s i t i o n , t h e r e a r e n o g a p s a n d a n yo f t h e s e q u e n c e s h a s s u c h a s t r e t c h , t h e GO P i s r e d u c e d b y o n et h i r d .R e s i d u e - s p e c i f i c p e n a l t i e s . I f t h e r e i s n o h y d r o p h i l i c s t r e t c h a n dt h e p o s i t i o n d o e s n o t c o n t a i n a n y g a p s , t h e n t h e GO P i s m u l t i p l i e db y o n e o f t h e 2 0 n u m b e r s i n T a b l e 1 , d e p e n d i n g o n t h e r e s i d u e .I f t h e r e i s a m i x t u r e o f r e s i d u e s a t a p o s i t i o n , t h e m u l t i p l i c a t i o nf a c t o r i s t h e a v e r a g e o f a l l t h e c o n t r i b u t i o n s f r o m e a c h s e q u e n c e .W e i g h t m a t r i c e sTwo m a i n s e r i e s o f w e i g h t m a t r i c e s a r e o f f e r e d t o t h e u s e r : t h eD a y h o f f PAM s e r i e s ( 3 ) a n d t h e B L O S U M s e r i e s ( 4 ) . T h e d e f a u l ti s t h e B L O S U M s e r i e s . I n e a c h c a s e , t h e r e i s a c h o i c e o f m a t r i xr a n g i n g f r o m s t r i c t o n e s , u s e f u l f o r c o m p a r i n g v e r y c l o s e l y r e l a t e ds e q u e n c e s t o v e r y ' s o f t ' o n e s t h a t a r e u s e f u l f o r c o m p a r i n g v e r yd i s t a n t l y r e l a t e d s e q u e n c e s . D e p e n d i n g o n t h e d i s t a n c e b e t w e e nt h e t w o s e q u e n c e s o r g r o u p s o f s e q u e n c e s t o b e c o m p a r e d , wes w i t c h b e t w e e n 4 d i f f e r e n t m a t r i c e s . T h e d i s t a n c e s a r e m e a s u r e dd i r e c t l y f r o m t h e g u i d e t r e e . T h e r a n g e s o f d i s t a n c e s a n d t a b l e su s e d w i t h t h e PAM s e r i e s o f m a t r i c e s a r e : 8 0 - 1 0 0 % : P A M 2 0 ,6 0 - 8 0 % : P A M 6 0 , 4 0 - 6 0 % : P A M 1 2 0 , 0 - 4 0 % : P A M 3 5 0 .T h e r a n g e u s e d w i t h t h e B L O S U M s e r i e s i s : 8 0 - 1 0 0 % :B L O S U M 8 0 , 60-80% : B L O S U M 6 2 , 30-60% : B L O S U M 4 5 ,

    D i v e r g e n t s e q u e n c e sT h e m o s t d i v e r g e n t s e q u e n c e s ( m o s t d i f f e r e n t o n a v e r a g e f r o ma l l o f t h e o t h e r s e q u e n c e s ) a r e u s u a l l y t h e m o s t d i f f i c u l t t o a l i g nc o r r e c t l y . I t i s s o m e t i m e s b e t t e r t o d e l a y t h e i n c o r p o r a t i o n o f t h e s es e q u e n c e s u n t i l a l l o f t h e m o r e e a s i l y a l i g n e d s e q u e n c e s a r em e r g e d f i r s t . T h i s may g i v e a b e t t e r c h a n c e o f c o r r e c t l y p l a c i n gt h e g a p s a n d m a t c h i n g w e a k l y c o n s e r v e d p o s i t i o n s a g a i n s t t h er e s t o f t h e s e q u e n c e s . A c h o i c e i s o f f e r e d t o s e t a c u t - o f f ( d e f a u l ti s 4 0 % i d e n t i t y o r l e s s w i t h a n y o t h e r s e q u e n c e ) t h a t w i l l d e l a yt h e a l i g n m e n t o f t h e d i v e r g e n t s e q u e n c e s u n t i l a l l o f t h e r e s t h a v eb e e n a l i g n e d .S o f t w a r e a n d a l g o r i t h m sD y n a m i c p r o g r a m m i n gT h e m o s t d e m a n d i n g p a r t o f t h e m u l t i p l e a l i g n m e n t s t r a t e g y , i nt e r m s o f c o m p u t e r p r o c e s s i n g a n d m e m o r y u s a g e , i s t h e a l i g n m e n to f t w o ( g r o u p s o f ) s e q u e n c e s a t e a c h s t e p i n t h e f i n a l p r o g r e s s i v ea l i g n m e n t . T o m a k e i t p o s s i b l e t o a l i g n v e r y l o n g s e q u e n c e s ( e . g .d y n e i n h e a v y c h a i n s a t - 5 , 0 0 0 r e s i d u e s ) i n a r e a s o n a b l e a m o u n to f m e m o r y , we u s e t h e m e m o r y e f f i c i e n t d y n a m i c p r o g r a m m i n ga l g o r i t h m o f M y e r s a n d M i l l e r ( 2 6 ) . T h i s s a c r i f i c e s s o m ep r o c e s s i n g t i m e b u t m a k e s v e r y l a r g e a l i g n m e n t s p r a c t i c a l i n v e r yl i t t l e m e m o r y . O n e d i s a d v a n t a g e o f t h i s a l g o r i t h m i s t h a t i t d o e sn o t a l l o w d i f f e r e n t g a p o p e n i n g a n d e x t e n s i o n p e n a l t i e s a t e a c hp o s i t i o n . W e h a v e m o d i f i e d t h e a l g o r i t h m s o a s t o a l l o w t h i s a n dt h e d e t a i l s a r e d e s c r i b e d i n a s e p a r a t e p a p e r ( 2 7 ) .M e n u s / f i l e f o r m a t sS i x d i f f e r e n t s e q u e n c e i n p u t f o r m a t s a r e d e t e c t e d a u t o m a t i c a l l ya n d r e a d b y t h e p r o g r a m : E M B L / S w i s s P r o t , N B R F / P I R ,P e a r s o n / F A S T A ( 2 9 ) , GCG/MSF ( 3 0 ) , GD E ( S t e v e n S m i t h ,H a r v a r d U n i v e r s i t y G e n o m e C e n t e r ) a n d C L U S T A L f o r m a ta l i g n m e n t s . T h e l a s t t h r e e f o r m a t s a l l o w u s e r s t o r e a d i n c o m p l e t ea l i g n m e n t s ( e . g . f o r c a l c u l a t i n g p h y l o g e n e t i c t r e e s o r f o r a d d i t i o no f n e w s e q u e n c e s t o a n e x i s t i n g a l i g n m e n t ) . A l i g n m e n t o u t p u tm a y b e r e q u e s t e d i n s t a n d a r d C L U S T A L f o r m a t ( s e l f - e x p l a n a t o r yb l o c k e d a l i g n m e n t s ) o r i n f o r m a t s c o m p a t i b l e w i t h t h e GDE,PHYLIP ( 3 1 ) o r GC G ( 3 0 ) p a c k a g e s . T h e p r o g r a m o f f e r s t h eu s e r t h e a b i l i t y t o c a l c u l a t e N e i g h b o u r - J o i n i n g p h y l o g e n e t i c t r e e sf r o m e x i s t i n g a l i g n m e n t s w i t h o p t i o n s t o c o r r e c t f o r m u l t i p l e h i t s( 3 2 , 3 3 ) a n d t o e s t i m a t e c o n f i d e n c e l e v e l s u s i n g a b o o t s t r a pr e s a m p l i n g p r o c e d u r e ( 3 4 ) . T h e t r e e s may b e o u t p u t i n t h e ' N e wH a m p s h i r e ' f o r m a t t h a t i s c o m p a t i b l e w i t h t h e PHYLIP p a c k a g e( 3 1 ) .A l i g n m e n t t o a n a l i g n m e n tP r o f i l e a l i g n m e n t i s u s e d t o a l i g n t w o e x i s t i n g a l i g n m e n t s ( e i t h e ro f w h i c h m a y c o n s i s t o f j u s t o n e s e q u e n c e ) o r t o a d d a s e r i e so f new s e q u e n c e s t o a n e x i s t i n g a l i g n m e n t . T h i s i s u s e f u l b e c a u s eo n e may w i s h t o b u i l d u p a m u l t i p l e a l i g n m e n t g r a d u a l l y ,c h o o s i n g d i f f e r e n t p a r a m e t e r s m a n u a l l y o r c o r r e c t i n g i n t e r m e d i a t ee r r o r s a s t h e a l i g n m e n t p r o c e e d s . O f t e n , j u s t a f e w s e q u e n c e sc a u s e m i s a l i g n m e n t s i n t h e p r o g r e s s i v e a l g o r i t h m a n d t h e s e c a nb e r e m o v e d f r o m t h e p r o c e s s a n d t h e n a d d e d a t t h e e n d b y p r o f i l ea l i g n m e n t . A s e c o n d u s e i s w h e r e o n e h a s a h i g h q u a l i t y r e f e r e n c ea l i g n m e n t a n d w i s h e s t o k e e p i t f i x e d w h i l e a d d i n g new s e q u e n c e sa u t o m a t i c a l l y .P o r t a b i l i t y / a v a i l a b i l i t yT h e f u l l s o u r c e c o d e o f t h e p a c k a g e i s p r o v i d e d f r e e t o a c a d e m i cu s e r s . T h e p r o g r a m w i l l r u n o n a n y m a c h i n e w i t h a f u l l ANSIc o n f o r m i n g C c o m p i l e r . I t h a s b e e n t e s t e d o n t h e f o l l o w i n g- 3 0 % : B L O S U M 3 0 .

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    6/8

    4 6 7 8 N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 2h a r d w a r e / s o f t w a r e c o m b i n a t i o n s : D e c s t a t i o n / U l t r i x , V a x o rALPHA/VMS, S i l i c o n G r a p h i c s / I R I X . T h e s o u r c e c o d e a n dd o c u m e n t a t i o n a r e a v a i l a b l e b y E - m a i l f r o m t h e EMBL f i l e s e r v e r( s e n d t h e w o r d s HELP a n d HELP S O F T W A R E o n t w o l i n e st o t h e i n t e r n e t a d d r e s s : N e t s e r v @ E M B L - H e i d e l b e r g . D E ) o r b ya n o n y m o u s FT P f r o m F T P . E M B L - H e i d e l b e r g . D E . Q u e r i e s m a yb e a d d r e s s e d b y E - m a i l t o D e s . H i g g i n s @ E B I . A C . U K o rG i b s o n @ E M B L - H e i d e l b e r g . D E .

    RESULTS A N D D I S C U S S I O NA l i g n m e n t o f SH3 d o m a i n sT h e - 6 0 r e s i d u e S H 3 d o m a i n w a s c h o s e n t o i l l u s t r a t e t h ep e r f o r m a n c e o f C L U S T A L W, a s t h e r e i s a r e f e r e n c e m a n u a la l i g n m e n t ( 2 3 ) a n d t h e f o l d i s k n o w n ( 2 4 ) . S H 3 d o m a i n s , w i t ha m i n i m u m s i m i l a r i t y b e l o w 1 2 % i d e n t i t y , a r e p o o r l y a l i g n e db y p r o g r e s s i v e a l i g n m e n t p r o g r a m s s u c h a s C L U S T A L V a n dP I L E U P : n e i t h e r p r o g r a m c a n g e n e r a t e t h e c o r r e c t b l o c k sc o r r e s p o n d i n g t o t h e s e c o n d a r y s t r u c t u r e e l e m e n t s .

    F i g u r e 4 s h o w s a n a l i g n m e n t g e n e r a t e d b y C L U S T A L W o ft h e e x a m p l e s e t o f S H 3 d o m a i n s . T h e a l i g n m e n t w a s g e n e r a t e di n t w o s t e p s . A f t e r p r o g r e s s i v e a l i g n m e n t , f i v e b l o c k s w e r ep r o d u c e d , c o r r e s p o n d i n g t o s t r u c t u r a l e l e m e n t s , w i t h g a p si n s e r t e d e x c l u s i v e l y i n t h e k n o w n l o o p r e g i o n s . T h e f l - s t r a n d si n b l o c k s 1 , 4 a n d 5 w e r e a l l c o r r e c t l y s u p e r p o s e d . H o w e v e r ,f o u r s e q u e n c e s i n b l o c k 2 a n d o n e s e q u e n c e i n b l o c k 3 w e r em i s a l i g n e d b y 1 - 2 r e s i d u e s ( u n d e r l i n e d i n F i g u r e 4 ) . A s e c o n dp r o g r e s s i v e a l i g n m e n t o f t h e a l i g n e d s e q u e n c e s , i n c l u d i n g t h eg a p s , i m p r o v e d t h i s a l i g n m e n t : A s i n g l e m i s a l i g n e d s e q u e n c e ,H P 5 5 , r e m a i n s i n b l o c k 2 ( b o x e d i n F i g u r e 4 ) , w h i l e b l o c k3 i s n o w c o m p l e t e l y a l i g n e d . T h i s a l i g n m e n t c o r r e c t s s e v e r a le r r o r s ( e . g . P 8 5 A , P 8 5 B a n d F U S 1 ) i n t h e m a n u a l a l i g n m e n t ( 2 3 ) .T h e S H 3 a l i g n m e n t i l l u s t r a t e s s e v e r a l f e a t u r e s o f C L U S T A LW u s a g e . F i r s t l y , i n a p r a c t i c a l a p p l i c a t i o n i n v o l v i n g d i v e r g e n ts e q u e n c e s , t h e i n i t i a l p r o g r e s s i v e a l i g n m e n t i s l i k e l y t o b e a g o o db u t n o t p e r f e c t a p p r o x i m a t i o n t o t h e c o r r e c t a l i g n m e n t . T h ea l i g n m e n t q u a l i t y c a n b e i m p r o v e d i n a n u m b e r o f w a y s . I f t h eb l o c k s t r u c t u r e o f t h e a l i g n m e n t a p p e a r s t o b e c o r r e c t , r e a l i g n m e n to f t h e a l i g n m e n t w i l l u s u a l l y i m p r o v e m o s t o f t h e m i s a l i g n e db l o c k s : t h e e x i s t i n g g a p s a l l o w t h e b l o c k s t o ' f l o a t ' c h e a p l y t oa l o c a l l y o p t i m a l p o s i t i o n w i t h o u t d i s t u r b i n g t h e r e s t o f t h ea l i g n m e n t . R e m a i n i n g s e q u e n c e s w h i c h a r e d o u b t f u l l y a l i g n e dc a n t h e n b e i n d i v i d u a l l y t e s t e d b y p r o f i l e a l i g n m e n t t o t h er e m a i n d e r : t h e m i s a l i g n e d H_P55 S H 3 d o m a i n c a n b e c o r r e c t l ya l i g n e d b y p r o f i l e ( w i t h GO P c 8 ) . T h e i n d e l r e g i o n s i n t h e f i n a la l i g n m e n t c a n t h e n b e m a n u a l l y c l e a n e d u p : u s u a l l y t h e e x a c ta l i g n m e n t i n t h e l o o p r e g i o n s i s n o t d e t e r m i n a b l e , a n d may h a v en o m e a n i n g i n s t r u c t u r a l t e r m s . I t i s t h e n d e s i r a b l e t o h a v e a s i n g l eg a p p e r s t r u c t u r a l l o o p . C L U S T A L W a c h i e v e d t h i s f o r t w o o ft h e f o u r S H 3 l o o p r e g i o n s ( F i g u r e 4 ) .I f t h e b l o c k s t r u c t u r e o f t h e a l i g n m e n t a p p e a r s s u s p e c t , g r e a t e ri n t e r v e n t i o n b y t h e u s e r may b e r e q u i r e d . T h e m o s t d i v e r g e n ts e q u e n c e s , e s p e c i a l l y i f t h e y h a v e l a r g e i n s e r t i o n s ( w h i c h c a nb e d i s c e r n e d w i t h t h e a i d o f d o t m a t r i x p l o t s ) , s h o u l d b e l e f t o u to f t h e p r o g r e s s i v e a l i g n m e n t . I f t h e r e a r e s e t s o f c l o s e l y r e l a t e ds e q u e n c e s t h a t a r e d e e p l y d i v e r g e d f r o m o t h e r s e t s , t h e s e c a nb e s e p a r a t e l y a l i g n e d a n d t h e n m e r g e d b y p r o f i l e a l i g n m e n t .I n c o r r e c t l y d e t e r m i n e d s e q u e n c e s , c o n t a i n i n g f r a m e s h i f t s , c a na l s o c o n f o u n d r e g i o n s o f a n a l i g n m e n t : t h e s e c a n b e h a r d t o d e t e c tb u t s o m e t i m e s t h e y h a v e b e e n g r o u p e d w i t h i n t h e e x c l u d e d

    T a b l e 1 . P a s c a r e l l a a n d A r g o s r e s i d u e s p e c i f i c g a p m o d i f i c a t i o n f a c t o r sA 1 . 1 3 M 1 . 2 9C 1 . 1 3 N 0 . 6 3D 0 . 9 6 p 0 . 7 4E 1 . 3 1 Q 1 . 0 7F 1 . 2 0 R 0 . 7 2G 0 . 6 1 S 0 . 7 6H 1 . 0 0 T 0 . 8 9I 1 . 3 2 V 1 . 2 5K 0 . 9 6 Y 1 . 0 0L 1 . 2 1 W 1 . 2 3T h e v a l u e s a r e n o r m a l i s e d a r o u n d a m e a n v a l u e o f 1 . 0 f o r H . T h e l o w e r t h ev a l u e , t h e g r e a t e r t h e c h a n c e o f h a v i n g a n a d j a c e n t g a p . T h e s e a r e d e r i v e d f r o mt h e o r i g i n a l t a b l e o f r e l a t i v e f r e q u e n c i e s o f g a p s a d j a c e n t t o e a c h r e s i d u e ( 1 2 )b y s u b t r a c t i o n f r o m 2 . 0 .

    i n d i v i d u a l l y c o m p a r e d t o t h e a l i g n m e n t a s h a v i n g a p p a r e n t l yn o n s e n s e s e g m e n t s w i t h r e s p e c t t o t h e o t h e r s e q u e n c e s .F i n d i n g t h e b e s t a l i g n m e n tI n c a s e s w h e r e a l l o f t h e s e q u e n c e s i n a d a t a s e t a r e v e r y s i m i l a r( e . g . n o p a i r l e s s t h a n 3 5 % i d e n t i c a l ) , C L U S T A L W w i l l f i n da n a l i g n m e n t w h i c h i s d i f f i c u l t t o i m pr o v e b y e y e . I n t h i s s e n s e ,t h e a l i g n m e n t i s o p t i m a l w i t h r e g a r d t o t h e a l t e r n a t i v e o f m a n u a la l i g n m e n t . M a t h e m a t i c a l l y , t h i s i s v a g u e a n d c a n o n l y b e p u t o na m o r e s y s t e m a t i c f o o t i n g b y f i n d i n g a n o b j e c t i v e f u n c t i o n ( am e a s u r e o f m u l t i p l e a l i g n m e n t q u a l i t y ) t h a t e x a c t l y m i r r o r s t h ei n f o r m a t i o n u s e d b y a n ' e x p e r t ' t o e v a l u a t e a n a l i g n m e n t .N o n e t h e l e s s , i f a n a l i g n m e n t i s i m p o s s i b l e t o i m p r o v e b y e y e ,t h e n t h e p r o g r a m h a s a c h i e v e d a v e r y u s e f u l r e s u l t .I n m o r e d i f f i c u l t c a s e s , a s m o r e d i v e r g e n t s e q u e n c e s a r ei n c l u d e d , i t b e c o m e s i n c r e a s i n g l y d i f f i c u l t t o f i n d g o o d a l i g n m e n t sa n d t o e v a l u a t e t h e m . W h a t w e f i n d w i t h C L U S T A L W i s t h a tt h e b a s i c b l o c k - l i k e s t r u c t u r e o f t h e a l i g n m e n t ( c o r r e s p o n d i n g t ot h e m a j o r s e c o n d a r y s t r u c t u r e e l e m e n t s ) i s u s u a l l y r e c o v e r e d , w i t hs o m e o f t h e m o s t d i v e r g e n t s e q u e n c e s m i s a l i g n e d i n s m a l l r e g i o n s .T h i s i s a v e r y u s e f u l s t a r t i n g p o i n t f o r m a n u a l r e f i n e m e n t , a si t h e l p s d e f i n e t h e m a j o r b l o c k s o f s i m i l a r i t y . T h e p r o b l e ms e q u e n c e s c a n b e r e m o v e d f r o m t h e a n a l y s i s a n d r e a l i g n e d t ot h e r e s t o f t h e s e q u e n c e s a u t o m a t i c a l l y o r w i t h d i f f e r e n t p a r a m e t e rs e t t i n g s . An e x a m i n a t i o n o f t h e t r e e u s e d t o g u i d e t h e a l i g n m e n tw i l l u s u a l l y s h o w w h i c h s e q u e n c e s w i l l b e m o s t u n r e l i a b l y p l a c e d( t h o s e t h a t b r a n c h o f f c l o s e s t t o t h e r o o t a n d / o r t h o s e t h a t a l i g nt o o t h e r s i n g l e s e q u e n c e s a t a v e r y l o w l e v e l o f s e q u e n c e i d e n t i t yr a t h e r t h a n a l i g n t o a g r o u p o f p r e a l i g n e d s e q u e n c e s ) . F i n a l l y ,o n e c a n s i m p l y i t e r a t e t h e m u l t i p l e a l i g n m e n t p r o c e s s b y f e e d i n ga n o u t p u t a l i g n m e n t b a c k i n t o C L U S T A L W a n d r e p e a t i n g t h em u l t i p l e a l i g n m e n t p r o c e s s ( u s i n g t h e s a m e o r d i f f e r e n tp a r a m e t e r s ) . T h e S H 3 d o m a i n a l i g n m e n t i n F i g u r e 4 w a s d e r i v e di n t h i s w a y b y 2 p a s s e s u s i n g d e f a u l t p a r a m e t e r s . I n t h e s e c o n dp a s s , t h e l o c a l g a p p e n a l t i e s a r e d o m i n a t e d b y t h e p l a c e m e n t o ft h e i n i t i a l m a j o r g a p p o s i t i o n s . T h e a l i g n m e n t w i l l e i t h e r r e m a i nu n c h a n g e d o r w i l l c o n v e r g e r a p i d l y ( a f t e r 1 o r 2 e x t r a p a s s e s )o n a b e t t e r s o l u t i o n . I f t h e p l a c e m e n t o f t h e i n i t i a l g a p s i sa p p r o x i m a t e l y c o r r e c t b u t s o m e o f t h e s e q u e n c e s a r e l o c a l l ym i s a l i g n e d , t h i s w o r k s w e l l .C o m p a r i s o n w i t h o t h e r m e t h o d sR e c e n t l y , s e v e r a l p a p e r s h a v e a d d r e s s e d t h e p r o b l e m o f p o s i t i o n -s p e c i f i c p a r a m e t e r s f o r m u l t i p l e a l i g n m e n t . I n o n e c a s e ( 3 5 ) , l o c a ld i v e r g e n t s e q u e n c e s : t h e n t h e y ma y b e r e v e a l e d w h e n t h e y a r e g a p p e n a l t i e s are i n c r e a s e d i n a - h e l i c a l a n d 0 - s t r a n d r e g i o n s w h e n

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    7/8

    N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 2 4 6 7 9ASV_vSRC ttfvalydyesrte---- t 4 1 s f k - - - i t g j r 1 q i v n n t ---------igdwwlahslttg---------qtgyipsnyvapsdRSV_vSRC ttfvalydyeswte-----tdl sf k -- - k g i r l q i v n n t ----------g4nl1ahslttg---------qtgyipsnyvapa4$H_csRC1 t t f v a l y t ' e s r t e - - - - - t d ' l s f k ---k g e r l q i v n n t ---------e *gdww la h s ls tg ---------qtgyipsnyvapsdXl1cSRC1 t t f v a l y z d y e s r t e - - - - - t d l o f k --- lrqivnnt---------e6g4ww1arslssg---------qtgyipsnyvaps~H nSRC t t f v a l y 4 y e s r t e----t k l s f k - - - I . . k g # r l q i v n n t r k v d------vrqgdww1ahslstg---------qtgyipsnyvaps4Xl c S R C 2 t t fv a l y d y e e o r t e - - - - - t d 1 s f r - - - k g e r 1 q i v n n t ---------sgdwlarslssg---------qtgyipenyvapstASV_vYES tvfva l y4 tyea rtt----dGlsfk---kglrfqiinnt -gwasagkgisyaa

    C cYES tvfvalydyeartt---- d4lsfk---.cg4Wrfqiinnt----------*g4wwearsiatg---------ktgyipsnyvapa4HcYESl t i f v a l y d ( y e a r t t - - - - - e d l . s f k - - - k g fiin-gdwwearsiatg---------kngyipsnyvapaXl c YE S tVfValyttyeartt-----e41sfr---kg~rfgiinnt - - - - - - - - - - e o g d w w e a r s i a t g ---------ktgyipsnyvapadXl c FY N t l f v a l y 4 y e a r t e---- d : d l s f q--- ~ g ~ , k f q i l n s s a - - e - - - - - - g d w w e a r s l t t g ---------gtgyipsnyvapvH cFYN t l f v a l y I a y e a r t e - - - - - d d l a f h ---kgekfqilnss---------eog4wwearslttg ---------etgyipsnyvapvM_cFGR tifvalydyeartg----dlt f t - - - t g 4 , k f h i l n n t - - - - - - - - - 1 t y 4 w w e a r s l s s g ---------hrgyvpsnyvapvH_cFGR t l f i a l y d 4 y e a r t e - - - -d4ltft --- q " k f h i l n n t ---------og4nwearslseg---------ktgcipsnyvap4Ha_ STK t i f v & l y 4 y e a r i e ----4lsfk --- ger1qiinta ----------dgdwwyarslitn ---------segyipatyvapek*RHOK i i v v a l y 4 t y e a i h h - - - - - e 4 l s f q - - - . k g 4 q x u v v l e e s - - - - - - - - - - g e w w k a r s l a t r - - - - - - - - - - k e g y i p s n y v a r v 4 qH HCK tivvalydyeaihr----e4lsfq----kgdqinvvleea----------gewwkarslatk---------kegyipsnyvarvn*HLYN divvalypydgihp-----ddlsfk---kg~kkvleeh----------gewwkakslltk---------kegfipsnyvaklnHBLK r f v v a l f a l y a a ' v n d ----- 4lqvl ---kgklqvlrst ---------gawwlarslvtg---------regyvpsnfvapveH_LSKT nlvialhsyepshd----gqd1gfe---kguMq1ri1eqs----------gewwkaqslttg ---------qegfipfnfvakanHILCK nlvialhsyepshd-----gdlgfe ---tgqljeril Ieqs----------gewwkaqstt g----------qegfipfnfvak anFSV v A B L n l f v a l y a f v a s g d - - - - - t l i s i t - - k g : ~ k l r v l g y n h - - - - - - - - - n g e w c e a q t k n g ----------qgvvpsnyitpvnD i n AB LI qlfvalydfqagge---- n g 1 s 1 k - - - k g 0 1 q v r i l s y n k - -- -- -- -- s g e w c e a h s s g n ----------vgwvpsnyvtplnC cTKL kl vval ydy epthd-----gd1g1k---qgM'k1rv1ees----------gewwraqslt tg----------qegliphnfvaxn vnCe_sem5/1 mneavael4fqagsp-----delsfk ---rgn__t1kv1nk4d-------- e f h w y k a e l d - - g ---------negfipsnyirmntece_sem5/2 k f v q a i f d f n p q e s----g : * 1 a f k - - - t g d v i t 1 i n - - - - - - - - - k d 4 p n n w e g q 1 n - -n ---------rrgifpsnyvcpynD i n _ S R C l rvvvs1y4yksr e-----sdlsfmn---k g d r m n e v i 4 d t ----------sdnwrvvn1ttr---------gegliplnfvaeerASVGAGCRK e y v t r a l f d f k g n 4 d g1pk--gilkirlk-ewnem5--rzivyecC Spca elvialydygeksp---- r e v t i n k - - - . k g 4 i 1 t 1 1 n--------k------- k v ] e v n - - d ---------rqgfvpaayvkklqD m n S p c a ecvvalydyteksp---- r e v s m n k - - - c g d v l t l l n ---------snnkdwwkvevn--d--------- r q g f v p a a y i k k i a %DinSpcb phvkslfpfgqmm---gtrn11kskt---------nddwwcvrkdn-g---------vegfvpanyvreve;H_PLC r t v k a l y a y k a k r s ----elfc---rga1ihnvs---------kepggwwkgdygt-r---------iqqyfpsnyvedisR_PLCII cavkalfdykaqre-----d*ltft---ksaiiqnve-----------kdggwwrgdygg-k ---------kqlwfpsnyveemniE P L C I I cavkalfdykaqre-----deltft ---ksaiiqnve----------qeggwwrgdygg-k---------kqlwfpsnyveeumvH - P L C I cavkalfdykaqre---- d*ltfi ---ksaiignve ---------kqeggwwrgdygg-k---------kqlwfpsnyveeinvH_RASA/GAp rrvrailpytkvpd----d Ia---kg4mfivhn ---------ele:dgwmwvtnlrtd--------- e q g l i v e i d l v e e v gA c M 4 I L E p q v k a l y d l y d a q t g----i l t fk ---e g 4 t i i v h q--------- k d Pagwwege1 n--g---------krgwvpanyvqdiA c - M I L C eqaralydfaaenp----de1tfn---egavvtvin ---------ksnpd1wwegeln--g ---------grgvfpasyvelipH_ HS 1 isavlydyqgegs-----d:elafd---pdavitdie ----------v4egvwvrgrch- -g---------hfglfpanyvklleH VAV gtakarydfcar4r----e e s 0 1 s k - - - e g d j i i k i 1 n k k - - - - - - - - - g q q g w w r g e i y g ----------rvgwfpanyveedyD i n _ S R C 2 k l v v a l y i 1 g k a i e ; g - - - - - g d 1 s v g e - - k n _ a e y e v i d d s ---------gehwwkvk d i alg----------nvgyipsnyvqaeaR-CSK teciakynfhgtae-----qdlpfc ---k g 4 l v l t i v - a v t k - - -- - - -- - d p n w y k a k n i k v g - - - -- - - -- - r e g i i p a n y v g k r eH - N C K / l vvvnakfayvaqqe------1dik---Icner1w1lds---------- ksww r v r ns- nmn ---------ktgfvpsnyverknH _ N C K / 2 inpayvkfnymnaere-----dels i j- --ozgtkgaizmIka---------dgwwrgsyn--g---------qvgwfpsnyvteegH NCK/3 hvvqalypfsssnd---- e e 1 n f e - - - k - g _ 4 v m n d v i e k p --------enalpewwkcrkin-g ----------vglvp kn yv tvz nqH_NCF1/l qty ra i a n y ektsg----sBeM a ls---tg4vvevveks----------sgwwfcqznk--a - - - - - - - - - k r g w i p a s f 1 e p , l 4H - N C F 1 / 2 epyvaikaytaveg-----devsll ---egeavevihk-l--------1dgwwvirkd--d---------vtgyfpenmylqksgH_NCF2/1 eahrvlfgfvpetk-----eelqvnu---pgnivfvlkkg---------ndnwatvmfn--g---------qkglvpcnylepveH_NCF2/2 sqvealfsyeatgp-----ed1efq---eg4ii1v1skvn ---------eewlegeckg----------kvgifpkvfvedcaY-ABPI pwataey4lydaaed-----ne1tfv---en4eqkiinie--------- f v 4 j d d l g e l k d - g ---------skglfpsniyvslgnY_EEMl/l k v i k a k y 7 s y q a q t s - - - - k e 1 s f m n - - - e g e W f f y v s g d - - - - - - - - - e ~ k d w y k a s n p ' s t g - - - - - - - - - k e g v v p k t y f e v f t 4

    YBEEMl/2 lyaivlydfkaeka-----deltty---v g 4 6 6 l f i c a h h ---------ncewfiakpigrlg---------gpglvpvgfvsiidC PBO/85 i t a i a l y 4 y q a a g d - - - - - d e i s f d - - - p d 4 i i t n i e ---------mi4dgwwrgvck--g---------ryglfp a n y v e l r g -Y C D C 2 5 g ' i v v a a y 4 f n y p i k k - d s s - s q 1 l s v q - - - g g t i y i l n k n ---------s a g w w d g l v i d a s n g k v -------nrgwfpqnfgrplrY_S C D25 dvvectyqyftksr-----nklslr---vgdliyvl tkg ---------sngwwdgv1irhsannn=ns1ail----drgwfppsftrsily - F u s 1 ktytviqdyeprlt-----diiiris- - - l 1 g * k v k i l a t h---------tgcvknqsivvakrlegvpdleaO C _ C A C b f a v r t n v g y n p s p g d ~ v p v m i l g , a J f r - - - p k d f l h i k e k y - - - - - - - - - t n d w w i g l v k c t k e g i b v - - - - - - - - - - - n e d r g f i p s p g v c l d lD i n D L lyva1lf4ydpnrdd-glp-sr1pf--g41i1hvtnas---------cdd-ewwqarrvlgdneieqgvsrwrH P55 m n f m r a q f d $ y d p k k d n - l i p - c a 1k-f g d i i q i i n k I---------dsnwwqgrvegsske--------saglipspelqewrE P 8 5 A f g y r a l y p f r r e r p - - - - - e d l e l l - - - p g 4 v l v v s r a a l q a l g v a i g n i i r c - p q e v g w m p g l n e r t r ---------qrgdfpgtyveflgE P 8 5 B y c q y r a l y d y k k e r e - - - - - e d i T l h ---l g d i l t v n k g s l v a l g f s d g q * a J & - p e i i i g w l n g y n e t t g ---------ergdfpgtyveyigH _ P 8 B E y c y r a l y d y k k e r e - - - - - e d i d l h ---l g 4 i l t v n k g s l v a l g f s d g p 4 a & . - p e 4 i g w l n g y n e t t g ---------ergdfpgtyveyigS p _ S T E E fqttaisdyenssn ------ k t--- a g 4 t i i v i e v 1 - - - - - " " - 4 d g w c d g i c s - - e ---------krgwfptscidsskH Atk k kvvalydymupina----n a l q l r ---kgeyfilees ---------nl1pwwrardkn-g-------- -q -egyipsnyvteaeF i g u r e 4 . C L U S T A L W a l i g n m e n t o f a s e t o f S H 3 d o m a i n s t a k e n f r o m M u s a c c h i o e t a l . ( 2 3 ) . S e c o n d a r y s t r u c t u r e a s s i g n m e n t s f o r t h e s o l v e d S p e c t r i n ( 2 4 ) a n dF y n ( 3 9 ) d o m a i n s a r e a c c o r d i n g t o DSSP ( 4 0 ) . T h e a l i g n m e n t wa s g e n e r a t e d i n t w o s t e p s u s i n g d e f a u l t p a r a m e t e r s . A f t e r f u l l m u l t i p l e a l i g n m e n t , t h e a l i g n e d s e q u e n c e sw e r e r e a l i g n e d . S e g m e n t s w h i c h w e r e c o r r e c t l y a l i g n e d i n t h e s e c o n d p a s s a r e u n d e r l i n e d . T h e s i n g l e m i s a l i g n e d s e g m e n t i n H - P 5 5 a n d t h e m i s a l i g n e d r e s i d u ei n H _ N C K I 2 a r e b o x e d . T h e s e q u e n c e s a r e c o l o u r e d t o i l l u s t r a t e s i g n i f i c a n t f e a t u r e s . A l l G ( o r a n g e ) a n d P ( y e l l o w ) a r e c o l o u r e d . O t h e r r e s i d u e s m a t c h i n g a f r e q u e n to c c u r r e n c e o f a p r o p e r t y i n a c o l u m n a r e c o l o u r e d : h y d r o p h o b i c = b l u e ; h y d r o p h o b i c t e n d e n c y = l i g h t b l u e ; b a s i c = r e d ; a c i d i c = p u r p l e ; h y d r o p h i l i c = g r e e n ;u n c o n s e r v e d = w h i t e . T h e a l i g n m e n t f i g u r e wa s p r e p a r e d w i t h t h e GD E s e q u e n c e e d i t o r ( S . S m i t h , H a r v a r d U n i v e r s i t y ) a n d C O L O R M A S K ( J . T h o m p s o n , E M B L ) .

    t h e 3 - D s t r u c t u r e s o f o n e o r more o f t h e s e q u e n c e s a r e k n o w n . n u m b e r o f a v a i l a b l e s e q u e n c e s a n d t h e i r e v o l u t i o n a r yI n a s e c o n d c a s e ( 3 6 ) , a h i d d e n M a r k o v m o d e l wa s u s e d t o r e l a t i o n s h i p s . I t w i l l a l s o d e p e n d on t h e d e c i s i o n m a k i n g p r o c e s se s t i m a t e p o s i t i o n - s p e c i f i c g a p p e n a l t i e s a n d r e s i d u e s u b s t i t u t i o n d u r i n g m u l t i p l e a l i g r n m e n t ( e . g . w h e n t o c h a n g e w e i g h t m a t r i x )w e i g h t m a t r i c e s w h e n l a r g e n u m b e r s o f e x a m p l e s o f a p r o t e i n a n d t h e a c c u r a c y a n d a p p r o p r i a t e n e s s o f o u r p a r a m e t e r i s a t i o n .d o m a i n w e r e k n o w n . W i t h C L U S T A L W, we a t t e m p t t o d e r i v e I n t h e l o n g t e r m , t h i s c a n o n l y b e e v a l u a t e d b y e x h a u s t i v e t e s t i n gt h e s a m e i n f o r m a t i o n p u r e l y f r o m t h e s e t o f s e q u e n c e s t o b e o f s e t s o f s e q u e n c e s w h e r e t h e c o r r e c t a l i g n m e n t ( o r p a r t s o f i t )a l i g n e d . T h e r e f o r e , we c a n a p p l y t h e m e t h o d t o a n y s e t o f a r e k n o w n f r o m s t r u c t u r a l i n f o r m a t i o n . W h a t i s c l e a r , h o w e v e r ,s e q u e n c e s . T h e s u c c e s s o f t h i s a p p r o a c h w i l l d e p e n d o n t h e i s t h a t t h e m o d i f i c a t i o n s d e s c r i b e d h e r e s i g n i f i c a n t l y i m p r o v e t h e

  • 8/3/2019 Julie D.Thompson, Desmond G.Higgins and Toby J.Gibson- CLUSTAL W: improving the sensitivity of progressive mult

    8/8

    4 6 8 0 N u c l e i c A c i d s R e s e a r c h , 1 9 9 4 , V o l . 2 2 , N o . 2 2s e n s i t i v i t y o f t h e p r o g r e s s i v e m u l t i p l e a l i g n m e n t a p p r o a c h . T h i si s a c h i e v e d w i t h a l m o s t n o s a c r i f i c e i n s p e e d a n d e f f i c i e n c y .T h e r e a r e s e v e r a l a r e a s w h e r e f u r t h e r i m p r o v e m e n t s i ns e n s i t i v i t y a n d a c c u r a c y c a n b e m a d e . F i r s t l y , t h e r e s i d u e w e i g h tm a t r i c e s a n d g a p s e t t i n g s c a n b e m a d e m o r e a c c u r a t e a s m o r ea n d m o r e d a t a a c c u m u l a t e , w h i l e m a t r i c e s f o r s p e c i f i c s e q u e n c et y p e s c a n b e d e r i v e d [ e . g . f o r t r a n s m e m b r a n e r e g i o n s ( 3 7 ) ] .S e c o n d l y , s t o c h a s t i c o r i t e r a t i v e o p t i m i s a t i o n m e t h o d s c a n b e u s e dt o r e f i n e i n i t i a l a l i g n m e n t s ( 7 , 9 , 1 0 ) . C L U S T A L W c o u l d b e r u nw i t h s e v e r a l s e t s o f s t a r t i n g p a r a m e t e r s a n d i n e a c h c a s e , t h ea l i g n m e n t s r e f i n e d a c c o r d i n g t o a n o b j e c t i v e f u n c t i o n . T h e s e a r c hf o r a g o o d o b j e c t i v e f u n c t i o n t h a t t a k e s i n t o a c c o u n t t h e s e q u e n c e -a n d p o s i t i o n - s p e c i f i c i n f o r m a t i o n u s e d i n C L U S T A L W i s a k e ya r e a o f r e s e a r c h . F i n a l l y , t h e a v e r a g e n u m b e r o f e x a m p l e s o fe a c h p r o t e i n d o m a i n o r f a m i l y i s g r o w i n g s t e a d i l y . I t i s n o t o n l yi m p o r t a n t t h a t p r o g r a m s c a n c o p e w i t h t h e l a r g e v o l u m e s o f d a t at h a t a r e b e i n g g e n e r a t e d , t h e y s h o u l d b e a b l e t o e x p l o i t t h e n e wi n f o r m a t i o n t o m a k e t h e a l i g n m e n t s m o r e a n d m o r e a c c u r a t e .G l o b a l l y o p t i m a l a l i g n m e n t s ( a c c o r d i n g t o a n o b j e c t i v e f u n c t i o n )m a y n o t a l w a y s b e p o s s i b l e , b u t t h e p r o b l e m m a y b e a v o i d e di f s u f f i c i e n t l y l a r g e v o l u m e s o f d a t a b e c o m e a v a i l a b l e . C L U S T A LW i s a s t e p i n t h i s d i r e c t i o n .ACKNOWLEDGEMENTSN u m e r o u s p e o p l e h a v e o f f e r e d a d v i c e a n d s u g g e s t i o n s f o ri m p r o v e m e n t s t o e a r l i e r v e r s i o n s o f t h e C L U S T A L p r o g r a m s .D . H . w i s h e s t o a p o l o g i s e t o a l l o f t h e i r a t e C L U S T A L V u s e r sw h o h a d t o l i v e w i t h t h e b u g s a n d l a c k o f f a c i l i t i e s f o r g e t t i n gt r e e s i n t h e N ew H a m p s h i r e f o r m a t . W e w i s h t o s p e c i f i c a l l y t h a n kJ e r o e n C o p p i e t e r s w h o s u g g e s t e d u s i n g a s e r i e s o f w e i g h t m a t r i c e sa n d S t e v e n H e n i k o f f f o r a d v i c e o n u s i n g t h e B L O S U M m a t r i c e s .W e a r e g r a t e f u l t o R e i n A a s l a n d , P e e r B o r k , A r i e l B l o c k e r a n dB e r t r a n d S e r a p h i n f o r p r o v i d i n g c h a l l e n g i n g a l i g n m e n t p r o b l e m s .T . G . a nd J . T . t h a n k K e v i n L e o n a r d f o r s u p p o r t a n d e n c o u r a g e -m e n t . F i n a l l y , w e t h a n k a l l o f t h e p e o p l e w h o h a v e b e e n i n v o l v e dw i t h v a r i o u s C L U S T A L p r o g r a m s o v e r t h e y e a r s , n a m e l y P a u lS h a r p , R a i n e r F u c h s a n d A l a n B l e a s b y .

    1 6 . L u i t h y , R . , X e n a r i o s , I . a n d B u c h e r , P . ( 1 9 9 4 ) P r o t e i n S c i . 3 , 1 3 9 - 1 4 6 .1 7 . H i g g i n s , D . G . a n d S h a r p , P . M . ( 1 9 8 8 ) G e n e 7 3 , 2 3 7 - 2 4 4 .1 8 . H i g g i n s , D . G . a n d S h a r p , P . M . ( 1 9 8 9 ) CABIOS 5 , 1 5 1 - 1 5 3 .1 9 . H i g g i n s , D . G . , B l e a s b y , A . J . a n d F u c h s , R . ( 1 9 9 2 ) CABIOS 8 , 1 8 9 - 1 9 1 .2 0 . S n e a t h , P . H . A . a n d S o k a l , R . R . ( 1 9 7 3 ) N u m e r i c a l T a x o n o m y . W . H .F r e e m a n , S a n F r a n c i s c o .2 1 . S a i t o u , N . a n d N e i , M . ( 1 9 8 7 ) M o l . B i o l . E v o l . 4 , 4 0 6 - 4 2 5 .2 2 . B a s h f o r d , D . , C h o t h i a , C . a n d L e s k , A . M . ( 1 9 8 7 ) J . M o l . B i o l . 1 9 6 ,1 9 9 - 2 1 6 .2 3 . M u s a c c h i o , A . , G i b s o n , T . , L e h t o , V . - P . a n d S a r a s t e , M . ( 1 9 9 2 ) . FEBSL e t t . 3 0 7 , 5 5 - 6 1 .2 4 . M u s a c c h i o , A . , N o b l e , M . , P a u p t i t , R . , W i e r e n g a , R . a n d S a r a s t e , M . ( 1 9 9 2 ) .N a t u r e , 3 5 9 , 85 1 - 8 5 5 .2 5 . B a s h f o r d , D . , C h o t h i a , C . a n d L e s k , A . M . ( 1 9 8 7 ) . J . M o l . B i o l . 1 9 6 ,1 9 9 - 2 1 6 .2 6 . M y e r s , E . W . a n d M i l l e r , W. ( 1 9 8 8 ) . CABIOS 4 , 1 1 - 1 7 .2 7 . T h o m p s o n , J . D . ( 1 9 9 4 ) . CABIOS s u b m i t t e d f o r p u b l i c a t i o n .2 8 . S m i t h , T . F . , W a t e r m a n , M . S. a n d F i t c h , W.M. ( 1 9 8 1 ) J . M o l . E v o l . 1 8 ,3 8 - 4 6 .2 9 . P e a r s o n , W . R . a n d L i p m a n , D . J . ( 1 9 8 8 ) P r o c . N a t l . A c a d . S c i . U S A . 8 5 ,2 4 4 4 - 2 4 4 8 .3 0 . D e v e r e u x , J . , H a e b e r l i , P . a n d S m i t h i e s , 0 . ( 1 9 8 4 ) N u c l e i c A c i d s R e s . 1 2 ,3 8 7 - 3 9 5 .3 1 . F e l s e n s t e i n , J . ( 1 9 8 9 ) C l a d i s t i c s 5 , 1 6 4 - 1 6 6 .3 2 . K i m u r a , M. ( 1 9 8 0 ) J . M o l . E v o l . 1 6 , 1 1 1 - 1 2 0 .3 3 . K i m u r a , M . ( 1 9 8 3 ) T h e N e u t r a l T h e o r y o f M o l e c ul a r E v o l u t i o n . C a m b r i d g eU n i v e r s i t y P r e s s , C a m b r i d g e .3 4 . F e l s e n s t e i n , J . ( 1 9 8 5 ) E v o l u t i o n 3 9 , 7 8 3 - 7 9 1 .3 5 . S m i t h , R . F . a n d S m i t h , T . F . ( 1 9 9 2 ) P r o t e i n E n g n g 5 , 3 5 - 4 1 .3 6 . K r o g h , A . , B r o w n , M . , M i a n , S . , S j o l a n d e r , K . a n d H a u s s l e r , D . ( 1 9 9 4 )J . M o l . B i o l . 2 3 5 - 1 5 0 1 - 1 5 3 1 .3 7 . J o n e s , D . T . , T a y l o r , W . R . a n d T h o r n t o n , J . M . ( 1 9 9 4 ) F E B S L e t t . 3 3 9 ,2 6 9 - 2 7 5 .3 8 . B a i r o c h , A . a n d B o c k m a n n , B . ( 1 9 9 2 ) N u c l e i c A c i d s R e s . 2 0 , 2 0 1 9 - 2 0 2 2 .3 9 . N o b l e , M . E . M . , M u s a c c h i o , A . , S a r a s t e , M . , C o u r t n e i d g e , S . A . a n dW i e r e n g a , R . K . ( 1 9 9 3 ) EMBO J . 1 2 , 2 6 1 7 - 2 6 2 4 .4 0 . K a b s c h , W. a n d S a n d e r , C . ( 1 9 8 3 ) B i o p o l y m e r s 2 2 , 2 5 7 7 - 2 6 3 7 .

    REFERENCES1 . F e n g , D . - F . a n d D o o l i t t l e , R . F . ( 1 9 8 7 ) J . M o l . E v o l . 2 5 , 3 5 1 - 3 6 0 .2 . N e e d l e m a n , S . B . a n d W u n s c h , C . D . ( 1 9 7 0 ) J . M o l . B i o l . 4 8 , 4 4 3 - 4 5 3 .3 . D a y h o f f , M . O . , S c h w a r t z , R . M . a n d O r c u t t , B . C . ( 1 9 7 8 ) I n A t l a s o f P r o t e i nS e q u e n c e a n d S t r u c t u r e , v o l . 5 , s u p p l . 3 ( D a y h o f f , M . O . , e d . ) , p p 3 4 5 - 3 5 2 .N B R F , W a s h i n g t o n .4 . H e n i k o f f , S . a n d H e n i k o f f , J . G . ( 1 9 9 2 ) P r o c . N a t l . A c a d . S c i . U S A 8 9 ,1 0 9 1 5 - 1 0 9 1 9 .5 . L i p m a n , D . J . , A l t s c h u l , S . F . a n d K e c e c i o g l u , J . D . ( 1 9 8 9 ) P r o c . N a d . A c a d .S c i . U S A 8 6 , 4 4 1 2 - 4 4 1 5 .6 . B a r t o n , G . J . a n d S t e m n b e r g , M . J . E . ( 1 9 8 7 ) J . M o l . B i o l . 1 9 8 , 3 2 7 - 3 3 7 .7 . G o t o h , 0 . ( 1 9 9 3 ) CABIOS 9 , 3 6 1 - 3 7 0 .8 . A l t s c h u l , S . F . ( 1 9 8 9 ) J . T h e o r . B i o l . 1 3 8 , 2 9 7 - 3 0 9 .9 . L u k a s h i n , A . V . , E n g e l b r e c h t , J . a n d B r u n a k , S . ( 1 9 9 2 ) N u c l e i c A c i d s R e s .2 0 , 2 5 1 1 - 2 5 1 6 .1 0 . L a w r e n c e , C . E . , A l t s c h u l , S . F . , B o g u s k i , M . S . , L i u , J . S . , N e u w a l d , A . F .a n d W o o t o n , J . C . ( 1 9 9 3 ) S c i e n c e 2 6 2 , 2 0 8 - 2 1 4 .1 1 . V i n g r o n , M . a n d W a t e r m a n , M . S . ( 1 9 9 3 ) J . M o l . B i o l . 2 3 4 , 1 - 1 2 .1 2 . P a s c a r e l l a , S . a n d A r g o s , P . ( 1 9 9 2 ) J . M o l . B i o l . 2 2 4 , 4 6 1 - 4 7 1 .1 3 . C o l l i n s , J . F . a n d C o u l s o n , A . F . W . ( 1 9 8 7 ) I n N u c l e i c A c i d a nd P r o t e i nS e q u e n c e A n a l y s i s , A P r a c t i c a l A p p r o a c h ( B i s h o p , M . J . a n d R a w l i n g s , C . J . ,e d s ) , c h a p t e r 1 3 , p p . 3 2 3 - 3 5 8 .1 4 . V i n g r o n , M. a n d S i b b a l d , P . R . ( 1 9 9 3 ) P r o c . N a t l . A c a d . S c i . U S A 9 0 ,8 7 7 7 - 8 7 8 1 .1 5 . T h o m p s o n , J . D . , H i g g i n s , D . G . a n d G i b s o n , T . J . ( 1 9 9 4 ) CABIOS 1 0 ,1 9 - 2 9 .