faster reliable phylogenetic analysis article by: vincent berry & david bryant presented by:...

24
Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman &

Post on 20-Dec-2015

222 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Faster reliable phylogenetic analysis Article by: Vincent Berry & David BryantPresented by: Leonid Shuman & Eva Frant

Page 2: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

הקדמהבעיית בניית העצים הפילוגנטיים היא בעיה ידועה בביולוגיה

החישובית, אשר מטרתה לשחזר את היסטורית ההתפתחות של קבוצת זנים נתונה.

חסרון משמעותי של השיטות לפיתרון הבעיה הוא שהן מנסות ליצור עץ בינארי שלם גם כאשר המידע שנתון הוא רנדומאלי לחלוטין. בעוד

שלכאורה עץ בינארי שלם נראה יותר אינפורמטיבי, במציאות הרבה מהקשתות הפנימיות הן קשתות מלאכותיות אשר מקורן בשיטה עצמה

ולא במידע שנתון לנו.

מספר מחקרים אשר בחנו שיטות מבוססות מרחק הציעו עצי אבולוציה שבהם הקשתות הפנימיות מוגבלות תחת תנאים קומבינטוריים

מסוימים.

, (Buneman)אחת השיטות הללו היא השיטה אשר אותה הציע בונמן ואותה נציג כעת.

Page 3: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

עץ פילוגנטי חסר שורש

= גרף קשיר ואציקלי )חסר מעגלים(, אשר דרגות עץ פילוגנטי חסר שורשכל הצמתים הפנימיים שלו שוות לשלוש.

לכל העלים מזהים שונים, שנקבעים מתוך קבוצת מזהים אשר נתונה לנו.

דוגמא:

Page 4: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

עץ פילוגנטי בעל שורש

מוגדר באופן דומה לעץ חסר שורש, מלבד עץ פילוגנטי בעל שורש העובדה שישנו צומת פנימי שמוגדר כשורש ודרגתו היא שתיים )בניגוד

לשאר הצמתים הפנימיים שדרגתם היא שלוש(.

דוגמא:

ניתן להפוך עץ חסר שורש לעץ בעל שורש ע"י קביעת עלה, הפיכת הצומת הפנימי שצמוד לו לשורש וסילוקו של העלה הנ"ל.

Page 5: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Splits + Clusters

Split של קבוצה סופית כלשהי הוא חלוקה של הקבוצה לשתי תתקבוצות זרות ומשלימות.

Split המקושר לקשת e (split associated with e)-הוא ה Split הנוצר ע"י מהגרף.eסילוק הקשת

Cluster.הוא תת קבוצה של קבוצה סופית

Splits(T)הוא אוסף כל ה ٍSplit ים המקושרים לקשתות בעץ--T.

( ( , )) { | : s.t. | associated with }Splits T W E U V e E U V e .Splits(T) אם היא תת קבוצה של Compatible-ים היא Split קבוצת •

•Split הוא חלוקה לשניCluster.ים-

המתייחס Clusterה-, אזי B אשר שייך לקבוצהx אם נקבע עלה•.Aהוא הקבוצה Split A|Bל-

Page 6: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Split + Clusterדוגמא ל-

:Tעץ

Split U|V המקושר לקשת e:

Cluster V:

Page 7: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Splits + Clusters

Cluster הוא ה- A, אם Cluster Bמכסה את ה- Cluster A נאמר שה-•ושונה ממנו.Bהקטן ביותר שמכיל את

חלקים. אוסף 2 מעץ בעל שורש יוצר חלוקה של העץ ל-e סילוק קשת • אשר מתייחס Clusterה-העלים בחלק, אשר אינו כולל את השורש, נקרא

, כאשר vל-v הוא קצה הקשת e.בהינתן אוסף כלשהו של • המרוחק יותר מהשורש clusters: C של קבוצת זנים X ותת קבוצה ,

:Yהסגור של , נגדיר את Y X

,A C Y A

Y A

Page 8: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Quartets

אפשרויות לחלק אותן לזוגות. כל אפשרות 3 זנים, ישנן 4לכל קבוצה של .Quartetכזאת נקרא

, האפשרויות הן:a,b,c,dלמשל עבור זנים

( מציין כיצד הצומת האמצעי מחלק ad|bc )למשל Quartet הסימון של ה-• לא נחתך עם b ל-a אם המסלול מ-quartet ab|cd מכלי את ה-Tעץ אותו.

.d ל-cהמסלול מ-

Page 9: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Quartets )המשך(

q(T)-מוגדר להיות קבוצת כל ה quartet-ים ב-T.

מוגדרת כך:Split A|B-ים אשר מתייחסים ל-Quartetקבוצת ה-

( | ) { ' | ' : , ' , , ' }q A B aa bb a a A b b B

מכאן •נובע:

| ( )( ) ( | )AB splits Tq T q A B

Page 10: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Buneman Score, , ,w x y z Xכך:מוגדר

|

1: (min{ , } ( ))

2wx yzq wy xz wz xy wx yz

y ל-x זה המרחק מ-xyכאשר לכל

,x y X.

| '|' , , '

| ',

( ) minUV uu vvu u U v v

UVV

d

Buneman Score -ל q=wx|yzכאשר

Buneman Index-ל split U|V של X :מוגדר כך

)}|בונמן הראה כי ) | : ( ) 0}UVU VB dd הינוcompatible .

-Split הקשתות המוגדרות ע"י ה-המכיל את כעץ Bunemanעץ נגדיר ים

עם המשקלים המוגדרים ע"י)B)d ב- | ( )UV d.

Page 11: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Bunemanדוגמא לעץ

נשים לב שאלגוריתם Buneman לא סיווג את

,Dog, Rabbitהזנים Rodent -ו Kanga

לקבוצות שמכילות יותר מזן אחד.

ניתן להבחין בחלוקות -ים היוצרות קבוצות Splitל-

של זנים בעלי מכנה משותף. למשל:

,Human, Ape פרימטים: •monkey.

,Cow מפרישי פרסה: •Sheep, Pig, Horse.

Page 12: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

מעוגןBunemanעץ

| 0AB הקלת •התנאי

-ים המכילים quartetיכולה להתבצע ע"י בדיקת

עלה xמסוים. X מסוים ולכלsplit U|V

עםx U:נגדיר

| | ', , '| ( ) min { }xUV xu vvu

xUV U v v V

d

-ים:Split נגדיר קבוצת •xU|V{ 0( ) | : }x U VB d

)-ים Split קבוצת ה-• )xB d היאcompatible.

הקשתות המוגדרות ע"י המכיל אתכעץ מעוגן Bunemanעץ נגדיר •

)-ים ב- Splitה- )xB d עם המשקלים המוגדריםע"י

| ( )xUV d.

נבחר•

Page 13: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

)המשך( מעוגן Bunemanעץ

xU|V( ) { | : 0}xB d U V

| | | ', , '

( ) : min { }x xUV UV xu vv

u U v v Vd

| | '| '

, ' , , '( ) minUV UV uu vv

u u U v v Vd

Split U|V ברור כי לכל •מתקיים

תזכורת:

|( ) { | : ( ) 0}U VB d U V d

| |xUV UV מכאן נובע כי .( ) ( )xB d B d.

|כלומר: |( ) ( ) min xx X x UV x X UVB d B d

)עץ Anchored Buneman tree ע"י Buneman כך ניתן לבנות עץ •אחד

לכל (.x X

Page 14: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Buneman tree algorithm

עפ"י הגדרתו של עץ בונמן, ניתן היה לשער שחישובו של העץ ייקח אולם, ניתן לחשב את עץ Quartetעבור כל , כיוון שיש לחשב את זמן

בונמן בעזרת אלגוריתם, שנציג בעוד זמן קצר, אשר עובד בסיבוכיות בלבד. יעילות זו מושגת ע"י המרה של הבעיה, מבעיה שמערבת עצים

, לבעיה שכוללת עצים (dissimilarity measure )חסרי שורש ומדד מרחק. (similarity measure )בעלי שורש ומדד דמיון

על , זוהי פונקציה סימטריתX על קבוצה סופית של זנים sמדד דמיון X*X פונקציה זו מקבלת שני זנים מתוך הקבוצה .X למשל ,

גדול יותר, )s)a,bומחזירה את מידת הדמיון בין שניהם. ככל שהערך של כך גדל הדמיון בין שני הזנים ← הזנים קרובים יותר זה לזה.

4( )O n

q3( )O n

,a b X

Page 15: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Strong isolation index & Strong Clusters

Strong isolation index = עבורcluster :מוגדר באופן הבא ,

אשר שקול ל:

Strong clusters-מוגדרת כקבוצת כל ה cluster ים עבורם-האינדקס

שהגדרנו לעיל חיובי. כלומר:באופן אינטואיטיבי, הגדרת קבוצה זו, פירושה שכל הזנים •

.clusterשדומים מאוד זה לזה נמצאים יחד באותו ה-

( )si AA X

, ' ,( ) min ( , ') max{ ( , ), ( ', )}{ }s

a a A x X Ai A s a a s a x s a x

, ' ,( ) min { ( , ') ( , )}s

a a A x X Ai A s a a s a x

{ : ( ) 0}sA i A

Page 16: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Farris transform

מטרתנו היא להפוך עץ חסר שורש לעץ בעל שורש, וכמו כן להפוך את פונקצית המרחקים )מדד מרחק( לפונקצית דמיון )מדד דמיון(. לשם כך

(, אשר מוגדרת Farris transform )טרנספורמציית פאריסנשתמש ב-כך:

d הם עלים בעץ. הפונקציה a,b נקבע להיות שורש העץ. xכאשר היא הפונקציה שנתונה לנו. ו- היא פונקצית הדמיון בה אנו

שבו בחרנו להיות xמעוניינים, והיא מוגדרת על כל העלים מלבד השורש.

מוגדרת כך:הטרנספורמציה ההפוכה

טרנספורמציה זו הופכת פונקצית דמיון לפונקצית מרחקים. היא , ומתקיים: xמוגדרת עבור כל העלים מלבד השורש

1( , ) ( ( , ) ( , ) ( , ))

2xs a b d a x d b x d a b

xS

( , ) ( , ) ( , ) 2 ( , )x x xd a b s a a s b b s a b

( , ) ( , )xd a x s a aוגם( , ) 0d x x

Page 17: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

לעץ בונמןStrong clustersהקשר בין

מובא בלמה הבאה:Strong clustersהקשר בין עץ בונמן לבין

עם טרנספורמציית X היא פונקצית מרחק על קבוצת הזנים d אם למה: כאשר , אזי מתקיים:X של split הוא U|Vוגם פאריס

הוא השורש שנוצר לאחר טרנספורמציית פאריס.xכאשר

xS

x U

| ( )x

xUV si V

-ים בעץ בונמן מעוגן.split מתייחסים ל-Strong clustres: מסקנההשאלה שנשאלת כעת היא באיזו סיבוכיות זמן ניתן למצוא את

.Strong clustersה-

Page 18: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Strong Clusters אלגוריתםלמציאת

שלילי או isolation index-ים עם cluster המטרה שלנו היא להוריד את ה-•אפס.

-ים המוחזרים ע"י האלגוריתם cluster להיות אוסף ה-C נגדיר את •

single linkage.

iC לכל ולכל נגדיר:• Cix C( , )

(

: min{ ( , ') : ' }

: max{ (, ) , ') : , ' }i

i

i

i

s x x x C

s x x

m C x

M C C xx x

, 'iC x x נשים לב •כי

iC המקושר לאב הקדמון clusterהוא ה-

’(.x )גם ל-x’ הקרוב ביותר ל-x ו-xהמשותף ל-

אחד בדיוק, cluster’ נותנים x ו-x היות וכל זוג עלים •נוכל

לכל העלים בזמן .M ו-m למצוא את ערכי

, 'iC x x2( )O n

Page 19: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Strong clustersטענה -

טענה

, אז:A שמכסה את strong cluster הוא B ו-C ב-cluster הוא Aאם

( ) min{ ( , ) ( , )}sa A

i A m A a M B a

הוכחה

B הוא strong cluster לכן יש לו ,isolation indexחיובי, כלומר

s)a,y(>s)a,x(

, ' ,

'

( ) min { ( , ') ( , )}

min min{ ( , ')} max{ ( , )}

min{ ( , ) ( , )}

{ }

sa a A y B A

a A a A y B A

a A

i A s a a s a y

s a a s a y

m A a M B a

לכל)s)a,a’( - s)a,y( < s)a,a’( - s)a,x וגם

ולכל . לכן:

y B A

x X B

Page 20: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Buneman Treeאלגוריתם 1

i

Construct the set C of strong clusters for s .

foreach A C

: { | }

( | ) : ( )

foreach 2,3,...,

Construct Farris transform s

:

foreach A|B S with

is

i

S S A X A

w A X A i A

i n

C

x B

: { }

prune clusters form C that are not strong clusters of .

foreach

: { | }

( | ) : min{ ( | ), ( )}

Output S with weigi

i

s

C C A

s

A C

S S A X A

w A X A w A X A i A

hts.

1

input: A dissimilarity d on a

set ,..., of taxa.

output: The set of splits of

the Buneman tree with

weight .

nx x

S

w

Page 21: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Strong Clustersאלגוריתם

s

input: A similarity s on a set x of taxa.

output: The tree containing the strong clusters A C(s) and

their strong isolation index i ( ).

Construct the single linkage tree T for s using Prim

A

i

i i.

i i

i

's algorithm.

C:= clusters of T.

foreach C in a depth first traversal of T

Compute m(C , ) for all x C

Compute M(C , ) for all x C .

foreach C in a pre-order traversal of T

Calcula

C

x

x

C

s

i s

te i ( ) using the last .

Remove C if i ( ) 0.

Output C with weights

iC Lemma

A

Page 22: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

Single Linkageאלגוריתם

1 2

input: d is distance measure on X

output: C is the single linkage clustering tree for T

1: C a set of clusters, one to each elemnt in X

2: while |C|>1 do

3: Choose the clusters c , that minimze c C 1 2

1 2

1 2 1 2

1 2

the quantity ( , ).

4: Create ' .

5: Calculate distances from ' to all other clusters '' by setting

( , ) min{ ( , ''), ( , '')}

6: Prune and from C, add

d c c

c c c

c c

d c c d c c d c c

c c

''.

7: end while

c

Page 23: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

דוגמת הרצה עבור אלגוריתם Buneman

:A,B,C,D,E זנים 5: פונקצית מרחקים עבור נתון

ABCDE

A05476

B507109

C47076

D710705

E69650

עבור פונקצית המרחקים Buneman: לבנות עץ המטרה הנ"ל.

Page 24: Faster reliable phylogenetic analysis Article by: Vincent Berry & David Bryant Presented by: Leonid Shuman & Eva Frant

תוצאת ריצת האלגוריתם