will my mutation be deleterious?

Will my mutation be deleterious?

Classifying point mutations at the protein interface by SVM, Rosetta and Foldx

Elad Mezuman

Ora Furman

בתוכנית:רקע

מוטיבציהפונקציות אנרגיהלמידההעולם אליו אני נכנס

שיטותSVMסריקה לאלאניןהערכת ביצועים הDataset שלי

תוצאותביצועים התחלתיים ביצועים בעקבותRFEואופטימיזציה משקלים

מסקנותצעדים להמשך

קצת מוטיבציה!

שמענו כבר על החשיבות של האינטראקציותוהבנת המבנה של קומפלקסים חלבונים

נרצה כלים לנתח את המבנה, אשרבאמצעותם נוכל, למשל, למצוא את

החומצות האמינו הקריטיות לקישור מוצלח בין החלבונים

ע"פ מספר מחקרים, רק מספר מצומצם שלחומצות האמינו בממשק תורם משמעותית

לאנרגיית הקישור החופשית שם

1bxi: Im9-DNase interaction

פונקצית אנרגיה

האנרגיה החופשית הינה מדד ליציבות החלבונים קיימים מודלים כמותיים להערכת האנרגיה של קישור

בין חלבונים המודל הפשוט מתאר את אנרגית הקישור של שני

חלבונים כצירוף ליניארי של פרמטרים שונים הלקוחים הן מכימיה פיזקלית והן מאנליזות

סטטסטיות על חלבונים ידועים:

( הפרמטרים כוללים למשל, כוחות משיכהEatr )( בין כל האטומים Ehbnd( קשרי מימן )Erepודחייה )בממשק

iiEWG

שני יהודים שלוש דעות

אלגוריתמים חישוביים שונים, לדוגמאFoldx ו Rosetta מציעים פונקציות אנרגיה שונות וחיזויים ,

שונים, על אף שהמודל הפיזיקלי דומה )צירוף לינארי של מושגי אנרגיה(

כיצד הותאמו המשקלים בפונקצית האנרגיה?

לבעיות שונות הותאמו משקלים אופטימלים, עלסמך נתונים ניסיוניים, למשל בשיטה הבאה:

2))((minarg

j iiipredictedW

EWjG

בFoldx 0.2 בקפיצות של 2 ל 0 בחרו לפתור את הבעיה ע"י ריצה על כל הערכים בין בOptimized Rosetta בחרו לפתור את הבעיה באמצעות ,conjugated-gradient-

base optimization methods

למידה לצורך הכרעה

אנו מחפשים פונקציה שבהינתן וקטור )= סט שלתכונות( המתאר את המוטציה תיתן תשובה:

"הרסנית" או "לא הרסנית"

על מנת ליצור את הפונקציה אנו נשתמש בידעמוקדם, ידע נסיוני, האם המוטציה הרסנית או לא

1: NRf

1),(),....,,( 11 Nmm Ryxyx

אם יש את התוכנות למה צריך אותי?

עובדה: התוכנות לא מספקות תוצאות מספיקטובות!

(Accuracy: Foldx=65%, Rosetta=66%,Optimized Rosetta=71%)

שילוב בין התוכנות והוספת ידע נוסףבנית פתרון ספציפי לשאלה שלנו מעבר לבעיית הכרעה מבעיית רגרסיה

)הסבר בהמשך(שימוש בכלים חישוביים מתקדמים

מישור מפרידאנו מחפשים מישור מפריד

)נשים לב שמישור מפריד הוא סט משקולות(

? אבל איזה מישור מפריד נבחר

1סוג +•

1סוג -•

SVM – Support Vector Machine

הממקסם את השולייםנבחר את המישור המפריד

אינטואיטיבי ומראה הצלחה אמפירית בהרבה תחומים

1סוג +•

1סוג -•

כיצד נעריך את הביצועים?

:נשתמש במדדים הבאיםבכמה דוגמאות דייקנו בהערכה שלנו מתוך דיוק –

כל הדוגמאות:Accuracy =

כמה דוגמאות חיוביות תפסנו מתוך כל רגישות – החיוביות.

Sensitivity= כמה דוגמאות שליליות תפסנו מתוך ספציפיות –

כל הדוגמאותSpecificity=

FNFPTNTP

TNTP

TNFP

TN

FNTP

TP

כיצד נבחן את תוצאות הלמידה

בעיה: אנו רוצים להשתמש במירב הידע המוקדםשיש לנו אך מצד שני אנו רוצים לבדוק את החיזוי

שלנו על דוגמאות שלא למדנו בעזרתן ,פתרון אפשריLeave-1-Out Cross

Validation נוציא מסט הדוגמאות שלנו דוגמא אחת )במקרה שלנו

קומפלקס חלבוני( ונלמד על כל שאר הדוגמאותנעריך את הביצועים על הדוגמא אותה הוצאנונחזור על התהליך עבור כל אחת מהדוגמאות

נקודת הפתיחה

Dataset של מוטציות נקודתיות לאלאנין מ ProTherm נתונים נסיונים על השינוי :

באנרגיה החופשית כתוצאה ממוטציה לאלאנין

1שינוי של מעל kcal/molנחשב להרסני קומפלקסים חלבוניים 18הנתונים כוללים

מוטציות בממשק220ובהן כ

Will my mutation be Deleterious?

Alanine Scanning

SVMהכנת הנתונים ל :לכל מוטציה נכין וקטור עם התכונות הידועות לנו עליה

הערכות מFoldx הערכות מRosettaנתוני שמירות, עד כמה הח.א קבורה – כמה שכנים יש לה

( ננרמל את הנתונים על בסיס תכונותfeatures)

x

xscoreZ )(

0.5

0.55

0.6

0.65

0.7

0.75

0.8

0.85

0.9

0 0.1 0.2 0.3 0.4

Delta from 1

Ac

cu

rac

y

Foldx

Rosetta

Optimized Rosetta

Start Point - Accuracy

Start Point

0.50.55

0.60.65

0.70.75

0.80.85

0.9

Specificity Sensitivity Accuracy

Foldx Rosetta Optimized Rosetta

SVM Performance

0.5

0.6

0.7

0.8

0.9


Foldx Foldx SVM

Rosetta Rosetta SVM

Foldx + Rosetta )SVM(

Repeated Feature Elimination

0.50.55

0.60.65

0.70.75

0.80.85

0.9

381318# of features

Ac

cu

rac

y

#1 training set#2 training set#1 - independent accuracy#2 - independent accuracy

Final Weights )Normalized(-1 -0.5 0 0.5 1

R VdW attractive

Solvation hydrophobic

Electrostatic kon

# of neighbours

R Solvation

Backbone Hbnd

Entropy sidechain

Sidechain Hbnd

Backbone clash

Water Bridge

R VdW repulsive

Torsonial Clash

VdW

לאיזה תוצאות הגענו?

0

5

10

15

20

25

30

35

40

FALSETRUE

TPR

FPR

Roc Curve True/False Histogram


Optimized Rosetta 73% 79% 75%

SVM 84% 77% 75%

מסקנות עד כה

ניתן להגיע לשיפור בחיזוי הרסניות המוטציה סט הנתונים לא גדול ולכן קשה לעשות

הערכת ביצועים טובה השילוב ביןfeatures ממקורות שונים מוכיח

את עצמו, לא כולם תורמים לפתרון הבעיה

צעדים להמשך

:ולדיציההרחבת מאגר הנתוניםשימוש בשיטות ולידציה נוספות

:אנליזת המודל ניתוח המשקלים שהתקבלו על מנת להבין את המרכיבים

המשפיעים על האינטראקציה

אופטימיזציה נוספת של הSVM:בחינת שימוש בשיטות נוספות להורדת המימד

תודות

אורה פורמןברק רווה ושאר קבוצתה של אורהטומי קפלן...לכם על ההקשבה

לים...

Backup

Rosetta

Foldx

Van der Waals Energy Term:Foldx vs. Rosetta

will my mutation be deleterious?

Documents