will my mutation be deleterious?
DESCRIPTION
Will my mutation be deleterious?. Classifying point mutations at the protein interface by SVM, Rosetta and Foldx. Elad Mezuman Ora Furman. בתוכנית. רקע: מוטיבציה פונקציות אנרגיה למידה העולם אליו אני נכנס שיטות SVM סריקה לאלאנין הערכת ביצועים ה Dataset שלי תוצאות - PowerPoint PPT PresentationTRANSCRIPT
Will my mutation be deleterious?
Classifying point mutations at the protein interface by SVM, Rosetta and Foldx
Elad Mezuman
Ora Furman
בתוכנית:רקע
מוטיבציהפונקציות אנרגיהלמידההעולם אליו אני נכנס
שיטותSVMסריקה לאלאניןהערכת ביצועים הDataset שלי
תוצאותביצועים התחלתיים ביצועים בעקבותRFEואופטימיזציה משקלים
מסקנותצעדים להמשך
קצת מוטיבציה!
שמענו כבר על החשיבות של האינטראקציותוהבנת המבנה של קומפלקסים חלבונים
נרצה כלים לנתח את המבנה, אשרבאמצעותם נוכל, למשל, למצוא את
החומצות האמינו הקריטיות לקישור מוצלח בין החלבונים
ע"פ מספר מחקרים, רק מספר מצומצם שלחומצות האמינו בממשק תורם משמעותית
לאנרגיית הקישור החופשית שם
1bxi: Im9-DNase interaction
פונקצית אנרגיה
האנרגיה החופשית הינה מדד ליציבות החלבונים קיימים מודלים כמותיים להערכת האנרגיה של קישור
בין חלבונים המודל הפשוט מתאר את אנרגית הקישור של שני
חלבונים כצירוף ליניארי של פרמטרים שונים הלקוחים הן מכימיה פיזקלית והן מאנליזות
סטטסטיות על חלבונים ידועים:
( הפרמטרים כוללים למשל, כוחות משיכהEatr )( בין כל האטומים Ehbnd( קשרי מימן )Erepודחייה )בממשק
iiEWG
שני יהודים שלוש דעות
אלגוריתמים חישוביים שונים, לדוגמאFoldx ו Rosetta מציעים פונקציות אנרגיה שונות וחיזויים ,
שונים, על אף שהמודל הפיזיקלי דומה )צירוף לינארי של מושגי אנרגיה(
כיצד הותאמו המשקלים בפונקצית האנרגיה?
לבעיות שונות הותאמו משקלים אופטימלים, עלסמך נתונים ניסיוניים, למשל בשיטה הבאה:
2))((minarg
j iiipredictedW
EWjG
בFoldx 0.2 בקפיצות של 2 ל 0 בחרו לפתור את הבעיה ע"י ריצה על כל הערכים בין בOptimized Rosetta בחרו לפתור את הבעיה באמצעות ,conjugated-gradient-
base optimization methods
למידה לצורך הכרעה
אנו מחפשים פונקציה שבהינתן וקטור )= סט שלתכונות( המתאר את המוטציה תיתן תשובה:
"הרסנית" או "לא הרסנית"
על מנת ליצור את הפונקציה אנו נשתמש בידעמוקדם, ידע נסיוני, האם המוטציה הרסנית או לא
1: NRf
1),(),....,,( 11 Nmm Ryxyx
אם יש את התוכנות למה צריך אותי?
עובדה: התוכנות לא מספקות תוצאות מספיקטובות!
(Accuracy: Foldx=65%, Rosetta=66%,Optimized Rosetta=71%)
שילוב בין התוכנות והוספת ידע נוסףבנית פתרון ספציפי לשאלה שלנו מעבר לבעיית הכרעה מבעיית רגרסיה
)הסבר בהמשך(שימוש בכלים חישוביים מתקדמים
בתוכנית:רקע
מוטיבציהפונקציות אנרגיהלמידההעולם אליו אני נכנס
שיטותSVMסריקה לאלאניןהערכת ביצועים הDataset שלי
תוצאותביצועים התחלתיים ביצועים בעקבותRFEואופטימיזציה משקלים
מסקנותצעדים להמשך
מישור מפרידאנו מחפשים מישור מפריד
)נשים לב שמישור מפריד הוא סט משקולות(
? אבל איזה מישור מפריד נבחר
1סוג +•
1סוג -•
SVM – Support Vector Machine
הממקסם את השולייםנבחר את המישור המפריד
אינטואיטיבי ומראה הצלחה אמפירית בהרבה תחומים
1סוג +•
1סוג -•
כיצד נעריך את הביצועים?
:נשתמש במדדים הבאיםבכמה דוגמאות דייקנו בהערכה שלנו מתוך דיוק –
כל הדוגמאות:Accuracy =
כמה דוגמאות חיוביות תפסנו מתוך כל רגישות – החיוביות.
Sensitivity= כמה דוגמאות שליליות תפסנו מתוך ספציפיות –
כל הדוגמאותSpecificity=
FNFPTNTP
TNTP
TNFP
TN
FNTP
TP
כיצד נבחן את תוצאות הלמידה
בעיה: אנו רוצים להשתמש במירב הידע המוקדםשיש לנו אך מצד שני אנו רוצים לבדוק את החיזוי
שלנו על דוגמאות שלא למדנו בעזרתן ,פתרון אפשריLeave-1-Out Cross
Validation נוציא מסט הדוגמאות שלנו דוגמא אחת )במקרה שלנו
קומפלקס חלבוני( ונלמד על כל שאר הדוגמאותנעריך את הביצועים על הדוגמא אותה הוצאנונחזור על התהליך עבור כל אחת מהדוגמאות
נקודת הפתיחה
Dataset של מוטציות נקודתיות לאלאנין מ ProTherm נתונים נסיונים על השינוי :
באנרגיה החופשית כתוצאה ממוטציה לאלאנין
1שינוי של מעל kcal/molנחשב להרסני קומפלקסים חלבוניים 18הנתונים כוללים
מוטציות בממשק220ובהן כ
Will my mutation be Deleterious?
Alanine Scanning
SVMהכנת הנתונים ל :לכל מוטציה נכין וקטור עם התכונות הידועות לנו עליה
הערכות מFoldx הערכות מRosettaנתוני שמירות, עד כמה הח.א קבורה – כמה שכנים יש לה
( ננרמל את הנתונים על בסיס תכונותfeatures)
x
xscoreZ )(
בתוכנית:רקע
מוטיבציהפונקציות אנרגיהלמידההעולם אליו אני נכנס
שיטותSVMסריקה לאלאניןהערכת ביצועים הDataset שלי
תוצאותביצועים התחלתיים ביצועים בעקבותRFEואופטימיזציה משקלים
מסקנותצעדים להמשך
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0 0.1 0.2 0.3 0.4
Delta from 1
Ac
cu
rac
y
Foldx
Rosetta
Optimized Rosetta
Start Point - Accuracy
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0 0.1 0.2 0.3 0.4
Delta from 1
Ac
cu
rac
y
Foldx
Rosetta
Optimized Rosetta
Start Point - Accuracy
Start Point
0.50.55
0.60.65
0.70.75
0.80.85
0.9
Specificity Sensitivity Accuracy
Foldx Rosetta Optimized Rosetta
SVM Performance
0.5
0.6
0.7
0.8
0.9
Specificity Sensitivity Accuracy
Foldx Foldx SVM
Rosetta Rosetta SVM
Foldx + Rosetta )SVM(
Repeated Feature Elimination
0.50.55
0.60.65
0.70.75
0.80.85
0.9
381318# of features
Ac
cu
rac
y
#1 training set#2 training set#1 - independent accuracy#2 - independent accuracy
Final Weights )Normalized(-1 -0.5 0 0.5 1
R VdW attractive
Solvation hydrophobic
Electrostatic kon
# of neighbours
R Solvation
Backbone Hbnd
Entropy sidechain
Sidechain Hbnd
Backbone clash
Water Bridge
R VdW repulsive
Torsonial Clash
VdW
לאיזה תוצאות הגענו?
0
5
10
15
20
25
30
35
40
FALSETRUE
TPR
FPR
Roc Curve True/False Histogram
Specificity Sensitivity Accuracy
Optimized Rosetta 73% 79% 75%
SVM 84% 77% 75%
מסקנות עד כה
ניתן להגיע לשיפור בחיזוי הרסניות המוטציה סט הנתונים לא גדול ולכן קשה לעשות
הערכת ביצועים טובה השילוב ביןfeatures ממקורות שונים מוכיח
את עצמו, לא כולם תורמים לפתרון הבעיה
צעדים להמשך
:ולדיציההרחבת מאגר הנתוניםשימוש בשיטות ולידציה נוספות
:אנליזת המודל ניתוח המשקלים שהתקבלו על מנת להבין את המרכיבים
המשפיעים על האינטראקציה
אופטימיזציה נוספת של הSVM:בחינת שימוש בשיטות נוספות להורדת המימד
תודות
אורה פורמןברק רווה ושאר קבוצתה של אורהטומי קפלן...לכם על ההקשבה
לים...
Backup
Rosetta
Foldx
Van der Waals Energy Term:Foldx vs. Rosetta