蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 :...
Post on 22-Dec-2015
247 views
TRANSCRIPT
專題報告蛋白質功能預測開發環境
971506 謝長鴻971502 卓彥甫971534 黃希鈞
指導教授 :歐昱言
專題目的
開發一個程式環境幫助生物學家可以利用簡單的序列資料得到此蛋白質的基本功能標註
專題架構資料取得
序列剖析
屬性選取
各個分類器結果分析
Query (Transport):existence:"evidence at protein
level" AND annotation:(type:location membrane
confidence:experimental) AND reviewed:yes AND
(keyword:transport or go:transport)
1. AAC(Amino Acid Composition)
2. DPC(Dipepdite Composition)
3. PSSM(Position Specific Scoring Matrix)
機器學習簡介
屬性 1: 顏色屬性 2: 重量屬性 3: 形狀
類別 1: 香蕉類別 2: 蘋果類別 3: 西瓜
香蕉顏色 :黃色
重量 :300克形狀 :長條狀
蘋果顏色 :紅色
重量 :150克形狀 :圓形
西瓜顏色 : 綠色
重量 :900 克形狀 : 圓形
機器學習簡介
?顏色 :紅
色重量 :?
形狀 :圓形
?顏色 :?重量 :?
形狀 :長條
?顏色 :?
重量 :840克
形狀 :圓形
一 . 資料取得
Query:existence:"evidence at protein level" AND
annotation:(type:location membrane confidence:experimental) AND
reviewed:yes AND (keyword:transport or go:transport)
< 尋找 Transport 的 Qiery>
二 . 序列剖析1. AAC: 計算 20 種胺基酸在每條 protein 上各自
出現的比例當成屬性
2. DPC: 計算 20 種胺基酸兩兩配對在 protein 上各自出現的比例當成屬性
3. PSSM: 統計 20 種胺基酸能被其他胺基酸所取代的可能性做為一種屬性
三 . 屬性選取加入 AAIndex 內的屬性,利用 Fscore 公式算出來
值較高的屬性增加到 AAC 、 DPC 或 PSSMEX: 屬性 Fscore 值AAIndex1 0.52AAIndex2 0.01 AAIndex3 0.45 AAIndex4 0.03 將 AAINDEX1 加入選取的屬性中
四 . 各分類器分析原有檔案執行後所產生的檔案產生每條 Protein 的 sequence file序列分析 AAC 與 DPC利用產生出來的屬性 AAC 與 DPC 來跑 weka
四 . 各分類器分析
以下結果由其他組利用我們所開發得工具做成果
報告結束 謝謝大家