excelによる遺伝子名の誤変換 -傾向と対策-

Post on 13-Jun-2015

695 Views

Category:

Documents

9 Downloads

Preview:

Click to see full reader

DESCRIPTION

13.10.31 JSBi 2013年年会のDBCLSオーガナイズの”Open Science Award & BioHack Competition“において発表したスライド

TRANSCRIPT

13.10.31

Excel による遺伝子名の誤変換 - 傾向と対策 -

1

尾崎遼 東京大学 露崎弘毅 東京理科大学 横山貴央 東京大学

http://github.com/kokitsuyuzaki/BioHack-JSBi2013

@wakuteka

@antiplastics

@yuifu

共同研究者は Excel がお好き

2

Excel

Excel じゃない

Excel で遺伝子名が日付に変換される問題

Excel で遺伝子名が日付に変換される問題

Excel で遺伝子名が日付に変換される

• デフォルトではセルの書式が「標準」設定

• → 日付っぽいと日付になってしまう

• 例 : Oct4 → 4-Oct ( October 4 と認識)

傾向の調査

NCBI Gene

傾向の調査

単射でない場合がある

• 同じ生物種の異なる Gene symbol が同じ日付に変換される

• Marc1, MARCH1 → 1-Mar MARC2, MARCH2 → 2-Mar の2種類

• → 元がどれだか分からない!意外にも SEP* と SEPT* は相互排他的

だった

対策

1. Excel の設定を変える → 負けた気がする

2. ルールベースで戻す → (全)単射でないと無理

3. Identifier を省かない → 修復可能(だけど解決ではない)

4. Excel ファイルを他の言語でつくる

1.例 : R で Excel ファイルをつくってしまう → 色んな書式設定できて便利

http://qiita.com/yuifu/items/aaff8c6bc8955124c6e0

library(xlsx)df <- data.frame(gene_symbol=c("OCT4", "SOX2", "KLF4", "C-MYC"), expression=c(1,6,9,4))wb <- createWorkbook(type=“xlsx")sheet <- createSheet(wb, sheet=“sheet1")cs1 <- CellStyle(wb) + DataFormat("@")addDataFrame(df, sheet, startColumn=1, row.names=F, colStyle=list(`1`=cs1))saveWorkbook(wb, file="test.xlsx")

まとめ

1.    あ

2.    あ

• Identifier を省かない → 修復可能(だけど解決ではない)

• Excel ファイルを他の言語でつくる

• あ

top related