citc: chewing in the cloud

76
2010 開放原始碼創新應用開發大賽 雲端新酷音 - Chewing in the Cloud 李宜謙 [email protected]

Upload: ken-lee

Post on 13-Jul-2015

2.323 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: CitC: Chewing in the Cloud

2010 開放原始碼創新應用開發大賽

雲端新酷音 -

Chewing in the Cloud 李宜謙 [email protected]

Page 2: CitC: Chewing in the Cloud

Outline

開發目的 功能簡介 雲端優勢 & 創新設計 詞庫架構 詞庫擴充方法 外部編輯介面 future work

總結 + Q&A

Page 3: CitC: Chewing in the Cloud

為什麼我們想做雲端輸入法?

Page 4: CitC: Chewing in the Cloud

很久很久以前

有幾位熱心的網友整理了

新酷音共享詞庫

Page 5: CitC: Chewing in the Cloud

這個詞庫包含了許多 鄉民常用的詞彙

Page 6: CitC: Chewing in the Cloud

八卦板 魔獸板 棒球板 笨板 黑特板 表特板 惡男 櫻野 溫泉鄉 龍櫻 偏差值 弓道少女 花美男 野豬妹 大光圈 大三元 超焦 繞射現象

繞射 色偏 微型硬碟 陳冠希 鈦金屬 仕樣

越淺 愈淺 博漢特區 登機箱 邊緣化 耳擴 不舒服 限速 腸躁症 超有 洋派 無影罩 棚燈 柔光帳 控光幕 測光錶 方形濾鏡 取景器 移

軸鏡 龍狼傳 火影忍者 貓街 路德維希 水果籃 棋靈王 棋魂 遊戲王 冒險野郎 亂馬 贈送

板 獵人板 雙和板 天堂板 韓劇板 小軟體板 耳機板 將太的壽司 靜鬥士翔 島耕作

Page 7: CitC: Chewing in the Cloud

並且適度地調整了 單字的優先權

Page 8: CitC: Chewing in the Cloud

的 一 是 了 不 我

有 在 人 來 大 上 這 到 們 個 小 你 子 他 以 好 為 就

生 要 說

Page 9: CitC: Chewing in the Cloud

讓當時的新酷音變得

超級好用的啦!!! 大幅地降低了重新選字的次數

Page 10: CitC: Chewing in the Cloud

但是…

已經很久很久沒有更新了 orz

Page 11: CitC: Chewing in the Cloud

很多詞彙已經過時 或是不常用(退流行)了

要怎麼解決詞庫更新與維護的問題呢?

Page 12: CitC: Chewing in the Cloud

所以我們想透過

雲端與社群的力量

讓雲端新酷音具備

即時查詢最新詞彙的能力

Page 13: CitC: Chewing in the Cloud

與雲端結合有什麼好處? CitC 有什麼創新功能??

Page 14: CitC: Chewing in the Cloud

我們重新設計了 新酷音的詞庫架構

讓詞彙查詢不再拘泥於過期的單機詞庫

Page 15: CitC: Chewing in the Cloud

並且透過學習文章 與搜尋建議

讓雲端詞庫與潮流同步

Page 16: CitC: Chewing in the Cloud

1. 縮減客戶端安裝所需空間

只保留最常用的詞彙 其他罕用詞透過雲端查詢

Page 17: CitC: Chewing in the Cloud

如果網路不通 或是

詞庫維修 是不是就沒辦法使用了?

Page 18: CitC: Chewing in the Cloud

不會發生這種狀況!!!

由於保有單機詞庫

所以離線仍具備基本的選詞能力

Page 19: CitC: Chewing in the Cloud

2. 詞庫更新速度快

使用者不必再花時間

修正流行語的錯字

Page 20: CitC: Chewing in the Cloud

3. 客製化與可維護性

雲端詞庫規格與架構開放 使用者可依需求自行建構私人詞庫

Page 21: CitC: Chewing in the Cloud

4. 特定用途詞庫最佳化

使用者能選擇不同的雲端詞庫服務

Page 22: CitC: Chewing in the Cloud

雲端環境下的詞庫架構

Page 23: CitC: Chewing in the Cloud

新酷音原本是 這樣選詞的…

Page 24: CitC: Chewing in the Cloud

使用者輸入

斷詞模組

整合搜尋結果

依詞頻排序

輸出

使用者詞庫

系統詞庫

Page 25: CitC: Chewing in the Cloud

若系統詞庫老舊 加上

使用者詞庫品質不佳

Page 26: CitC: Chewing in the Cloud

所以新酷音有時 會選出很有趣的句子 韓劇跟西洋劇都一樣差勁, 令人不寒而慄

含巨根吸陽具都一樣插進, 令人不含而立

XD

Page 27: CitC: Chewing in the Cloud

為了提升詞庫與 選字的品質

我們將選詞的邏輯改為…

Page 28: CitC: Chewing in the Cloud

使用者輸入

斷詞模組

整合搜尋結果

依詞頻排序

輸出

本機快取查詢

單機詞庫

雲端詞庫

網路無法連線 或連線品質不良

網路連線正常

Page 29: CitC: Chewing in the Cloud

期望透過經常更新 與高品質的詞庫

來提高輸入的成功率

Page 30: CitC: Chewing in the Cloud

除此之外 由於系統架構開放

所以使用者可以架設

自己的雲端詞庫

Page 31: CitC: Chewing in the Cloud

私人詞庫

特定用途詞庫

雲端詞庫伺服器叢集

鏡像詞庫

X

派送新版單機詞庫

查詢

a.citc.cse.tw

b.citc.cse.tw

c.citc.cse.tw

Page 32: CitC: Chewing in the Cloud

CitC 如何擴充雲端詞庫?

Page 33: CitC: Chewing in the Cloud

第一招

參考搜尋建議

Page 34: CitC: Chewing in the Cloud

使用者輸入

查詢相關詞

雲端詞庫 Google Suggest Youtube Suggest

Yahoo! 建議搜尋

整合搜尋結果

依詞頻排序

回傳查詢結果

擴充

Page 35: CitC: Chewing in the Cloud

使用者輸入

雲端詞庫

Google Suggest

Youtube Suggest

Yahoo! 建議搜尋

整合搜尋結果

依詞頻排序

交通 交通

交通大學

交通事故

交通安全 交通機動隊

交通警察 交通裁決所

交通博物館

交通罰單查詢

查詢相關詞

交通, 交通大學, 交通警察, 交通裁決所, 交通罰單查詢, 交通博物館, 交通安全, 交通事故 回傳查詢結果

Page 36: CitC: Chewing in the Cloud

第二招

參考外部文章

Page 37: CitC: Chewing in the Cloud

訓練文章

斷詞系統

擴充雲端詞庫

中研院 CKIP Yahoo! 斷章取義

整合斷詞結果

公開審查與修訂

Page 38: CitC: Chewing in the Cloud
Page 39: CitC: Chewing in the Cloud
Page 40: CitC: Chewing in the Cloud

利用斷詞系統 取出文章內的詞彙

藉此蒐集最新的名詞用語

Page 41: CitC: Chewing in the Cloud

以中研院的斷詞系統為例

Page 42: CitC: Chewing in the Cloud
Page 43: CitC: Chewing in the Cloud

斷詞結果

Page 44: CitC: Chewing in the Cloud

未知詞列表

• 金永敏 Nb 2

• 姜遠珍 Nb 1

• 首爾 Nb 1

• 研策出 VC 1

• 注點 Na 1

• 韓國話 Na 1

• 日本歌 Na 1

• 中語 Na 1

• 金太妍 Nb 1

• 清爽感 Na 1

Page 45: CitC: Chewing in the Cloud

第三招

網友熱血相挺

Page 46: CitC: Chewing in the Cloud

使用者輸入

擴充雲端詞庫

公開審查與修訂

Page 47: CitC: Chewing in the Cloud
Page 48: CitC: Chewing in the Cloud

CitC 是怎樣執行的?

Page 49: CitC: Chewing in the Cloud

以前, 我們這樣打

Page 50: CitC: Chewing in the Cloud

你好~ 我是少女時代的隊長

金太妍 !!!

Page 51: CitC: Chewing in the Cloud

使用者輸入

斷詞模組

整合搜尋結果

依詞頻排序

輸出

使用者詞庫

系統詞庫

金泰言 (ㄐㄧㄣ ㄊㄞˋㄧㄢˊ)

ㄐㄧㄣ ㄊㄞˋㄧㄢˊ

由於詞庫沒有對應的詞彙 因此最後只能依照單字的詞頻輸出: 金泰言

(沒這個詞)

(沒這個詞)

名字打錯了! T_T

Page 52: CitC: Chewing in the Cloud

現在, 我們這樣做

Page 53: CitC: Chewing in the Cloud

使用者輸入

斷詞模組

整合搜尋結果

依詞頻排序

輸出

本機快取查詢

單機詞庫

雲端詞庫

金太妍 (ㄐㄧㄣ ㄊㄞˋㄧㄢˊ)

ㄐㄧㄣ ㄊㄞˋㄧㄢˊ

(沒這個詞)

(沒查過, 無快取資料)

雲端詞庫找到符合的詞彙!!

向 citc.cse.tw 雲端詞庫伺服器發出查詢

Page 54: CitC: Chewing in the Cloud

果然是我的 fan !!! kekeke

Page 55: CitC: Chewing in the Cloud

利用雲端詞庫進行查詢

能夠幫助使用者快速完成

人名或是專有名詞的輸入

Page 56: CitC: Chewing in the Cloud

自己維護詞庫好麻煩… 大家一起做好嗎?

Page 57: CitC: Chewing in the Cloud

這是一定要的啦!!!

Page 58: CitC: Chewing in the Cloud

我們提供了 編輯雲端詞庫的介面

讓使用者能新增, 編修詞彙 並且回饋詞彙的使用頻率

Page 59: CitC: Chewing in the Cloud

現行詞庫

待調整詞頻詞庫

候選詞庫

使用者回饋詞庫

詞庫管理人員

一般使用者

審核

新增詞彙

定期整併

統計使用率

更新現行詞庫

Page 60: CitC: Chewing in the Cloud

新增詞彙

Page 61: CitC: Chewing in the Cloud
Page 62: CitC: Chewing in the Cloud

修改詞頻

Page 63: CitC: Chewing in the Cloud
Page 64: CitC: Chewing in the Cloud
Page 65: CitC: Chewing in the Cloud
Page 66: CitC: Chewing in the Cloud
Page 67: CitC: Chewing in the Cloud
Page 68: CitC: Chewing in the Cloud
Page 69: CitC: Chewing in the Cloud

修改同音詞優先度

Page 70: CitC: Chewing in the Cloud
Page 71: CitC: Chewing in the Cloud

比賽後想繼續做的事

Page 72: CitC: Chewing in the Cloud

1. 降低查詢反應時間

目前查詢反應時間不太穩定

Page 73: CitC: Chewing in the Cloud

2. 推廣共同詞庫平台

讓越來越多人知道 CitC 與共同詞庫

Page 74: CitC: Chewing in the Cloud

3. 持續維護與開發專案

<( ̄ c ̄)y▂ξ

Page 75: CitC: Chewing in the Cloud

Q & A

Page 76: CitC: Chewing in the Cloud

Thank you! ㄟ ( ̄▽ ̄ ㄟ)~~~