Download - Cwn aat talk

Transcript

Sinica Bow 與中文詞網的方法與作法

謝舒凱Lab of Ontologies, Language Processing and e-Humanities,

NTNUCWN group, Institute of Linguistics, Academia Sinica

[email protected]

April 24, 2010

Background

Sinica BOW and Chinese Wordnet (CWN)

On-going Efforts and Future Perspectives

Background

Sinica BOW and Chinese Wordnet (CWN)

On-going Efforts and Future Perspectives

Who are We?

我們是一群很有「sense」又懂得搞「關係」的人

What We have been Working on?

Language Resources Construction, Evaluation and KnowledgeModelling:

I Corpus 語料庫 (ASBC, LDC-Gigaword, twWaC(balanced,domain and social media))

I Lexicon 詞彙知識庫 (Core Vocabulary, Domain lexiconknowledge base)

I Ontology 知識本體 (Sinica BOW (SUMO),KYOTO-DOLCHE, Hanzi/radical Ontology, Domainontologies)

Corpus and Query Tools

Ontology and Cross-languages ValidationSUMO Chinese example

抽象的

屬性

關係

組合或種類

圖表

命題

圖表元件

數量

實體

物質

地址

陸地

城市

大陸

島嶼

國家

州或省

形容詞

副詞

名詞

小詞

動詞

廣告

散佈

年齡層

群體組織

族群

家族

行為主體

生物體

地理政治區域

能知覺的行為主體

物體

區域

集合

自體連結物

藻類

非開花植物

蕨類

真菌

蘚類

電流強度單位-安培

函數量英國熱量單位-BTU

熱量的單位-卡路里

發光強度的單位

電壓單位-電伏特

電容量單位-法拉

入射劑量

電感單位

功或能的單位-焦爾

光束的能量單位

照明度的國際單位

力的單位-牛頓

電阻單位-歐姆

壓力的單位

力量單位

電導單位

劑量單位

磁通量密度之國際單位

單一常函數

電壓單位

瓦特

磁通量

兩棲類

冷血脊椎動物魚類

爬行動物

原子質量單位

質量單位 克原子

克分子量

質量單位

解剖構造 體構造

生殖體

有機物

角度單位 平面角單位

立體角單位

常數量

長度單位

面積單位

資訊單位

溫度單位

體積單位

匯率單位

時間單位

光譜線波長單位

公分

英尺

英吋

公尺

英里

角度

弧度

動物屬性生物屬性

發展屬性

疾病或症候群

心理屬性

性別屬性

動物

無脊椎動物

脊椎動物

微生物

植物

毒性生物

動物語言

語言人工語言

人類語言

反對稱關係

不對稱關係

偏序關係

二元關係

非反身關係

二元述詞

反身關係

對稱關係

可遞關係

非可遞關係

一元函應

三分關係

靈長類 人科

四月

八月

十二月

二月

一月

七月

六月

三月

五月

十一月

十月

九月

水棲哺乳動物哺乳類

肉食性動物

有蹄哺乳動物

有袋類

囓齒動物蜘蛛類

節肢動物 甲殼類

昆蟲類

多足類

藝術品

人造物

文本

固定人造物

衣物

裝置

織物

產品

軟體動物

蠕蟲

文章

書籍

證書

句子

電影

摘要

微粒子物體

電腦語言

建構語言

無性生殖複製 有性生殖

睡著

意識屬性 清醒

無意識

聯合函應

二元函應 交換函應

天體

地理區域

洞穴

格位角色

對象態度

命題態度

原子

基本物質次原子粒子

金屬

原子核

電子

中子

質子

貼附

雙客體歷程

分開

結合

比較

脫離

交易

替換

內在屬性

關係屬性

細菌

病毒

戰役暴力性競爭

戰爭

放射性活度單位

依時間變動量 庫侖

頻率單位-赫茲

投注金融交易

購買

銷售

飲料

食物

蔬果

肉類

函應

連續函應

四元函應

三元函應

三元關係三元述詞

二進數

實數

有理數

無理數

負實數

非負實數

述詞

邏輯運算元

四元關係

五元述詞

單值關係

序列

偏值關係

或然關係

五元關係

四元關係

關係延伸至數值

空間關係

時間關係

總值關係

可變元關係

易損屬性

知覺屬性

物理狀態

飽和度

形狀屬性

生物歷程病理歷程

心理歷程

生理歷程

內在改變

狀態改變

化學歷程

表面改變

產生

損害

數量改變

生物活性物質 營養素

荷爾蒙

物質

混合物

純物質

鳥類

溫血脊椎動物

誕生

有機歷程

呼吸

死亡

攝食

生長

位元

位元組

千位元組

百萬位元組

血液體物質

組織

覆蓋體

連結體

脈管或導管

細胞

器官

身體行動

舞蹈

游泳

行走行動

方向的改變

轉移或轉探

放送

運輸

礦物

溶液

沸騰

凝結

凝固

熔化

骨胳

脂肪組織

肌肉

借取

獲取 單方面的獲取

建築物

房間

計算計算

測量意圖心裡歷程

分類

學習

計畫

預測

推理

選擇

犬科動物

貓科動物

蛋白質

維他命

攝氏

華氏-度

絕對溫標

摩擦角度

專利證書

擁有權的轉移

給與

社會互動

溝通

競爭

合作

會面

假裝

字元符號串

化學分解 燃燒

化學合成

使乾

使濕

種類

組合

互不相交類

成對分離類

能認知的行為主體

人類

組織單位

職位

顏色屬性 原色視覺屬性

著色

承諾

宣告

指示

表達

敘述

複數數

虛數

化合物 分子

電腦程式

程序 計畫

限制

持有

心理狀態情緒狀態

物理量 測量單位

自然語言

建構

製作

烹調

生產

含內容物體圖示

語言表述

系列

內在發展

寫作

閱讀

意圖歷程

組織歷程

娛樂或運動

引導

尋求

維持

謀略;技倆

修護

遊戲

訴訟

競爭屬性

規範屬性 主觀評價屬性

降溫

減少

公司/法人

教育組織

政治組織

宗教組織

覆蓋放置

半品脫之量

公升

盎司

品脫

容量或液量單位

英制液量單位-加侖

美制液量單位-加侖

歐元一分

歐元一元

美元一分

美元一元

切割

毀滅

傷害

星期五

星期一

星期六

星期日

星期四

星期二

星期三

時段

日計

持續時間

時計

分計

秒計

周計

年計

解碼

編碼

增加

殺害

工程元件

機器

樂器

運輸工具

武器

診斷歷程調查

有向圖 圖形路徑

多圖

虛擬圖

樹狀圖

命令

詢問

請求

方向屬性位置屬性

心理機能障礙

歷程形狀改變

教育歷程

畢業

僱用

管理

入學

政治歷程

立法歷程

宗教歷程

解僱

工程連結元件

等同關係

偶整數

整數

負整數

非負整數

奇整數

質數

研究領域

有限集

開花植物

慣用式

淡水水域水域

鹹水水域

靜水水域

河川水域

運動

借予

單方面的給與

政府

圖表弧線

圖表迴圈

圖表節點

圖形迴路

操縱

知覺

觸覺

嚐加溫

衝擊碰觸

驅使 射擊

移除

中毒

回憶

追求

詞素

詞組

閏年

唯一序列

出版

軍事歷程

音樂放送聲音

正整數

正實數

社會角色

時區

真值

名詞詞組

介詞詞組

動詞詞組

意圖關係

職務

嗅覺屬性

聲音屬性

味覺屬性

觸覺屬性

一對一函應 數列函應

器官或組織歷程

全序關係

期刊

性格屬性

放送光線

B eliefGroup

揭開

治療歷程

球面度

外科手術

國際單位

時間

時點

酉每

Lexicon

I Corpus distribution-based approachI Simulation-based computational approachI (Psycho-) linguistic approach

Latent Semantics in the Mental Lexicon

Random Walk in the Mental Lexicon

WordNet

WordNet Browser (e.g., Dubey)

Background

Sinica BOW and Chinese Wordnet (CWN)

On-going Efforts and Future Perspectives

Bootstrapping Bilingual Wordnet (I): Sinica BOW

Bootstrapping Bilingual Wordnet (II): GoogleCWN

Chinese-anchored Bilingual Wordnet from Scratch

Methodologies, Issues and Solutions

1. Word segmentatin and selection (frequency and lexicalsemantic theory-based)

2. Word sense distinction: 同義詞集 (synset), 詞義 (sense)、義面 (meaning facet)、異體詞

3. Word sense relations: LSR algegra (transitivity in thenetwork), paronymy, troponymy, morpho-semantic relations,etc.

Implementation

1. From MS Access to MySQL database.2. Python-NLTK modules for CWN (and other resources)3. Convert to LMF-compatible markup

Lexicon Standard and Markup Languages

I LMF (Lexical Markup Framework)I GLML(Generative Lexicon Markup Language)I KAF (KYOTO-Annotation Format)

KAF Example

Current status

Toward a Global Wordnet Grids

I HanziGrid among CJKV (partly done with Chinese Hanzi andJapanese Kanji mapping)

I Chinese-Italian WordNet Web Service (RDF/OWLrepresentation as a data model for Semantic Web)

I Global Wordnets Sense Tagging (Environmental domain forSemEval 2010)

Toward Mashup approach to dynamic LKB: Wordnik

Test online

Toward a better understanding of Lexical and SocialNetwork

KYOTO-CWN WORKSHOP

I Around mid SeptemberI Release of tools, resources, technical reports, browsing system

竭誠歡迎您的參加、批評、指教、與合作,謝謝!


Top Related