自然言語処理 2011 平成24年1月16日(月)

Post on 29-Jan-2016

67 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

自然言語処理 2011 平成24年1月16日(月). 東京工科大学コンピュータサイエンス学部 亀田弘之. 言語処理システムを本当に実現するためには 何が必要なのか?. NLP システム実現には 何が必要なのか?. 言語データ 言語理論 言語処理理論 各種ツール 設計論 アプリケーションシステム. 1. 言語データ. はじめに言語データありき。. 言語データ 種類と特性. 計算機可読 ( machine-readable) なデータ 音声データ 乳幼児音声、講演データ、対話データ など テキストデータ - PowerPoint PPT Presentation

TRANSCRIPT

自然言語処理 2011平成24年1月16日(月)東京工科大学コンピュータサイエンス学部亀田弘之

言語処理システムを本当に実現するためには何が必要なのか?

2

NLP システム実現には何が必要なのか?

1. 言語データ2. 言語理論3. 言語処理理論4. 各種ツール5. 設計論6. アプリケーションシステム

3

1. 言語データ はじめに言語データありき。

4

言語データ種類と特性 計算機可読 ( machine-readable) なデータ

音声データ 乳幼児音声、講演データ、対話データ など

テキストデータ Shakespeare 全集、朝日新聞全文データ など

動画像形式のデータもあり 大規模 多言語 など

5

言語データ【参考となるサイト】 言語情報処理ポータル

http://nlp.kuee.kyoto-u.ac.jp/NLP_Portal/

6

言語データ例の紹介 (NO.1)

Web 中のテキスト サイトの各ページ Blog のテキスト (Youtube などの動画中の音声 )  など

青空文庫 Project Gutenberg Oxford Text Archive (OTA) Linguistic Data Consortium (LDC) 新聞記事データ

など多数のものがあり

Burnard Lou

Mark Liberman

7

言語データ例の紹介 (NO. 2 )

IPAL 辞書 EDR 辞書 など

研究目的であるならば、必要に応じて出版社等に直接交渉する方法もあり。 (例:広辞苑、徒然草、朝日新聞記事データ など)

横井敏夫

8

青空文庫 サイト

http://www.aozora.gr.jp/ 利用可能なテキスト

著作権切れのテキスト 共有することを許諾されたテキスト

データ形式 XHTML, テキスト txt, エキスパンドブック形式 ebk

( 文字コード: Shift JIS) ビューア (viewer)

いろいろなものが提供されているhttp://www.sky.sannet.ne.jp/at-sushi/aozora/viewer.html(「青空文庫 ビューア」でも検索のこと)

9

青空文庫 参考文献

インターネット図書館 青空文庫野口英司編著 , ISBN4-89984-072-1 ( はる書房 )

10

練習

1. 青空文庫の中から芥川龍之介の作品「蜘蛛の糸」を探してみなさい。

2. ビューアをダウンロードして、作品を表示してみなさい。

3. 青空文庫に自分が貢献できることがないか考えて見なさい。

4. 青空文庫の利点・欠点について考察せよ。5. 清少納言の作品がないのはなぜか? 理由を考え

よ。6. ビューアを自作しなさい。

表示機能の高度化 文字読み上げ機能の追加 など

11

PROJECT GUTENBERG

諸外国のデータが公開されている。一度サイト内を渉猟してみること。

12

練習

1. Lewis Carroll の作品を探してみなさい。2. 音声データを再生してみなさい。3. Project Gutenberg の意義を考えなさい。

社会的意義 NLP 研究の立場からの意義

13

まず、処理対象であるデータをよく観ることが大切。

14

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論3. 言語処理理論4. 各種ツール5. 設計論6. アプリケーションシステム

15

2.言語理論  (入門部分はすでにやりましたよね!) 文法とは

規範文法 vs 記述文法 形式文法

Chomsky の文法理論生成文法 ( 句構造文法、文脈依存文法、文脈自由文法、正規

文法 )変形文法、 X バー理論 など

結合価理論モンタギュー文法 など

個々の未解決問題:以下のものの定義は?単語、品詞、統語構造、意味、意図、文脈 など

16

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論4. 各種ツール5. 設計論6. アプリケーションシステム

17

3. 言語処理理論 (これもすでにやりました) 形態素解析統語解析(構文解析)意味解析意図解析 文脈解析

18

言語処理理論の基礎部分 Chomsky のオートマトン理論

有限状態オートマトン  ⇔  正規言語 ブッシュダウンオートマトン   ⇔ 文脈自由言語  など

この理論が多くの局面で使われているが、個別の処理方法も ad hoc ながらも考案されている。その代表が確率を利用するものである。

言語の確率モデル HMM (Hidden Markov Model)  など

( NLP において確率は避けて通れない。)

< 参考図書 > D. Jurafsky & J. H. Martin, Speech and Language Processing,

Prentice Hall(2000). Chapter 7.鹿野 他 , 音声認識システム , オーム社 (2001).  第2章と第3章

19

言語処理に使われるプログラミング言語 Lisp Prolog Perl Ruby Python C C++ Java  など

20

言語処理の基礎理論を深く知りたい人に Pierre M. Nugues, An Introduction to

Language Processing with Perl and Prolog, Springer(2006).(理論、実装、応用の概要について書かれており、英語、  フランス語、ドイツ語に対しても言及されている。)

これを読めば専門家になれる!かも

21

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論 広範囲にわたる知識が必要

4. 各種ツール5. 設計論6. アプリケーションシステム

22

4. 各種ツール

(補講1月17日(火)4限のときにお話します。)

23

言語処理の流れ

1. 文字認識2. 形態素解析3. 統語解析(構文解析)4. 意味解析5. 文脈解析6. (未知語獲得)7. (統語規則獲得) など

24

形態素解析ツール ・タガー Juman茶筅 Kobako/J Brill’s Tagger GoTagger (Brill’s Tagger を改良したもの ) WordFreak

25

デモ GoTagger Kobako/J (茶筅と Juman は Web を見てください。) OpenNLP

26

構文解析システム Knp ( 京都大学 ) Sax Bump 自作のプログラム

27

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論 広範囲にわたる知識が必要

4. 各種ツール 多種多様だが不完全

5. 設計論6. アプリケーションシステム

28

5. 設計論

1. 理論的枠組みの決定2. モデルの構築 ( 定式化・システム的解明 )3. システム構築

① 仕様の決定② 外部設計③ 内部設計④ コーディング⑤ 検証

4. システムの有効性・妥当性の評価 アプリケーションへの組み込み など

5. 理論・モデルの改良・高度化 29

新たな設計論の必要性 理論の解明モデル化 プログラミング言語の開発 設計パラダイム(設計手法)

オブジェクト指向型言語: Java, C++関数型言語: Lisp, Haskell, ML手続き型言語: C, Pascal 論理型言語: Prolog

( CS としてもっと深く考えなければいけない!)

30

6. アプリケーションシステム仮名漢字変換システム 文章要約システム 検索システム データマイニング ( テキストマイニング ) システム 機械翻訳システム 音声対話システム

道案内フライト案内 音声による PC操作補助

誤字脱字検出システム人工無能 など 31

Web mining Web2.0, Web3.0, Web4.0

32

参考 URL(SEMANTIC WEB)

http://videolectures.net/iswc07_pell_nlpsw/ http://www.w3.org/TR/rdf-primer/

33

NLP システム実現には何が必要なのか?

1. 言語データ ( 計算機可読な ) 処理対象をよく知る

2. 言語理論 言語記述の枠組みを探る

3. 言語処理理論 広範囲にわたる知識が必要

4. 各種ツール 多種多様だが不完全

5. 設計論 新たな設計手法・パラダイムへ?

6. アプリケーションシステム 徐々に実用化? 34

7.そしてさらに何が必要か?脳神経科学認知科学心理学(認知心理学・発達心理学・社会心理学)教育学 社会学 言語学 コミュニケーション学組織行動論学 論理学 数学 コンピュータサイエンス など 35

準備は以上で終わりです。これからが研究の始まりです。

36

top related