「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

37
自自自自自自自自自自自自自自自自 「」 自自自自自自自自自自 Apr 14, 2010 Mamoru Komachi <komachi-- at--is.naist.jp> 自自 自自自自自自自自自 自自自自自自自自自自自自自

Upload: yeriel

Post on 05-Jan-2016

54 views

Category:

Documents


0 download

DESCRIPTION

小町 守 自然言語処理学講座 奈良先端科学技術大学院大学. 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと. Apr 14, 2010 Mamoru Komachi . 自然言語処理の応用勉強会. 4 月からスタートします. 現在の勉強会の分布. DMLA. 機械翻訳. 機械学習. 基礎 + 応用 言語 + 学習. CJE. 言論 マップ. 言語. 基礎. 応用. 新しい勉強会を立ち上げます. 自然言語処理の応用勉強会 自然言語処理を応用する 自然言語処理に応用する - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

「自然言語処理の応用勉強会」の紹介と

これからやりたいこと

Apr 14, 2010     Mamoru Komachi <komachi--at--is.naist.jp>

小町 守自然言語処理学講座

奈良先端科学技術大学院大学

Page 2: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

4 月からスタートします

自然言語処理の応用勉強会2

Page 3: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

現在の勉強会の分布3

CJE 言論マップ

機械翻訳

基礎 応用

基礎 + 応用言語 + 学習

言語

機械学習DMLA

Page 4: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

新しい勉強会を立ち上げます

自然言語処理の応用勉強会 自然言語処理を応用する 自然言語処理に応用する 自然言語処理が応用する

略称 : NLP.app (natural language processing …whatever…

application)

4

Page 5: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

研究室 SNS にコミュニティ作りました研究室 Wiki にページ作りました5

…… まだ参加者 1 人ですが→

新 M1 の人は強制参加です!

Page 6: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

.app といえば……6

これ

Page 7: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ロゴを作ってみました7

nlp nlp nlp

nlp nlp( MIT Press のロゴ ; M-I-T-P らしい)

Page 8: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ロゴを作ってみました8

nlp

nlp

← (参考)レゴいまいち

Page 9: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ロゴを作ってみました9

ちょっと物足りない

キモイ?

← (参考) ジャックランタン

(参考)→スマイリー

id:smly

(^_^) 日本語 :-) 英語

日本語は口、英語は目が笑っている

Page 10: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ロゴを作ってみました

これにしました

10

(参考)→ノアの方舟

Page 11: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

月曜日の 15:10 からスタートです

時間 月 火 水 木 金

13:30- CJE 言論マップ

15:10- NLP.app DMLA 研究会 DMLA

17:00- 研究会

19:00- D-Math FSNLP

11

21:00-

23:00-

機械翻訳のみなさん木曜日空いてます! 土曜日も空いています!(参考 : SICP 勉強

会) M1 のみなさん夜は長いです! (東「 D-Math が 2 時間で終わると思うな

よ」)

Page 12: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

2009 年就職活動の事後報告

これからやりたいこと12

Page 13: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

小町守はいまこんなことを考えています多様・大規模データを駆使して、ことばの意味を理解するための方法論を確立し、実アプリケーションに展開する。統計的かな漢字変換 エンジン ChaIME日本語述語項構造解析器 SynCha

研究者が何をやっているのか、どのような基準で行動しているのか参与観察し、研究者・エンジニアと社会のよりよい関係を築く。生駒日記 http://d.hatena.ne.jp/mamoruk/Twitter http://twitter.com/mamoruk/

13

Page 14: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

14

修士の仕事のまとめ : 述語項構造解析の基礎と応用をしました

リスク管理の必要性が強く叫ばれているが、

市場の実態が把握できていないため打つ手

がないのが実情。

ヲ 【文外】ガ

項構造=誰が、何を、どうする(述語)事態性名詞=行為・状態・出来事を指す名詞項構造=誰が、何を、どうする(述語)事態性名詞=行為・状態・出来事を指す名詞

→ 機械翻訳に応用しました( SOV 型の日本語を SVO 型の英語の語順に並べ替える前処理)

Page 15: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

博士の仕事のまとめ : リンク解析を自然言語処理に適用した手法を提案しました 語義曖昧性解消・意味カテゴリ獲得・対訳辞書

構築 →類似度を計るためにリンク解析で用いられて

いる関連度計算手法(正則化ラプラシアン)を適用

15

主な貢献❀従来法の問題点をグラフ理論的に説明(改善法→関連度計算活用)❀関連度計算手法が適用可能な自然言語処理のタスクを示した❀大規模ウェブデータから知識獲得

Page 16: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

…… しかしこれまでの研究は人手で作成したデータに依存しています 語義曖昧性解消

Senseval/Semeval WordNet/Hinoki Treebank/ 日本語語彙大系

述語項構造解析 京都テキストコーパス 4.0/NAIST テキストコーパス 語彙概念構造辞書

…… やっぱりコストがかかる!

16

リリースまで 4 年仕様作成ミーティング(毎週) =priceless

リリースまで 4 年仕様作成ミーティング(毎週) =priceless

Page 17: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

そこで、これからの研究は正解データも自動的に獲得します17

WBCWBC 検索検索

白血球白血球

ワールド・バリスタ・チャンピオンシップワールド・バリスタ・チャンピオンシップ

ワールド・ベースボール・クラシックワールド・ベースボール・クラシック

世界ボクシング評議会世界ボクシング評議会

クリックログから分かる

Page 18: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

テキスト処理に、多様で大規模なデータ処理を組み合わせます。

Web テキストは書き手が飽和すれば成長は鈍化→テキスト量頼みだと行き詰まる

今後情報爆発していくのはログデータやセンサーデータなど非テキストのデータ→テキスト量は等差数列的にしか増えないが、ログデータは等比数列的に増える(増やせる)

18

今から始めておけば、並列処理のノウハウなど含め、先行者利益を得られる

Page 19: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

こういう技術は高度な情報検索や予測入力に使えます

“ 空気を読む” 検索エンジン・入力インタフェース

19

そばが食べたい……そばが食べたい……

蕎麦人はどうですか?蕎麦人はどうですか?

GPS データによる絞り込み

ふ…ふ…め…め…

ね…ね…

ねる

過去の行動履歴から自動で判断

Page 20: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

分かち書き以外にアプリケーションで使われる水準の要素技術を研究しましょう

要素技術 精度形態素解析(分かち書き) 99%

構文解析(係り受け) 90%

意味解析(述語項構造) 70%

文脈解析(文を超えた関係)

60%

20

ボトムアップな解析は行き詰まっています→ トップダウンな解析も必要です

解析の流

文正解率にすると 5 割文正解率にすると 5 割このあたり8割くらいにしたい

Page 21: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ウェブデータを用いて意味・談話(文脈)解析を次のレベルに押し上げます

21

自然言語処理研究のよくないところ テキストデータ以外使わない 応用先を(あまり)想定しない改善案 使える知識は使う( e.g. アンカーテキスト、ヘッダ)

→意味解析、談話解析 大規模知識獲得(ウェブ上の知識のインデクシング)

Page 22: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

進化したテキスト処理でウェブスケールの大規模知識獲得を推し進めます

従来研究 これからの研究

22

“Microsoft acquired Powerset.”

モノとコトの関係acquire

コトとコトの関係bought

モノとモノの関係

Page 23: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

このテーマの研究に必要なものがいくつかあります 分析対象とするデータ→Web テキスト、ブログデータ、検索クエリログ、クリックスルーログ、セッションログ、変換ログ、 etc…

計算機資源→大規模分散並列処理環境(ハードウェア、ソフ

トウェア、運用能力、プログラミング能力) 人!→研究者(自然言語処理、データマイニング、機

械学習、 etc… )、エンジニア、ユーザ

23

NTT 研究所、 NEC 研究所、…

NAIST 、…

Page 24: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

みなさんの力が必要です!24

Page 25: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

自然言語処理の応用勉強会へ!25

日 時 : 毎週 月曜日 15:10-第 1回 : 4 月 26 日月曜日 15:10-

お待ちしております!まだもうちょっと続きます

Page 26: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

WebDB Forum 2009「インターンシップと産学連携の可能性」第 42回情報科学若手の会「海外インターンシップのすすめ」

これから先生きのこるためには

26

Page 27: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

企業でのインターンシップ・共同研究で研究の仕方を学びました

研究員の方々と議論を通じて有益なコメント・アドバイスをいただけました NTT 研究所 : 統計的機械翻訳のワークショップに

参加(旅行会話の翻訳 =2006 年、特許翻訳=2008 年)

企業の中のデータを利用できました Microsoft Research: 検索クエリログの活用 ヤフー研究所 : 検索クリックスルーログの活用

企業の中にいないと作れない製品を作りました Apple Inc.: iPhone や Mac に使える統計的 IME

の研究

27

→ インターンシップに行きましょう

Page 28: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

リーマンショック以降就職氷河期と言われるこのご時世。。。

28

インターン=恋愛結婚

Page 29: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

えーマジ○○ !?○○ が許されるのは小学生までだよねー

期間 問題 回数 順番インターン= 恋愛結婚 数週間

- 数ヶ月 個人 何回でも!

好きになってから一緒に

ジョブマッチング

= お見合い結婚

数回 家族できれば1 回で

一緒になってから好きに

29

M.K. さん( 32 )「自分インターンシップには 4回行きましたよ。サイコーでした。何回行ってもいいですね。海外にも2 回行きました。超オススメです。恋愛結婚? 何人かと付き合いましたがいまは妻ひとすじですね!」

Page 30: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ケーススタディ 1: NTT 研究所( M1-D2 )

2005 年 8-9 月 学外プロジェクト実習(横須賀)

2006 年 共同研究(旅行会話の機械翻訳のコンテストに参加)→初国際会議発表( 12 月)

2007 年 共同研究( Wikipedia からの対訳辞書構築……成果なし)

2008 年 共同研究(特許翻訳の機械翻訳のコンテストに参加)→国際会議発表( 12 月)

2009 年 1月 就職活動

30

ご縁は大切に!

Page 31: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ケーススタディ 2: Microsoft Research ( M2-D1 )

2006 年 2 月 応募→不戦敗 2007 年 1月 応募→電話面接( 30 分 x2回、英

語)、翌日オファー、ビザの手続きやチケットの手配

2007 年 5月 渡米 最初の 1 ヶ月サーベイ、真ん中の 1 ヶ月実装& 実験、最後の 1 ヶ月国際会議投稿& マニュアル作成

2007 年 8月 帰国→国際会議アクセプト 2007 年 10 月 論文誌投稿→アクセプト 2007 年 12 月 学振内定→結婚 2009 年 1月 就職活動(→ × )

31

諦めないで!

Page 32: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ケーススタディ 3: ヤフー研究所( D2-D3 ) 2008 年 1月 国際会議で研究員の方から誘われる 2008 年 9月 共同研究開始→月 1 回 1 週間程度東京オフィスに行き、サーベイ

2009 年 2-4 月 赤坂にウィークリーマンションを借りてもらって実装・実験

2009 年 3月 就職活動 2009 年 4 月 国際会議投稿→アクセプト 2009 年 5月 研究会発表→学生奨励賞 2009 年 6 月 論文誌投稿→アクセプト

32 わらしべ長者!

Page 33: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ケーススタディ 4: Apple Inc. ( D3) 2007 年 10 月 CICP (学内コンペ型実習)で統計

的かな漢字変換エンジンを作る 2009 年 1月 Mixi と Twitter 経由で誘われる 2009 年 2 月 応募→電話面接( 20 分 x1 、日本語)、1 週間でオファー、ビザの手続きやチケットの手配

2009 年 5月 渡米 最初の 1 ヶ月サーベイ 真ん中の 1 ヶ月実装& テスト 最後の 1 ヶ月プレゼンテーション

2009 年 9月 帰国→就職活動

33 種を蒔いておく!

Page 34: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

インターンシップ、こんな人にお勧めです!

こんな人にお勧め 自分の働く姿が想像できない 企業の中にあるデータ・人・などなどを見て

みたい 玉砕覚悟でチャレンジできる向上心があるこんな人には向いていない 言われたことをただやるだけ 人の言うことを聞かない 仕事(人生)を楽しめない

34

コミュニケーション能力があれば大丈夫

Page 35: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

本日のポイント

「自然言語処理の応用勉強会」つくりました。どうぞご参加ください

多様で大規模なデータを用いた自然言語処理を考えています

学生さん一度はインターンシップに行くといいですよ

35

Page 36: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

ご清聴ありがとうございました。

質問・ご意見・ご感想などどうぞ。

諦めないで!

ご縁は大切に!わらしべ長者!

種を蒔いておく!

Page 37: 「自然言語処理の応用勉強会」の紹介 と これからやりたいこと

自然言語処理の応用勉強会へ!37

日 時 : 毎週 月曜日 15:10-第 1回 : 4 月 26 日月曜日 15:10-

お待ちしております!今度は本当におしまいです