webインテリジェンス論 - yamaguti.comp.ae.keio.ac.jp«–/1回目(導入).pdf ·...

30
平成24年度大学院 Webインテリジェンス論 やまぐち たかひら 山口 高平 居室:慶應義塾大学矢上キャンパス 24-619A 内線:42673 電話:045-566-1614 FAX; 045-566-1617 メール:[email protected] Webwww.yamaguti.comp.ae.keio.ac.jp 1

Upload: others

Post on 07-Sep-2019

0 views

Category:

Documents


0 download

TRANSCRIPT

平成24年度大学院

Webインテリジェンス論

やまぐち たかひら

山口 高平 居室:慶應義塾大学矢上キャンパス 24-619A

内線:42673

電話:045-566-1614

FAX; 045-566-1617

メール:[email protected]

Web: www.yamaguti.comp.ae.keio.ac.jp

1

授業内容と授業計画,講義資料,成績評価 授業内容

人工知能(AI)に関する基礎知識を学んだ後、AIとインターネットを融合した、セマンティックWebと

オントロジー、リンクドデータの知識とスキルを修得する。また、ゲストスピーカを招いて、研究開発

とビジネスにおけるAI最前線を学ぶ。

授業計画

①4/10 ガイダンス,人工知能歴史

②4/17 エキスパートシステム,知識モデリング

4/24 休講

5/01 月曜代講日

③5/08 セマンティックWeb概論

④5/15 RDF/RDFS/OWL

⑤5/22 オントロジー開発プロセス

⑥5/29 オントロジーエディター Protege

⑦6/05 セマンティックWebアプリケーションⅠ

6/12 休講

⑧6/19 クイズAI:ワトソン特別講演(金山氏,日本IBM)

⑨6/26 セマンティックWebアプリケーションⅡ

⑩7/3 データマイニングの基礎 or LOD

⑪7/10 ビッグデータ(浜田氏、DeNA)

⑫7/17 LODツール演習

講義資料:pptやpdf資料をWebに掲載 www.yamaguti.comp.ae.keio.ac.jp

成績:レポート3-4回程度で評価

2

人工知能(AI)の歴史

3

1956年 ダートマス会議 ↑

• John McCarthy (LISP)

• Marvin Minskey (フレーム理論)

• Shannon (情報理論,チェス)

• オートマトン≠人工知能(AI)

• AI:人間のような知的な動作を機械にさせるには?

• GPS (General Problem Solver)

• 探索の研究 A*アルゴリズム

4

1965年~ AIの3大事件

・導出原理:拡張三段論法 J.A.Robinson

1972:Prolog処理系

1982~1994:第5世代コンピュータ

・DENDRAL:スペクトラム分析→分子構造

ファイゲンバウム(スタンフォード大学)

一つのアプリケーションにしかすぎない,汎用性

・ピアス勧告:MTは不可能

推論の時代→ Toy Problems、AI冬の時代へ

5

1970年代:冬の時代 ↓

1980年代→知識工学 ↑

• HPP:Heuristics Programming Project 完全ではないがたいていの場合うまくいく知識や方法

• MYCINプロジェクト(1973~1976) MYCIN,TEIRESIAS,GUIDN,EMYCIN

• 知識表現、知識利用、知識獲得→知識工学

• There is power in the knowledge ! (1977) by Feigenbaum

• 1980年代→知識の時代へ エキスパートシステム,自然言語・画像・音声理解システム,知的教育支援システム,...

• 国家プロジェクト,AIハード・ソフトベンダー

6

Machine Intelligence

1956年:ダートマス会議(汎用知能,探索,チェス,定理証明)

1965年:推論(演繹)→Toy Problem

1970年代:AI冬の時代へ

1980年代 : Knowledge is Power! (ファイゲンバウム教授,スタンフォード大)

知識工学,エキスパートシステム知識表現、知識獲得,知識の利用(推論)

ユーザ

知識

ベース

知識

獲得

推論

エンジン

作業

領域

対話

I/F

説明

機能

(専門家)

デモ1:対話デモ(Eliza, 人工無能) デモ2:献立支援ES

7

1990年代:知識獲得ボトルネック

知識(ルール)

→ESが専門家代行という過大な期待.

知識ベース開発のための知識獲得は大変だ!

通産省:第5世代コンピュータ(1982-1994)の失敗?

→推論マシンに特化しすぎ.知識が余りにも不十分.

1990年代: 大規模知識ベース,大規模辞書プロジェクト

CYC, EDR, WordNet(フリーなので現在も広く使われる)

でも,あまり変化しない静的知識だけ.現実には動的知識が

多い.使えないなぁ.AIブームは完全にさめて下火へ

1997年:Deep Blueがチェス世界チャンピオンに勝利.

でもゲームだよね.閉じた問題,整構造問題だからできるんだ.

8

2000以降 CPUの高性能化 • コンピュータのH/W=中央演算処理装置(CPU)

+主記憶装置(メインメモリ)+補助記憶装置+入力装置+出力装置

• CPU: Central Processing Unit

1990年代前半: 300MHz →スーパーコンピュータ(数千万円)

現在:10万円程度のデスクトップパソコン

インテルCore i7(6コア)3GHz

ムーアの法則

2年間でトランジスタ数が1.5倍

(2倍という解釈もあり)

1971年: 4040プロセッサー

トランジスタ数 2300個

2011年: 210×210×210=10億個

もうすぐムーアの法則が成立

しなくなる?なぜ?

CPU開発の歴史:インテルミュージアム

http://www.intel.com/jp/intel/museum/index.htm

2000以降 HDDの普及と利用拡大

※HDDベンダーのシェア:

Western Digital 31.3%,Seagate 30.3%,HGST 17.2%,

東芝 10.9%,Samsung 10.3%

※昔は大企業しかDBを持てなかったが,中小企業,

個人レベルでTB単位のデータを蓄積・分析可能

※データマイニング(大量データから規則性の発見)

①米国ウォールマートが購入された商品分析

日曜日,既婚若者男性,購入商品組合せ

缶ビール-(?)

②10年前,日本のスーパーマーケットで,

右図の商品配置は非常識?

2000以降 情報大爆発の時代

インターネットに保存されているデータ量は?

2011年:1ZB

2012年:?ZB

http://japan.emc.com/leadership/programs/digital-universe.htm

Z(zeta:ゼタ)=10の21乗

E(exa:エクサ)=10の18乗

P(peta:ペタ)=10の15乗

T(tera:テラ)=10の12乗

G(giga:ギガ)=10の9乗

M(mega:メガ)=10の6乗

K(kilo:キロ)=10の3乗

2009年度

流通情報量 7.6 ZB(7600EB)

消費情報量 0.29 EB (0.004%のみ利用。99.996%はスルー) 総務省「情報流通インデックス研究会」報告書の公表(平成21年7月13日) http://www.soumu.go.jp/menu_news/s-news/16188.html

2003年 QA Challenge !(1) IBM PIQUANT

• 2003~ IBM,PIQUANT(Practical Intelligent

Question Answering Technology)プロジェクト

★チェスのような閉じた問題ではなく、事前に分からないクイズに解答するという開いた悪構造問題に挑戦することがポイント

深い論理形式分析と浅い機械翻訳ベースのアプローチを統合

でも、この難しい問題にチェレンジするには、AI技術が未熟で、

マシンパワーも不足して、大きな成果はあげられずに終わる。

12

2007年 QA Challenge !(2) Powerset

(2008年にMSが$1億で買収) 問合せ:アルカトラズ島から逃げた囚人の数は?

Google:関連するページを表示。

答えはページを読まないと分からない

Googleはページ検索エンジン

Powersetは関連するページ内の文章を

ハイライト→文章検索エンジン。

QAシステムといえる。

ただし、Web全体を検索するのではなく、

Wikipediaのみを検索対象。軽いオントロジー

を使って、同義語、類義語を判断している様子。

新しい事柄に関するQAは、

Googleの方が上になるケースがあり、

開放性が低い、データ規模が小さい、意味処理技術が不十分?により、この3年間、成果発表はない。でも、急に発表があるかも?

正当:0回。

計14回あった脱獄計画に36人の囚人が関わり、全員脱獄に失敗した。

13

2011年 QA Challenge ! (3) IBM Watson

・IBM Deep Question Answering Project

(ジョパディで,ワトソンがチャンピオンに挑戦して勝利)

Open-Domain Question Answering

PIQUANTから時代が進み,技術が成熟、マシンパワーが拡大

14

IBM Watsonの概要

★大規模知識の獲得(100万冊,2億ページ) 百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。

自動的にコーパスを拡大。

★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出

★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成,

仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど,

100以上の従来AI技術(20年前の技術もある)の集大成

★精度、確信度、速度を考慮したAIインテグレーション

★計算力:並列計算による計算パワー

★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。

★展開性: 医療、金融、行政、マーケティングにも適用可能 15

人工知能+インターネット

16

http://www.semanticweb.org/about.html#bigpicture

Big Picture for Semantic Web (2001)

17

18

RDFモデルによるLinked Open Data(LOD)

• LOD規模:5億トリプル(2007) ⇒2011年9月時点で310億トリプルに増加

19

メディア

行政

地理

生命科学

出版

DBpedia

Wikipediaから構造化されたデータを抽出、RDF形式で提供

・データ自体がリンクしている

・情報の公開、共有が容易になる

・第三者によるサービス開発の促進に繋がる 情報流通基盤として期待が集まる

RDB vs RDF

RDFの場合

id 企業名 住所 EDINET

コード

1 ソニー株式会社

東京都港区港南1丁目7番1号

E01777

id 企業名 住所 EDINET

コード

緯度 経度

1 ソニー株式会社

東京都港区港南1丁目7番1号

E01777 null null

id 企業名 住所 EDINET

コード

緯度 経度

1 ソニー株式会社

東京都港区港南1丁目7番1号

E01777 35.63120

7

139.7435

2

会社マスタ

緯度・経度のカラムを追加

緯度・経度のデータを挿入

RDBの場合

スキーマ変更の手間が少ない

→LOD自体の拡張も容易 20

織田信長

本能寺

墓所

濃姫 妻

法華宗本門流

日本の

寺院

建築物

日本の神

武士 安土桃山時代の人物

宗派

1415年

②言葉(概念、カテゴリー)階層木

①言葉(=固有表現、具体物)ネットワーク

オントロジーとは?

→言葉の木(語木)とネットワーク(語網) →①+②

創建年

人物 神

天文3年5月12日

生誕

豊臣秀吉

主君

本蓮寺

宗派

日本の城

岐阜城

主な改修者

1347年

創建年

21

WordNet

22

23

Wikipediaからオントロジー(言葉階層木,

言葉のネットワーク)に自動変換して,人工物に言葉の意味(Sense)を理解させる

→日本語Wikipediaオントロジー

人間には,ウィキペディアの内容(意味)が判るけど人工物

(コンピュータ,携帯,ロボット...)には判らない

Wikipediaを人から人工物へ

24

25

日本の

小説家

小説家

作家

人物

文学

文化

芥川龍之介

文化活動

家族

日本史の人物

代表作

職業

職業

プロパティ定義域

クラス-インスタンス関係

Is-a関係・プロパティ上位下位関係

トリプル

プロパティ値域

日本の

大学

日本の

小説

日本

存命人物

羅生門 蜘蛛の糸

小説家

塚本文

芥川也寸志

芥川貴之志

短編小説

日本

東京帝国

大学英文科

日本の映画作品

作曲家

日本のクラシック音楽の作曲家

オペラ

作曲家

夏目漱石 明治の人物

明治大学の人物 門下生

津田青楓

坊っちゃん こゝろ

小説

時代小説・歴史小説作家

誕生

最終学歴

配偶者 子供

著作

国籍

親族

ジャンル

死没

東京都出身の人物

日本出身の人物

文庫本

クラス

プロパティ

インスタンス

俳人

ロボットセマンティックサービス

日本語

ウィキペディアオントロジー

ロボット

キネマティクス

オントロジー

ロボット

動作

オントロジー

26

言葉と動作の連係

マルチロボット連携

動作オントロジー

クラス階層, クラス-インスタンス関係(抜粋)

右肘を速く

直角に曲げる

単一関節屈伸

右肘屈伸 左肘屈伸

基本動作

実行可能動作

複合動作

複数関節屈伸

両肘屈伸

体操

右肘を普通に

直角に曲げる

右肘を半分曲げる

右肘を直角に曲げる

左肘を

伸ばす

左肘を半分曲げる

左肘を直角に曲げる

右肘を

伸ばす

右肘をゆっくり

直角に曲げる

左肘を普通に

直角に曲げる

左肘を速く

直角に曲げる

左肘をゆっくり

直角に曲げる

姿勢変更

座る 立つ

両肘を直角に曲げて降ろす体操

両肩を横に広げて降ろす体操

ゆっくり両肘を

直角に曲げて

降ろす体操

普通に両肘を

直角に曲げて

降ろす体操

速い両肘を

直角に曲げて

降ろす体操

rdf:type

rdfs:subClassOf

両肘を

伸ばす

両肘を直角に曲げる

両肘を半分曲げる

両肘を速く

直角に曲げる

両肘をゆっくり

直角に曲げる

両肩を前に上げて降ろす体操

両肘を普通に

直角に曲げる

インスタンス

クラス

実際にロボットが

実行可能な動作

ロボットの動作構築の基本単位

基本動作の連結

で記述される動作

クラス インスタンス

181 383

27

主な使用ロボット

• Nao

– 人型ロボット

– Aldebaran Robotic

• マイク

• スピーカー

• LED

• センサ

• ソナー

• 25自由度

– 人間とのインタラクションに

優れる

• TurtleBot – Willow Garage

• ルンバ

– 商用掃除ロボット

• Kinect

– Xbox360用3次元センサ

– 移動能力,人間の動作取得能力に優れる

Pioneer3DX Mobile Robots

アルミボディ台車

5自由度アーム

移動能力,物体をつかむ能力に優れる 28

最近のセマンティクサービス

29

コンシェル

(商品化)

QA

(研究)

ゲーム

(研究、

商品化)

30