webインテリジェンス論 - yamaguti.comp.ae.keio.ac.jp«–/1回目(導入).pdf ·...
TRANSCRIPT
平成24年度大学院
Webインテリジェンス論
やまぐち たかひら
山口 高平 居室:慶應義塾大学矢上キャンパス 24-619A
内線:42673
電話:045-566-1614
FAX; 045-566-1617
Web: www.yamaguti.comp.ae.keio.ac.jp
1
授業内容と授業計画,講義資料,成績評価 授業内容
人工知能(AI)に関する基礎知識を学んだ後、AIとインターネットを融合した、セマンティックWebと
オントロジー、リンクドデータの知識とスキルを修得する。また、ゲストスピーカを招いて、研究開発
とビジネスにおけるAI最前線を学ぶ。
授業計画
①4/10 ガイダンス,人工知能歴史
②4/17 エキスパートシステム,知識モデリング
4/24 休講
5/01 月曜代講日
③5/08 セマンティックWeb概論
④5/15 RDF/RDFS/OWL
⑤5/22 オントロジー開発プロセス
⑥5/29 オントロジーエディター Protege
⑦6/05 セマンティックWebアプリケーションⅠ
6/12 休講
⑧6/19 クイズAI:ワトソン特別講演(金山氏,日本IBM)
⑨6/26 セマンティックWebアプリケーションⅡ
⑩7/3 データマイニングの基礎 or LOD
⑪7/10 ビッグデータ(浜田氏、DeNA)
⑫7/17 LODツール演習
講義資料:pptやpdf資料をWebに掲載 www.yamaguti.comp.ae.keio.ac.jp
成績:レポート3-4回程度で評価
2
1956年 ダートマス会議 ↑
• John McCarthy (LISP)
• Marvin Minskey (フレーム理論)
• Shannon (情報理論,チェス)
• オートマトン≠人工知能(AI)
• AI:人間のような知的な動作を機械にさせるには?
• GPS (General Problem Solver)
• 探索の研究 A*アルゴリズム
4
1965年~ AIの3大事件
・導出原理:拡張三段論法 J.A.Robinson
1972:Prolog処理系
1982~1994:第5世代コンピュータ
・DENDRAL:スペクトラム分析→分子構造
ファイゲンバウム(スタンフォード大学)
一つのアプリケーションにしかすぎない,汎用性
・ピアス勧告:MTは不可能
推論の時代→ Toy Problems、AI冬の時代へ
5
1970年代:冬の時代 ↓
1980年代→知識工学 ↑
• HPP:Heuristics Programming Project 完全ではないがたいていの場合うまくいく知識や方法
• MYCINプロジェクト(1973~1976) MYCIN,TEIRESIAS,GUIDN,EMYCIN
• 知識表現、知識利用、知識獲得→知識工学
• There is power in the knowledge ! (1977) by Feigenbaum
• 1980年代→知識の時代へ エキスパートシステム,自然言語・画像・音声理解システム,知的教育支援システム,...
• 国家プロジェクト,AIハード・ソフトベンダー
6
Machine Intelligence
1956年:ダートマス会議(汎用知能,探索,チェス,定理証明)
1965年:推論(演繹)→Toy Problem
1970年代:AI冬の時代へ
1980年代 : Knowledge is Power! (ファイゲンバウム教授,スタンフォード大)
知識工学,エキスパートシステム知識表現、知識獲得,知識の利用(推論)
ユーザ
知識
ベース
知識
獲得
推論
エンジン
作業
領域
対話
I/F
説明
機能
(専門家)
デモ1:対話デモ(Eliza, 人工無能) デモ2:献立支援ES
7
1990年代:知識獲得ボトルネック
知識(ルール)
→ESが専門家代行という過大な期待.
知識ベース開発のための知識獲得は大変だ!
通産省:第5世代コンピュータ(1982-1994)の失敗?
→推論マシンに特化しすぎ.知識が余りにも不十分.
1990年代: 大規模知識ベース,大規模辞書プロジェクト
CYC, EDR, WordNet(フリーなので現在も広く使われる)
でも,あまり変化しない静的知識だけ.現実には動的知識が
多い.使えないなぁ.AIブームは完全にさめて下火へ
1997年:Deep Blueがチェス世界チャンピオンに勝利.
でもゲームだよね.閉じた問題,整構造問題だからできるんだ.
8
2000以降 CPUの高性能化 • コンピュータのH/W=中央演算処理装置(CPU)
+主記憶装置(メインメモリ)+補助記憶装置+入力装置+出力装置
• CPU: Central Processing Unit
1990年代前半: 300MHz →スーパーコンピュータ(数千万円)
現在:10万円程度のデスクトップパソコン
インテルCore i7(6コア)3GHz
ムーアの法則
2年間でトランジスタ数が1.5倍
(2倍という解釈もあり)
1971年: 4040プロセッサー
トランジスタ数 2300個
2011年: 210×210×210=10億個
もうすぐムーアの法則が成立
しなくなる?なぜ?
CPU開発の歴史:インテルミュージアム
http://www.intel.com/jp/intel/museum/index.htm
2000以降 HDDの普及と利用拡大
※HDDベンダーのシェア:
Western Digital 31.3%,Seagate 30.3%,HGST 17.2%,
東芝 10.9%,Samsung 10.3%
※昔は大企業しかDBを持てなかったが,中小企業,
個人レベルでTB単位のデータを蓄積・分析可能
※データマイニング(大量データから規則性の発見)
①米国ウォールマートが購入された商品分析
日曜日,既婚若者男性,購入商品組合せ
缶ビール-(?)
②10年前,日本のスーパーマーケットで,
右図の商品配置は非常識?
2000以降 情報大爆発の時代
インターネットに保存されているデータ量は?
2011年:1ZB
2012年:?ZB
http://japan.emc.com/leadership/programs/digital-universe.htm
Z(zeta:ゼタ)=10の21乗
E(exa:エクサ)=10の18乗
P(peta:ペタ)=10の15乗
T(tera:テラ)=10の12乗
G(giga:ギガ)=10の9乗
M(mega:メガ)=10の6乗
K(kilo:キロ)=10の3乗
2009年度
流通情報量 7.6 ZB(7600EB)
消費情報量 0.29 EB (0.004%のみ利用。99.996%はスルー) 総務省「情報流通インデックス研究会」報告書の公表(平成21年7月13日) http://www.soumu.go.jp/menu_news/s-news/16188.html
2003年 QA Challenge !(1) IBM PIQUANT
• 2003~ IBM,PIQUANT(Practical Intelligent
Question Answering Technology)プロジェクト
★チェスのような閉じた問題ではなく、事前に分からないクイズに解答するという開いた悪構造問題に挑戦することがポイント
深い論理形式分析と浅い機械翻訳ベースのアプローチを統合
でも、この難しい問題にチェレンジするには、AI技術が未熟で、
マシンパワーも不足して、大きな成果はあげられずに終わる。
12
2007年 QA Challenge !(2) Powerset
(2008年にMSが$1億で買収) 問合せ:アルカトラズ島から逃げた囚人の数は?
Google:関連するページを表示。
答えはページを読まないと分からない
Googleはページ検索エンジン
Powersetは関連するページ内の文章を
ハイライト→文章検索エンジン。
QAシステムといえる。
ただし、Web全体を検索するのではなく、
Wikipediaのみを検索対象。軽いオントロジー
を使って、同義語、類義語を判断している様子。
新しい事柄に関するQAは、
Googleの方が上になるケースがあり、
開放性が低い、データ規模が小さい、意味処理技術が不十分?により、この3年間、成果発表はない。でも、急に発表があるかも?
正当:0回。
計14回あった脱獄計画に36人の囚人が関わり、全員脱獄に失敗した。
13
2011年 QA Challenge ! (3) IBM Watson
・IBM Deep Question Answering Project
(ジョパディで,ワトソンがチャンピオンに挑戦して勝利)
Open-Domain Question Answering
PIQUANTから時代が進み,技術が成熟、マシンパワーが拡大
14
IBM Watsonの概要
★大規模知識の獲得(100万冊,2億ページ) 百科事典、辞書、シソーラス、ニュース記事、著作物などを情報源。
自動的にコーパスを拡大。
★徹底した質問文解析:LAT(Lexical Answer Type)と重要語抽出
★突出した一つのAI技術ではなく,言語理解,情報検索,不確実性推論,仮説生成,
仮説統合とランキング、機械学習,知識表現(オントロジー),構造化データなど,
100以上の従来AI技術(20年前の技術もある)の集大成
★精度、確信度、速度を考慮したAIインテグレーション
★計算力:並列計算による計算パワー
★汎用性:Jeopardy Challengeに特化していない。TREC QAにも適用して成功。
★展開性: 医療、金融、行政、マーケティングにも適用可能 15
RDFモデルによるLinked Open Data(LOD)
• LOD規模:5億トリプル(2007) ⇒2011年9月時点で310億トリプルに増加
19
メディア
行政
地理
生命科学
出版
DBpedia
Wikipediaから構造化されたデータを抽出、RDF形式で提供
・データ自体がリンクしている
・情報の公開、共有が容易になる
・第三者によるサービス開発の促進に繋がる 情報流通基盤として期待が集まる
RDB vs RDF
RDFの場合
id 企業名 住所 EDINET
コード
1 ソニー株式会社
東京都港区港南1丁目7番1号
E01777
id 企業名 住所 EDINET
コード
緯度 経度
1 ソニー株式会社
東京都港区港南1丁目7番1号
E01777 null null
id 企業名 住所 EDINET
コード
緯度 経度
1 ソニー株式会社
東京都港区港南1丁目7番1号
E01777 35.63120
7
139.7435
2
会社マスタ
緯度・経度のカラムを追加
緯度・経度のデータを挿入
RDBの場合
スキーマ変更の手間が少ない
→LOD自体の拡張も容易 20
織田信長
本能寺
墓所
濃姫 妻
法華宗本門流
日本の
寺院
建築物
日本の神
武士 安土桃山時代の人物
宗派
1415年
②言葉(概念、カテゴリー)階層木
①言葉(=固有表現、具体物)ネットワーク
オントロジーとは?
→言葉の木(語木)とネットワーク(語網) →①+②
創建年
人物 神
天文3年5月12日
生誕
豊臣秀吉
主君
本蓮寺
宗派
日本の城
岐阜城
主な改修者
1347年
創建年
21
Wikipediaからオントロジー(言葉階層木,
言葉のネットワーク)に自動変換して,人工物に言葉の意味(Sense)を理解させる
→日本語Wikipediaオントロジー
人間には,ウィキペディアの内容(意味)が判るけど人工物
(コンピュータ,携帯,ロボット...)には判らない
Wikipediaを人から人工物へ
24
25
日本の
小説家
小説家
作家
人物
文学
文化
芥川龍之介
文化活動
家族
日本史の人物
代表作
職業
職業
プロパティ定義域
クラス-インスタンス関係
Is-a関係・プロパティ上位下位関係
トリプル
プロパティ値域
日本の
大学
日本の
小説
日本
存命人物
羅生門 蜘蛛の糸
鼻
小説家
塚本文
芥川也寸志
芥川貴之志
短編小説
日本
東京帝国
大学英文科
日本の映画作品
作曲家
日本のクラシック音楽の作曲家
オペラ
作曲家
夏目漱石 明治の人物
明治大学の人物 門下生
津田青楓
坊っちゃん こゝろ
小説
時代小説・歴史小説作家
誕生
最終学歴
配偶者 子供
著作
国籍
親族
ジャンル
死没
東京都出身の人物
日本出身の人物
文庫本
クラス
プロパティ
インスタンス
俳人
動作オントロジー
クラス階層, クラス-インスタンス関係(抜粋)
右肘を速く
直角に曲げる
単一関節屈伸
右肘屈伸 左肘屈伸
基本動作
実行可能動作
複合動作
複数関節屈伸
両肘屈伸
体操
右肘を普通に
直角に曲げる
右肘を半分曲げる
右肘を直角に曲げる
左肘を
伸ばす
左肘を半分曲げる
左肘を直角に曲げる
右肘を
伸ばす
右肘をゆっくり
直角に曲げる
左肘を普通に
直角に曲げる
左肘を速く
直角に曲げる
左肘をゆっくり
直角に曲げる
姿勢変更
座る 立つ
両肘を直角に曲げて降ろす体操
両肩を横に広げて降ろす体操
ゆっくり両肘を
直角に曲げて
降ろす体操
普通に両肘を
直角に曲げて
降ろす体操
速い両肘を
直角に曲げて
降ろす体操
rdf:type
rdfs:subClassOf
両肘を
伸ばす
両肘を直角に曲げる
両肘を半分曲げる
両肘を速く
直角に曲げる
両肘をゆっくり
直角に曲げる
両肩を前に上げて降ろす体操
両肘を普通に
直角に曲げる
インスタンス
クラス
実際にロボットが
実行可能な動作
ロボットの動作構築の基本単位
基本動作の連結
で記述される動作
クラス インスタンス
181 383
27
主な使用ロボット
• Nao
– 人型ロボット
– Aldebaran Robotic
• マイク
• スピーカー
• LED
• センサ
• ソナー
• 25自由度
:
– 人間とのインタラクションに
優れる
• TurtleBot – Willow Garage
• ルンバ
– 商用掃除ロボット
• Kinect
– Xbox360用3次元センサ
– 移動能力,人間の動作取得能力に優れる
Pioneer3DX Mobile Robots
アルミボディ台車
5自由度アーム
移動能力,物体をつかむ能力に優れる 28