googleの新しい検索技術 knowledge graphについて · googleの新しい検索技術...
TRANSCRIPT
Googleの新しい検索技術 Knowledge Graphについて
maruyama097
丸山不二夫
Rev 20120713
Agenda
Googleの新しい検索技術
ネットワー上のデータと「知識」
言語の機械による理解の諸相
言語の意味へのアプローチ --- Knowledge Graph
Googleの新しい検索技術
今年の5月Googleは「Knowledge Graph」と名付けられた新しい検索サービスをアメリカで開始した言うまでもなく検索はGoogleのコアコンピーテンスであるGoogleは検索にどのような新しさを持ち込もうとしているのか ここではまずその概要を見ることにしよう
2012年5月16日GoogleKnowledge Graph発表
The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml
Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml
Google Knowledge Graph 新しい検索の三つの特徴
正しい「もの」を見つける(Find the right thing)
最良の要約を得る(Get the best summary)
さらに深くさらに広く(Go deeper and broader)
正しい「もの」を見つける
例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする
検索結果のパーソナライズ
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Agenda
Googleの新しい検索技術
ネットワー上のデータと「知識」
言語の機械による理解の諸相
言語の意味へのアプローチ --- Knowledge Graph
Googleの新しい検索技術
今年の5月Googleは「Knowledge Graph」と名付けられた新しい検索サービスをアメリカで開始した言うまでもなく検索はGoogleのコアコンピーテンスであるGoogleは検索にどのような新しさを持ち込もうとしているのか ここではまずその概要を見ることにしよう
2012年5月16日GoogleKnowledge Graph発表
The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml
Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml
Google Knowledge Graph 新しい検索の三つの特徴
正しい「もの」を見つける(Find the right thing)
最良の要約を得る(Get the best summary)
さらに深くさらに広く(Go deeper and broader)
正しい「もの」を見つける
例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする
検索結果のパーソナライズ
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Googleの新しい検索技術
今年の5月Googleは「Knowledge Graph」と名付けられた新しい検索サービスをアメリカで開始した言うまでもなく検索はGoogleのコアコンピーテンスであるGoogleは検索にどのような新しさを持ち込もうとしているのか ここではまずその概要を見ることにしよう
2012年5月16日GoogleKnowledge Graph発表
The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml
Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml
Google Knowledge Graph 新しい検索の三つの特徴
正しい「もの」を見つける(Find the right thing)
最良の要約を得る(Get the best summary)
さらに深くさらに広く(Go deeper and broader)
正しい「もの」を見つける
例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする
検索結果のパーソナライズ
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
2012年5月16日GoogleKnowledge Graph発表
The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml
Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml
Google Knowledge Graph 新しい検索の三つの特徴
正しい「もの」を見つける(Find the right thing)
最良の要約を得る(Get the best summary)
さらに深くさらに広く(Go deeper and broader)
正しい「もの」を見つける
例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする
検索結果のパーソナライズ
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Google Knowledge Graph 新しい検索の三つの特徴
正しい「もの」を見つける(Find the right thing)
最良の要約を得る(Get the best summary)
さらに深くさらに広く(Go deeper and broader)
正しい「もの」を見つける
例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする
検索結果のパーソナライズ
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
正しい「もの」を見つける
例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする
検索結果のパーソナライズ
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
検索結果のパーソナライズ
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Googleの 検索結果の「パーソナライズ」
人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる
過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう
履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Googleの 検索結果の「パーソナライズ」
友達のリコメンデーションはパーソナライズに使われている
Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る
サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Googleの 検索結果の「パーソナライズ」
URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない
全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている
How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
amppws=0 無し
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
amppws=0 あり
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
「文字列」の検索から「もの」の検索へ
Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である
「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある
もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
検索システムはどう変わるべきか
問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである
すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい
ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
最良の要約を得る
「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」
「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Marie Curieの検索
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Marie Curieの検索の要約
Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia
Born November 7 1867 Warsaw
Died July 4 1934 Sancellemoz
Spouse Pierre Curie (m 1895ndash1906)
Discovered Polonium Radium
Children Iregravene Joliot-Curie Egraveve Curie
Education University of Paris (1894) University of Paris (1893) More
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
要約システムは普遍的か
Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う
Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである
ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
誰が要約をしているのか
こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが
要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである
Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Wikipediaからの情報抽出
活発に取り組まれているのはWikipediaからの情報抽出の試みであろう
Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox
DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg
Marie CurieのInfoboxでの記述
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
DBpediaでのビートルズのエントリー
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
DBpediaでのビートルズのエントリー
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
さらに深くさらに広く
「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」
「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Da Vinci
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Mona Lisa
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Italian Renaissance
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Knowledge GraphのScale
GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ
現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる
そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
「オブジェクト」と「事実」とその「関係」
僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない
むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ
次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
情報の2つのタイプ
ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である
この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである
コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ネットワーク上での知識の集積
ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである
Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない
次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである
根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ネットワーク上のデータと「知識」
Google Freebase
HTML5 Microdata
Facebook Open Graph
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Freebase
An entity graph of people places and things built by a community that loves open data
Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
FolksonomyとCrowd Computing
コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る
ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ
それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Domains -- CommonsとBases
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
FreebaseのOntology
FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる
TypeはA is a type B の関係で表される
PropertyはA has a property B の関係で表される
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Types = ldquois-ardquo
Person
Location
Business
Movie
TV show
Fictional character
Winery
Automobile model
Airport
Travel destination
Ingredient
Mountain
Cause of death
Political party
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Properties = ldquohas-ardquo PersonのProperty
gender
date of birth
place of birth
profession
nationality
ethnicity
parents
children
religion
education
employment history
and more
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
MQL Freebaseの検索言語
httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]
type musicartist name The Police album []
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires
先の検索結果
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
MQLでの検索
[ id enbarack_obama commontopicarticle [ id null ] ]
status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid
9202a8c04000641f800000000029c281
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
FreebaseとKnowledge Graph
Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである
またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている
Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph
でそれがどのように継承されているのかはよく分からなかった
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
FolksonomyCrowd Computing
ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い
一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある
おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
HTML5 Microdata
最終更新 20120629
httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
HTMLでの表現
ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt
表示から人間が読み取れるいろいろな情報が含まれている
ただこれらの情報を機械に抽出させるのは難しい
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt
ならばそれぞれの情報にタグ付けしよう
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Microdataで利用されるマークアップ
itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す
itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL
itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る
itemid ndash Itemのユニークな識別子を示す
itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
MicrodataのTypeの階層
Thingdescription image name url
CreativeWork
Event
Intangible
MedicalEntity
Organization
Person
Place
Product
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Organization TypeのsubType
Organization address aggregateRating
contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone
Corporation
EducationalOrganization
GovernmentOrganization
LocalBusiness
NGO
PerformingGroup
SportsTeam
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Personの持つPropery
Person additionalName address affiliation
alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor
The Type Hierarchy httpschemaorgdocsfullhtml
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Facebook Open Graph
「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」
Zuckerberg 2010年4月 f8コンファレンス
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Open Graph
Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた
2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る
我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる
Open Graph httpsdevelopersfacebookcomdocsopengraph
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ユーザアプリとオープングラフ
ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される
ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される
これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Key Concepts
Actions and Objects オープングラフの構成要素
Open Graph Mechanics
どのようにユーザはアクションとオブジェクトにコネクトするか
Social Channels
ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Actions and Objects
Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である
Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している
以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Objectのマークアップ
ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Retrieving Objects
GET object-instance-id GET httpsgraphfacebookcom1015012577744568
id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Publishing Actions
POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Retrieving an Action
GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN
id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Built-in Object Types
Article
Blog
Book
Profile (External)
Movie
TV Episode
TV Show
Video
Website
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt
Book オブジェクトの記述例
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt
Movie オブジェクトの記述例
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Built-in Action Types
Like - Any Object Type
Follow - Profile
Listen - Song
Read - Article
Watch - Video Movie TV Show or TV Episode
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Watchアクション
POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Open Graphの特殊性
ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない
何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ
もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
言語の機械による理解の諸相
多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Power of Data Googleの言語へのアプローチ
Ben Jai ldquoWhatrsquos Google Doingrdquo から
httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
データの力
これまでの知見
計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる
新しい知見
データの量が増大するにつれて以前には解けなかった問題が解けるようになる
それは単により堅実な解法を得るというだけの問題ではない
少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
「スペル訂正」の古典的方法論
語彙集辞書を利用する(〜10万語程度)
語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる
認識されなかった語から「編集距離」の近い語達を候補として提示する
編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
「スペル訂正」の課題
「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる
検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない
例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)
Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Web上での「スペル訂正」
ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する
実際の例800以上もあった britney spears
brittany spears
brittney spears
britany spears
britny spears
briteny spears
britteny spears
briney spears
brittny spears
brintey spears
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Learning From Data
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Google流の「スペル訂正」
Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける
語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る
Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される
コンテキストがキーである
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
応用 自動機械翻訳
目標 異なる言語間のテキストの高品質な自動変換を提供する
元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る
長い期間を要する挑戦的なAIの問題
しかし沢山のデータは実際に役に立つ
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
アプローチ 統計的機械翻訳
機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)
目標 最良で理想的には最適な決定を行う
一般理論
翻訳の統計モデルを構築する
最適な決定を行う決定理論を利用する
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Building a Translation Model
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
サイズが問題か
機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する
4倍で116倍で264倍で3 256倍で41024倍で5
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Googleの失敗
「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ
ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう
人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Google IO 2012での Knowledge Graphのデモ
httpsdevelopersgooglecomeventsio 02043〜
New UI
Voice Search
Google Now
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ldquoWho is the prime minister of Japanrdquo
ldquoThe prime minister of Japan is Yoshihiko Nodardquo
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ldquoWhat is the definition of robotrdquo
ldquoA machine capable of carrying out complex series of actions automaticallyrdquo
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ldquoHow tall is the space needlerdquo
ldquoSpace needle is 604 feet tallrdquo
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ldquoShow me pictures of pygmy marmosetsrdquo
Swipe
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
音声認識技術と自然言語理解
ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である
話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない
ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
チューリング
チューリングマシン 1936
生誕100年
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Turing テストについて wikipedia
「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」
「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Google機械翻訳の現状
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
翻訳の精度の実験
ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB
今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX
AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる
ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英日
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130キロアンカレッジからアラスカ州にある火山は1992年に勃発した
Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo
130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo
The volcano erupted in 1992 located 130 km Anchorage from Alaska
火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo
翻訳結果は落ち着かない
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英韓
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo
130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo
1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo
1992 Anchorage Alaska 130km from the volcano erupted
翻訳結果は落ち着かない
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英中
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo
1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo
1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo
In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption
翻訳結果は落ち着かない
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英仏
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
翻訳結果は一定のものに落ち着く
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英露
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo
Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году
The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英希
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992
Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992
The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英西
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo
The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo
翻訳結果は一定のものに落ち着く
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
英独
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992
The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo
Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992
The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992
翻訳結果は落ち着かない
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
日韓
ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した
알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
アラスカのアンカレッジから130キロの火山は1992年に爆発した
알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した
rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다
翻訳結果は一定のものに落ち着く
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
言語の意味へのアプローチ --- Knowledge Graph
ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する
httpdocutwentenl386471t0000020pdf
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
意味のネットワーク上での表現と ZhangのKnowledge Graph
Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる
それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている
「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
グラフによる知識表現 --- 理論史
1982 Hoede and Stokman Theory of knowledge graphs
1984 Sowa Conceptual Graphs
1987 Bakker Path Algebra
1989 de Vries extracting causal relationships from a text
1991 Smitt
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
1993 Willem Word Graph ldquoChemistry of Languagerdquo
1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo
1991 Lin ldquoTransformation Graphsrdquo
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Linの基本的な観点
もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである
1996 Hoede amp Li verbs nouns and prepositions
1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words
2001 Hoede amp Zhang the logic words
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Zhang論文の要約 (1)
知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ
知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである
Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Zhang論文の要約 (2)
我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している
文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである
主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Zhang論文の要約 (3)
第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Theory of Knowledge Graphs
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Token
我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する
ldquoALIrdquoはa like である
このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
TokenとType
このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である
Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる
TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ALIとEQU
いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している
TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
CAU
文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある
CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す
先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
CAU
次の図は「眠る」のWordグラフである
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
CAU
次のグラフは「人が犬を打つ」という文のグラフである
次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Peter read book today
次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
二項の関係
Equality EQU
Subset relationship SUB
Similarity of sets alikeness ALI
Disparateness DIS
Causality CAU
Ordering ORD
Attribution PAR
Informational dependency SKO
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Wordグラフ HOTDOG ISA SAUSAGE
もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ
このグラフは「ホットドックはソminusセージの一種である」と読む
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Wordグラフ COMPANY SYNONYM WITH FIRM
もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ
次のグラフは「CompanyはFirmと同義語である」と読む
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Structural Parsing
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Structural parsing
Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる
1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される
2 解析木を利用して統語論的なSentenceグラフが導出される
3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Example
ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
CHUNK分割のIndicator
Indicator 0 Pairs of comma andor period signs
Indicator 1 Frame words including auxiliary verbs
Indicator 2 Reference words
Indicator 3 ldquoJumpsrdquo with respect to grammar
Indicator 4 Link words including prepositions
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
ExampleのCHUNK分割
1 [[The volcano] CHUNK1
2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4
3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6
4 [[erupted][in 1992]]] CHUNKS 7 and 8
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Lexicon of Example
Lexicon of Example
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Lexicon of Example
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
of Example Syntactic chunk graphs of Example
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Syntactic chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Semantical chunk graphs of Example
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Semantical chunk graphs of Example
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Semantical chunk graphs of CH10
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Semantical chunk graphs of CH11
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Semantical chunk graphs of CH12
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Semantic Sentence graphs of Example
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
Semantic sentence graph with display of ldquochunksrdquo
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
The mean tall man with a very big stick hit(s) the poor small dog in the garden
図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
おわりに
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
2つのKnowledge Graph
GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである
「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である
それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている
こうした試みはようやく始まったばかりである
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
2つのKnowledge Graph
では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである
人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない
こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
2つのKnowledge Graph
ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない
さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである
ただこうした試みもまだ始まったばかりである
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある
2つのKnowledge Graph
楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう
ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある