153
Googleの新しい検索技術 Knowledge Graphについて @maruyama097 丸山不二夫 Rev. 2012/07/13

Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

  • Upload
    others

  • View
    13

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Googleの新しい検索技術 Knowledge Graphについて

maruyama097

丸山不二夫

Rev 20120713

Agenda

Googleの新しい検索技術

ネットワー上のデータと「知識」

言語の機械による理解の諸相

言語の意味へのアプローチ --- Knowledge Graph

Googleの新しい検索技術

今年の5月Googleは「Knowledge Graph」と名付けられた新しい検索サービスをアメリカで開始した言うまでもなく検索はGoogleのコアコンピーテンスであるGoogleは検索にどのような新しさを持ち込もうとしているのか ここではまずその概要を見ることにしよう

2012年5月16日GoogleKnowledge Graph発表

The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml

Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml

Google Knowledge Graph 新しい検索の三つの特徴

正しい「もの」を見つける(Find the right thing)

最良の要約を得る(Get the best summary)

さらに深くさらに広く(Go deeper and broader)

正しい「もの」を見つける

例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする

検索結果のパーソナライズ

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 2: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Agenda

Googleの新しい検索技術

ネットワー上のデータと「知識」

言語の機械による理解の諸相

言語の意味へのアプローチ --- Knowledge Graph

Googleの新しい検索技術

今年の5月Googleは「Knowledge Graph」と名付けられた新しい検索サービスをアメリカで開始した言うまでもなく検索はGoogleのコアコンピーテンスであるGoogleは検索にどのような新しさを持ち込もうとしているのか ここではまずその概要を見ることにしよう

2012年5月16日GoogleKnowledge Graph発表

The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml

Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml

Google Knowledge Graph 新しい検索の三つの特徴

正しい「もの」を見つける(Find the right thing)

最良の要約を得る(Get the best summary)

さらに深くさらに広く(Go deeper and broader)

正しい「もの」を見つける

例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする

検索結果のパーソナライズ

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 3: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Googleの新しい検索技術

今年の5月Googleは「Knowledge Graph」と名付けられた新しい検索サービスをアメリカで開始した言うまでもなく検索はGoogleのコアコンピーテンスであるGoogleは検索にどのような新しさを持ち込もうとしているのか ここではまずその概要を見ることにしよう

2012年5月16日GoogleKnowledge Graph発表

The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml

Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml

Google Knowledge Graph 新しい検索の三つの特徴

正しい「もの」を見つける(Find the right thing)

最良の要約を得る(Get the best summary)

さらに深くさらに広く(Go deeper and broader)

正しい「もの」を見つける

例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする

検索結果のパーソナライズ

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 4: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

2012年5月16日GoogleKnowledge Graph発表

The Knowledge Graph httpwwwgooglecominsidesearchfeaturessearchknowledgehtml

Introducing the Knowledge Graph things not strings httpinsidesearchblogspotkr201205introducing-knowledge-graph-things-nothtml

Google Knowledge Graph 新しい検索の三つの特徴

正しい「もの」を見つける(Find the right thing)

最良の要約を得る(Get the best summary)

さらに深くさらに広く(Go deeper and broader)

正しい「もの」を見つける

例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする

検索結果のパーソナライズ

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 5: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Google Knowledge Graph 新しい検索の三つの特徴

正しい「もの」を見つける(Find the right thing)

最良の要約を得る(Get the best summary)

さらに深くさらに広く(Go deeper and broader)

正しい「もの」を見つける

例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする

検索結果のパーソナライズ

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 6: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

正しい「もの」を見つける

例えば「タージマハル」にはいろんな意味があるインドの有名なモニュメントグラミー賞を取ったドイツのバンド近所のインド料理のレストラン等々Google Knowledge Graphは単なる文字列ではなく検索者の検索の意図を汲み取って実際の世界の「もの」を探そうとする

検索結果のパーソナライズ

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 7: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

検索結果のパーソナライズ

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 8: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Googleの 検索結果の「パーソナライズ」

人々はコンテキストとパーソナライズを混同しているこの2つは別のものだコンテキストには言語場所年度等が因子として含まれる

過去の検索の履歴はパーソナライズに利用されているもし「ローマ」を検索して次に「ホテル」を検索すれば検索結果のいくつかはローマのホテルのものになるだろう

履歴上の過去のクリックも一つの因子となるもし検索結果中の一つのサイトに対してクリックして明らかな嗜好を示せば次の検索ではそのサイトは上位にランクされるかもしれない

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 9: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Googleの 検索結果の「パーソナライズ」

友達のリコメンデーションはパーソナライズに使われている

Googleは友達のプロファイルからそこにはどのようなネットワークが含まれているかを見て次にこれらのサイトに対して彼らが何をリコメンドしているかを見る

サインアウトした場合も過去の検索情報はアノニマスクッキーを使って180日間ブラウザーにヒモ付けされて検索結果はパーソナライズされる

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 10: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Googleの 検索結果の「パーソナライズ」

URLの最後の部分にamppws=0 を追加すると機能するただパーソナライズを消すだけでコンテキスト(言語場所年度)は消さない

全てのパーソナライズをオフにする方法はあるGoogleの立場はユーザーは自分のデータを所有するというものだただその場合でもコンテキストは依然として有効になっている

How Google Does Personalization with Jack Menzelrdquo httpwwwstonetemplecom how-google-does-personalization-with-jack-menzel

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 11: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

amppws=0 無し

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 12: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

amppws=0 あり

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 13: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

「文字列」の検索から「もの」の検索へ

Googleの新しい検索Knowledge Graphが検索者の意図を知る為に検索結果のパーソナライズの手法を持ちいるだろうことは明らかだと思うただ膨大でランダムな情報を順序づける「ページランク」の手法同様にそれは現在の検索でも既に利用されている手法である

「ただしい「もの」を見つける」と言う時の本当の新しさは何か それは検索を単なる「文字列の検索」から「ものの検索」へととらえ直そうとしているところにある

もっとも我々が検索を行うとき我々は「文字列」を探しているのではなく「何か」を探しているのであるその意味では新しい検索サービスの下でも検索者が検索に対する態度を変更する必要は何もないのである

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 14: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

検索システムはどう変わるべきか

問題は検索者の検索に対する態度の変化ではなく膨大なデータの中から特定の文字列を含むページを見つけ出し情報の「重要性」と個人の嗜好に応じてそれを順序づけて提示する現在の「文字列」検索システムが「ものの検索」の世界ではどのようなシステムに変化すべきかということである

すぐ後で述べる「最良の要約を得る」「さらに深くさらに広く」は新しい検索システムが備えるべきこうした新しい機能を示していると考えてよい

ただその機能は充分なものか あるいはそうした機能だけで十分なのか 起こりつつある実際の変化の評価の上でその変化の先にあるものを考えることは無駄ではない

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 15: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

最良の要約を得る

「Knowledge GraphではGoogleはユーザの検索をよりよく理解出来るのでそのトピックに関連したコンテンツを要約することが出来る」

「そしてその「もの」についてユーザが必要とするだろう基本的な事実を結果の中に含めることが出来る」

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 16: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Marie Curieの検索

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 17: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Marie Curieの検索の要約

Marie Skłodowska-Curie was a French-Polish physicist and chemist famous for her pioneering research on radioactivity She was the first person honored with two Nobel Prizesmdashin physics and chemistry Wikipedia

Born November 7 1867 Warsaw

Died July 4 1934 Sancellemoz

Spouse Pierre Curie (m 1895ndash1906)

Discovered Polonium Radium

Children Iregravene Joliot-Curie Egraveve Curie

Education University of Paris (1894) University of Paris (1893) More

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 18: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

要約システムは普遍的か

Google Knowledge Graphで情報の「要約」の機能が追加されたのは注目に値する変化である検索システムの変化として正しい方向の一つだと思う

Google Knowledge Graphが一定量の要約のデータベースを持っているのは事実でありそれはその実装方法を含めて興味深いことである

ただそれは「最良」のものであろうか 質的な問題は置いておいても重要なのはその量である量的にはWikipediaのページでさえ全てのページの要約が提供されている訳ではないことにすぐ気づく一般のページの要約にはほど遠いのが現状であるその意味では全てのページを対象にするページランクのような普遍性を現状ではそれは持っている訳ではない

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 19: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

誰が要約をしているのか

こうした量的な制約は基本的には要約のデータがどのように生成されているのかという問題に帰着するいったん要約のデータがなんらかの形で出来てしまえば我々はその出自を問うことはないのだが

要約データをどう生成するのかという点では基本的なアプローチは2つある一つは対象となるテキストから機械が要約を生成する自動情報抽出のアプローチもう一つはWeb上の情報に人間がタグ付けをして機械がそれを利用出来るようにしようというSemantic Web流のアプローチである

Google Knowledge Graphは基本的には現時点では後者に軸足を置いているように見えるもちろん両者の併用はありうる

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 20: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Wikipediaからの情報抽出

活発に取り組まれているのはWikipediaからの情報抽出の試みであろう

Wikipedia Infoboxは投稿者がこのツールを使うと自動的にタグ付けされたデータが生成されるというもの httpenwikipediaorgwikiHelpInfobox

DBpediaは基本的には先のInfoboxを利用してWikipediaから構造化されたデータを抽出してWebで利用出来るようにしようというコミュニティの取り組み httpwikidbpediaorgOntologyv=181z

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 21: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Infobox scientist | name = Marie Skłodowska-Curie | image = Marie Curie c1920png | image_size=220px | caption = Marie Curie ca 1920 | birth_date = birth date|1867|11|7|df=y | birth_place = [[Warsaw]] [[Congress Poland|Kingdom of Poland]] then part of [[Russian Empire]]ltrefgthttpwwwnobelprizeorgnobel_prizesphysicslaureates1903marie-curiehtmlltrefgt | death_date = death date and age|df=yes|1934|7|4|1867|11|7 | death_place = [[Passy Haute-Savoie]] France | residence = [[Poland]] and [[France]] | citizenship = Polandltbr gtFrance | field = [[Physics]] [[Chemistry]] | work_institutions = [[University of Paris]] | alma_mater = University of Paris ltbr gt[[ESPCI]] | doctoral_advisor = [[Henri Becquerel]] | doctoral_students = [[Andreacute-Louis Debierne]]ltbr gt[[Oacutescar Moreno]]ltbr gt[[Marguerite Perey|Marguerite Catherine Perey]] | known_for = [[Radioactivity]] [[polonium]] [[radium]] | spouse = [[Pierre Curie]] (1859ndash1906) | prizes = nowrap|[[Nobel Prize in Physics]] (1903)ltbr gt[[Davy Medal]] (1903)ltbr gt[[Matteucci Medal]] (1904)ltbr gt[[Nobel Prize in Chemistry]] (1911) | footnotes = She is the only person to win a [[Nobel Prize]] in two different sciencesltbrgtShe was the wife of [[Pierre Curie]] and the mother of [[Iregravene Joliot-Curie]] and [[Egraveve Curie]] | religion = Agnostic | signature = Marie_Curie_Skłodowska_Signature_Polishjpg

Marie CurieのInfoboxでの記述

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 22: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

DBpediaでのビートルズのエントリー

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 23: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

DBpediaでのビートルズのエントリー

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 24: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

さらに深くさらに広く

「我々は完璧な検索エンジンとはあなたが意図するものを正確に理解しあなたが望む結果を正確に返すものであるべきだと常に信じてきた」

「我々はあなたが聞こうと思いもしなかった質問に答えあなたの発見をさらに助ける為にKnowledge Graphを利用することが出来る」

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 25: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Da Vinci

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 26: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Mona Lisa

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 27: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Italian Renaissance

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 28: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Knowledge GraphのScale

GoogleのKnowledge Graphは単にFreebaseやWikipediaそしてCIA World Factbookといったプブリックなリソースに基づいているだけではないそれはもっと巨大なスケールで拡張されているなぜなら我々は包括的な広さと深さにフォーカスしてきたからだ

現在ではKnowledge Graphは5億個以上の「オブジェクト」と35億の「事実」とこれらの異なったオブジェクト間の関係を含んでいる

そしてこれらは人々が検索しWeb上で見いだしてきたものに基づいてチューンされている

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 29: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

「オブジェクト」と「事実」とその「関係」

僕は個人的にはあるトピックの検索がおもいもかけなかった他のトピックの検索の連鎖を引き起こすことを何も新しいことだとは考えていないそれは検索者の知的好奇心の問題で検索者の経験としては現在のシステムでも十分に可能なことだそれは新旧いずれのシステムの問題ではない

むしろ重要なことはGoogleが検索システムを文字列の巨大な集積の上にたつシステムとしてではなく「オブジェクト」と「事実」とその「関係」の上に立つシステムとしてとらえようとしていることだそれはシステムの自己意識としては新しいものだ

次にそのいくつかを見ていくのだがそうした動きはいろんな形ではじまりつつあるのである

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 30: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

情報の2つのタイプ

ネットワーク上の情報には大雑把に言って2つのタイプがある一つは典型的には個人と個人のコミュニケーションで用いられる基本的に共時的なメッセージ達ともう一つは時間を超えて累積されることを望む通時的なメッセージ達である

この2つのタイプの区別はコトバと文字の分離に起源をもつ古いものだが2つの型の情報のいずれもが我々に取っては本質的に重要なものである

コミュニケーションの媒体は変わっても個人間のコミュニケーションの本質は大きく変わっていないように見えるただ集合的で蓄積的な知のあり方はグローバルなネットワークという新しいメディアの登場によって大きく変わる可能性はある

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 31: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ネットワーク上での知識の集積

ネットワークこそが集合的で累積的な知識の担い手であるべきだという意識は新しいものである

Googleの検索システムの変化の方向もこうした意識の変化を反映し同時にこうした変化を後押しするものになるのかもしれない

次のセクションではネットワーク上に構造化された知的な情報を蓄積しようといういくつかの試みを見ることにしようただおそらくはいずれもプリミティブなものである

根本的には次の次のセクションで見るように「データの蓄積」といったレベルの抽象では不十分でコトバにしろ文字にしろ我々の言語能力自体の理解が次の飛躍には不可欠なのである我々はそのことに気付きつつある

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 32: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ネットワーク上のデータと「知識」

Google Freebase

HTML5 Microdata

Facebook Open Graph

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 33: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Freebase

An entity graph of people places and things built by a community that loves open data

Creative Commonsにもとずくオープンな構造化データのオンラインデータベース作成の試みMetaweb社が運営Metaweb社は2010年にGoogleによって買収された

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 34: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

FolksonomyとCrowd Computing

コントロールされたontologyから出発しようというW3CのセマンティックWebへのアプローチとは異なってMetawebはfolksonomyアプローチを採用したそこでは人々が新しいカテゴリーを追加出来る

ユーザが定義したドメインをBaseと呼びMetawebが提供するドメインをCommonsと呼ぶ

それはWeb20的な「集合知」をCrowd Computingで具体化しようとするもの

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 35: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Domains -- CommonsとBases

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 36: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

FreebaseのOntology

FreebaseのOntology(構造化されたカテゴリー)はrdquotyperdquoと呼ばれユーザ自身が定義出来るそれぞれのTypeには述語が定義されてrdquopropertiesrdquoと呼ばれる

TypeはA is a type B の関係で表される

PropertyはA has a property B の関係で表される

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 37: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Types = ldquois-ardquo

Person

Location

Business

Movie

TV show

Fictional character

Winery

Automobile model

Airport

Travel destination

Ingredient

Mountain

Cause of death

Political party

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 38: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Properties = ldquohas-ardquo PersonのProperty

gender

date of birth

place of birth

profession

nationality

ethnicity

parents

children

religion

education

employment history

and more

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 39: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

MQL Freebaseの検索言語

httpswwwgoogleapiscomfreebasev1mqlreadquery=typemusicartistnameThe Policealbum[]

type musicartist name The Police album []

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 40: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

result album [ Outlandos dAmour Reggatta de Blanc Zenyattyenu00e0 Mondatta Ghost in the Machine Synchronicity Every Breath You Take The Singles Greatest Hits Message in a Box The Complete Recordings Live Every Breath You Take The Classics Their Greatest Hits Cant Stand Losing You Roxanne 97 (Puff Daddy remix) Roxanne 97 The Police Greatest Hits The Very Best of Sting yenu0026amp The Police Brimstone and Treacle Cant Stand Losing You De Do Do Do De Da Da Da Certifiable Live in Buenos Aires

先の検索結果

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 41: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

MQLでの検索

[ id enbarack_obama commontopicarticle [ id null ] ]

status 200 OK code apistatusok result [ id enbarack_obama commontopicarticle [ id guid9202a8c04000641f800000000029c281 id guid9202a8c04000641f8000000005b78173 ] ] httpapifreebasecomapitransrawguid

9202a8c04000641f800000000029c281

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 42: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

FreebaseとKnowledge Graph

Freebaseの技術はGoogleのMetaweb社買収を通じてGoogleのKnowledge Graphに大きな影響を与えているネットワーク上での知識表現のモデルとしては同じものかもしれないFreebaseではThingはTypeのPlaceholderである

またFreebaseのEntityがTypeとPropertyを持つというモデルは次に見るHTML5のMicrodataにもそのまま受け継がれている

Freebaseの思想でもっとも特徴的なのはFolksonomyであるがGoogleのKnowledge Graph

でそれがどのように継承されているのかはよく分からなかった

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 43: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

FolksonomyCrowd Computing

ネット上の情報の構造化の主要な担い手が現実的には人間であるのは確かなことであるそうである限りまた対象となる情報の巨大さを考えればFolksonomyは正しいアプローチであるように見えるまたそれは思想としても興味深い

一方でFolksonomyには定義の重複混乱情報の精度等で難点も持ちかねないFreebaseのドメインのCommonsとBaseへの分割はそれに対する一つの解かもしれない未解決の問題は沢山ある

おそらくその最大のものの一つは構造化を記述する言語としてどの言語を用いるのかという問題だと思うここでも我々は言語の問題にぶつかることになる

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 44: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

HTML5 Microdata

最終更新 20120629

httpwwwwhatwgorgspecsweb-appscurrent-workmultipagemicrodatahtmlencoding-microdata

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 45: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 46: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

HTMLでの表現

ltsectiongt 僕の名前は丸山不二夫です クラウド大学大学院の客員教授をしています 友達は僕のことマルと呼んでいます 僕のホームページは lta href=ldquohttpcloudacjp~maruyama097rdquogt マルのページltagtです 僕は北海道の稚内市富岡5-9-1に住んでいます ltsectiongt

表示から人間が読み取れるいろいろな情報が含まれている

ただこれらの情報を機械に抽出させるのは難しい

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 47: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ltsection itemscope itemtype=httpdata-vocabularyorgPersongt 僕の名前は ltspan itemprop=ldquonamerdquogt丸山不二夫ltspangtです ltspan itemprop=ldquoaffiliationrdquogtクラウド大学大学院ltspangtの ltspan itemprop=ldquotitlerdquogt客員教授ltspangtをしています 友達は僕のこと ltspan itemprop=ldquonicknamerdquogtマルltspangtと呼んでいます 僕のホームページは lta href=httpcloudacjp~maruyama097 itemprop=urlgt マルのページltagtです ltsection itemprop=address itemscope itemtype=httpdata-vocabularyorgAddressgt 僕は ltspan itemprop=ldquoregionrdquogt北海道ltspangtの ltspan itemprop=ldquolocalityrdquogt稚内市ltspangt ltspan itemprop=ldquostreet-addressrdquogt富岡5-9-1ltspangt に住んでいます ltsectiongt ltsectiongt

ならばそれぞれの情報にタグ付けしよう

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 48: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Microdataで利用されるマークアップ

itemscope ndash Itemを生成してこの要素の下位の要素がそれについての情報を含んでいることを表す

itemtype ndash ItemとそのPropertyのコンテキストを記述するボキャブラリーのURL

itemprop ndash 特定のItemのPropertyの値を持つタグPropertyの名前と値のコンテキストはItemボキャブラリーで記述されるPropertyの値は通常は文字列であるがURLを使うことも出来る

itemid ndash Itemのユニークな識別子を示す

itemref ndash Itemscope属性を持つ要素の下位要素ではないもののProperyを表す

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 49: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

MicrodataのTypeの階層

Thingdescription image name url

CreativeWork

Event

Intangible

MedicalEntity

Organization

Person

Place

Product

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 50: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Organization TypeのsubType

Organization address aggregateRating

contactPoint contactPoints email employee employees event events faxNumber founder founders foundingDate interactionCount location member members review reviews telephone

Corporation

EducationalOrganization

GovernmentOrganization

LocalBusiness

NGO

PerformingGroup

SportsTeam

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 51: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Personの持つPropery

Person additionalName address affiliation

alumniOf award awards birthDate children colleague colleagues contactPoint contactPoints deathDate email familyName faxNumber follows gender givenName homeLocation honorificPrefix honorificSuffix interactionCount jobTitle knows memberOf nationality parent parents performerIn relatedTo sibling siblings spouse telephone workLocation worksFor

The Type Hierarchy httpschemaorgdocsfullhtml

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 52: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Facebook Open Graph

「今日のウェブはさまざまページの間に張られた無構造でランダムなリンクによって成りたっていますOpen Graph(オープンググラフ)は人々の間の関係を構造化します」

Zuckerberg 2010年4月 f8コンファレンス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 53: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Open Graph

Facebookの中核にあるのはソーシャルグラフである歴史的にはFacebookはこのグラフを管理し新しいプロダクトを立ち上げる度にそれを拡張してきた

2010年にソーシャルグラフの拡張であるオープングラフの初期バージョンを導入したこのオープングラフプロトコルを通じてWeb中の人々が好きなウェブサイトやページを含めることが出来る

我々は今やサードパーティのアプリが作成した任意のアクションやオブジェクトを含めるためにオープングラフを拡張しつつあるこれらのアプリはFacebookの体験に深く統合されることになる

Open Graph httpsdevelopersfacebookcomdocsopengraph

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 54: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ユーザアプリとオープングラフ

ユーザーがアプリをタイムラインに追加した後アプリに特有のアクションがオープングラフを通じてFacebook上で共有される

ユーザのアプリはユーザが自分自身を表現する重要な部分となる為にこれらのアクションはタイムラインニュースフィードティッカー全てにはっきりと表示される

これによってユーザのアプリはユーザとその友人達のFacebook体験のキーとなる

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 55: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Key Concepts

Actions and Objects オープングラフの構成要素

Open Graph Mechanics

どのようにユーザはアクションとオブジェクトにコネクトするか

Social Channels

ユーザを増大させ既存のユーザを再活性化させるのを助ける重要なチャンネルタイムラインニュースフィードティッカーを含む

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 56: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Actions and Objects

Actionはユーザがアプイの中で行うことが出来る高度な「相互作用」である

Objectはユーザがアプリの中で働きかけることの出来る「エンティティ」を表現している

以前はユーザは「いいね」を通じてしかアプリ中のオブジェクトにコネクト出来なかった

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 57: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Objectのマークアップ

ltmeta property=fbapp_id content=YOUR_APP_ID gt ltmeta property=ogtype content=recipeboxrecipe gt ltmeta property=ogtitle content=Chocolate Chip Cookies gt ltmeta property=ogimage content=httpwwwexamplecomcookiespng gt ltmeta property=ogdescription content=Best Cookies on Earth gt ltmeta property=recipeboxchef content=httpwwwexamplecomjohn_smithgt

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 58: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Retrieving Objects

GET object-instance-id GET httpsgraphfacebookcom1015012577744568

id 1015012577744568 type recipeboxrecipe url httpwwwexamplecomcookieshtml description Best Cookies on Earth title Chocolate Chip Cookies image httpwwwexamplecomcookiespngrdquo

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 59: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Publishing Actions

POST menamespaceaction-type-name httpsgraphfacebookcommerecipeboxcook recipe=httpwwwexamplecompumpkinpiehtml ampaccess_token=YOUR_ACCESS_TOKEN FBapi(merecipeboxcook post recipe httpwwwexamplecompumpkinpiehtml )

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 60: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Retrieving an Action

GET action-instance-id httpsgraphfacebookcom1538292028372 access_token=USER_ACCESS_TOKEN

id 1538292028372 start_time 1303502229 end_time 1303513029 data type recipeboxrecipe url httpwwwexamplecompumpkinpiehtml id 1234567890 title Pumpkin Pie

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 61: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Built-in Object Types

Article

Blog

Book

Profile (External)

Movie

TV Episode

TV Show

Video

Website

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 62: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb book httpogpmensbookgt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=bookgt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogdescription content=Description of contentgt ltmeta property=ogtitle content=Name of bookgt ltmeta property=bookrelease_date content=DateTimerdquogt ltmeta property=bookauthor content=Who wrote thisgt ltmeta property=bookisbn content=ISBN Numbergt ltmeta property=booktag content=keywordsgt ltheadgt ltbodygt lt--a wonderful book --gt ltbodygt lthtmlgt

Book オブジェクトの記述例

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 63: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

lthtmlgt lthead prefix=og httpogpmens fb httpogpmensfb video httpogpmensvideogt ltmeta property=fbapp_id content=YOUR_APP_IDgt ltmeta property=ogtype content=videomoviegt ltmeta property=ogurl content=URL of this objectgt ltmeta property=ogimage content=URL to an imagegt ltmeta property=ogtitle content=Movie titlegt ltmeta property=ogdescriptionrdquo content=Description of moviegt ltmeta property=videorelease_date content=DateTimegt ltmeta property=videoactor content=URL to Profilegt ltmeta property=videoactorrol content=Role in Movegt ltmeta property=videoduration content=runtime in secsgt ltmeta property=videodirector content=URL to Profilegt ltmeta property=videowriter content=URL to Profilegt ltmeta property=videotag content=keywordgt ltheadgt ltbodygt lt--a wonderful movie --gt ltbodygt lthtmlgt

Movie オブジェクトの記述例

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 64: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Built-in Action Types

Like - Any Object Type

Follow - Profile

Listen - Song

Read - Article

Watch - Video Movie TV Show or TV Episode

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 65: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Watchアクション

POST httpsgraphfacebookcommevideowatches video=[video-type content url] POST mevideowatches video=[movie object content url]amp created_time=2011-05-05T1322amp expires_in=7200 POST httpsgraphfacebookcom [watch action instance id]expires_in=7054 GET httpsgraphfacebookcommevideowatches

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 66: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Open Graphの特殊性

ネットワーク上での知識の表現のセクションでOpen Graphを取り上げることに違和感を持つ人も多いかもしれない

何よりもそれが意図しているのは「人間の関係の構造化」であって「ものの関係の構造化」ではないしかし両者は関係の表現のスタイルでも取り上げる対象でも実装技術でも多くの共通性を持つ

もう一つOpen Graphが特殊なのはそれがFacebookという世界に閉じていることであるただFacebookの世界はクローズというには十分に広いしそれが依拠しているのはインターネットの標準技術である加えて人間の関係は具体的現実的には局所的なものである

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 67: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

言語の機械による理解の諸相

多くの問題が言語の機械による理解の問題の重要性を浮かび上がらしているように見えるもっとも課題の認識と課題の解決とは別のものであるここでは現時点で我々に出来ていることを考えてみよう

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 68: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Power of Data Googleの言語へのアプローチ

Ben Jai ldquoWhatrsquos Google Doingrdquo から

httplifemathntuedutwsites lifemathntuedutwfiles Fall-2006-Campus-Talk-TWpdf

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 69: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

データの力

これまでの知見

計算パワーが増大するにつれて以前には実際には計算することができなかった問題が解けるようになる

新しい知見

データの量が増大するにつれて以前には解けなかった問題が解けるようになる

それは単により堅実な解法を得るというだけの問題ではない

少数のデータで考えると失敗するように見える方法が巨大な量のデータのもとではうまくいくことがある

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 70: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

「スペル訂正」の古典的方法論

語彙集辞書を利用する(〜10万語程度)

語彙集の中で見つからなかった語に「ミススペル」のフラグをたてる

認識されなかった語から「編集距離」の近い語達を候補として提示する

編集距離は通常は一方の語から他方の語に変換する為に必要な変更追加消去変更を要する文字の数で測定定義される

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 71: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

「スペル訂正」の課題

「スペル訂正の」こうしたやり方はWeb上では多くの問題にぶつかることになる

検索の多くは固有名であるしかし固有名は語彙集にはほとんどのっていない

例えばよく使われているワープロソフトでは ldquoKofi Annanrdquo(元の国連事務総長)はスペルミスになる提案される訂正はrdquoKokiAnnardquo (誰)

Web上で使われる言葉の集合は標準的な語彙集より遥かに大きくかつ定期的に変化する

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 72: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Web上での「スペル訂正」

ldquobritney spearsrdquoのようなポピュラーな名前でも間違ったスペルで検索する

実際の例800以上もあった britney spears

brittany spears

brittney spears

britany spears

britny spears

briteny spears

britteny spears

briney spears

brittny spears

brintey spears

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 73: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Learning From Data

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 74: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Google流の「スペル訂正」

Webをコンテキスト語彙集として利用しミススペルをWebの文脈上での利用に基づいて見つける

語のスペルの確率的なモデルを構築し語彙集をWebでの語の使用に適合させるとより豊かなスペル訂正のモデルが出来る

Googleを使った場合の例 ldquoKofi Annanrdquoはスペルミスではない ldquoKofee Annanrdquo は ldquoKofi Annanrdquo に訂正される ldquoKofee Shoprdquo は ldquoCoffee Shoprdquo に訂正される

コンテキストがキーである

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 75: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

応用 自動機械翻訳

目標 異なる言語間のテキストの高品質な自動変換を提供する

元のテキストがいかなる言語であってもWeb上の全てのテキストデータをアクセス可能なものにすることが出来る

長い期間を要する挑戦的なAIの問題

しかし沢山のデータは実際に役に立つ

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 76: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

アプローチ 統計的機械翻訳

機械翻訳では不確実さのもとで決定を行う必要がある(例えばいかにしてあるフレーズを他のフレーズに変換するのか)

目標 最良で理想的には最適な決定を行う

一般理論

翻訳の統計モデルを構築する

最適な決定を行う決定理論を利用する

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 77: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Building a Translation Model

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 78: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

サイズが問題か

機械学習の訓練に利用されているニュースのコーパスが2倍になればBLEAUで測定した翻訳の精度は~05程度向上する

4倍で116倍で264倍で3 256倍で41024倍で5

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 79: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Googleの失敗

「スペル訂正」でのGoogleのアプローチは正しいと思うデータがパワーだという新しい認識もその限りでは正しいものだ

ただ「統計的機械翻訳」のアプローチは正しくないと思う現実にもGoogleはそれだけで機械翻訳を実装してはいないだろう

人間が言語を習得する過程もこうしたモデルには合致していない我々はGoogle的感覚からすると少数の文を経験するだけで正しい意味のある文を無限に生成する能力を獲得するもっとも機械と人間が同じアルゴリズムに従う必要はないのだが

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 80: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Google IO 2012での Knowledge Graphのデモ

httpsdevelopersgooglecomeventsio 02043〜

New UI

Voice Search

Google Now

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 81: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ldquoWho is the prime minister of Japanrdquo

ldquoThe prime minister of Japan is Yoshihiko Nodardquo

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 82: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ldquoWhat is the definition of robotrdquo

ldquoA machine capable of carrying out complex series of actions automaticallyrdquo

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 83: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ldquoHow tall is the space needlerdquo

ldquoSpace needle is 604 feet tallrdquo

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 84: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ldquoShow me pictures of pygmy marmosetsrdquo

Swipe

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 85: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

音声認識技術と自然言語理解

ここでは自然に発話された音声としてのコトバの文章への変換が一つの技術的な課題になっている音声認識技術は文章の意味理解とともに自然言語理解にとって重要な技術である

話し言葉そのものとそれの文字での表現はある意味では全く同じものでありある意味では全く別のものだ同じだというのは自明にも見える別のものだということは現代ではそれを処理するプログラムが全く別であることで説明するのが一番簡単かもしれない

ただ現在音声認識とは発話されたコトバの意味の理解だと思われるようになっていることに注意が必要である

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 86: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

チューリング

チューリングマシン 1936

生誕100年

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 87: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Turing テストについて wikipedia

「1950年アランチューリングによって考案されたある機械が知的かどうか(人工知能であるかどうか)を判定するためのテスト」

「人間の判定者が一人の(別の)人間と一機の機械に対して通常の言語での会話を行うこのとき人間も機械も人間らしく見えるように対応するのであるこれらの参加者はそれぞれ隔離されている判定者は機械の言葉を音声に変換する能力に左右されることなくその知性を判定するために会話はたとえばキーボードとディスプレイのみといった文字のみでの交信に制限しておく判定者が機械と人間との確実な区別ができなかった場合この機械はテストに合格したことになる」

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 88: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Google機械翻訳の現状

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 89: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

翻訳の精度の実験

ある言語Aの文SAを他の言語Bに機械翻訳 fを適用して文SBを得たとするf(SA)=SB

今度はこうして得られた言語Bの文SBを言語Aへの機械翻訳 gを適用して文SXを得たとする g(SB)=SX

AからBそしてBからAへの翻訳が正確なものだとすればSX=SAを期待していい 理想的にはg(f(SA))=SA となる

ある文から出発してAからBそしてBからAへの翻訳を繰り返せば何が起きるか

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 90: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英日

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130キロアンカレッジからアラスカ州にある火山は1992年に勃発した

Volcano located 130 kilometers from Anchorage Alaska Broke out in 1992rdquo

130キロアンカレッジアラスカから位置して火山は1992年に勃発したrdquo

The volcano erupted in 1992 located 130 km Anchorage from Alaska

火山はアラスカから130キロのアンカレッジに位置し1992年に勃発したrdquo

翻訳結果は落ち着かない

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 91: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英韓

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

130km 앵커리지부터 알래스카에 위치한 화산은 1992 년 eruptedrdquo

130km from Anchorage in Alaska in 1992 the volcano eruptedrdquo

1992 년 알래스카의 앵커리지에서 130km는 화산 eruptedrdquo

1992 Anchorage Alaska 130km from the volcano erupted

翻訳結果は落ち着かない

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 92: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英中

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

ldquo1992年在阿拉斯加州安克雷奇从130公里位于火山爆发rdquo

1992 Alaska Anchorage 130 km located in volcanic eruptions rdquo

1992年阿拉斯加州安克雷奇130公里位于火山喷发 ldquo

In 1992 Alaska Anchorage 130 kilometers located in the volcanic eruption

翻訳結果は落ち着かない

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 93: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英仏

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Le volcan qui se trouve en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Le volcan situeacute en Alaska agrave 130 kilomegravetres dAnchorage a eacuteclateacute en 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

翻訳結果は一定のものに落ち着く

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 94: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英露

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкана который находится на Аляске в 130 километрах от Анкориджа разразился в 1992 годуrdquo

Vulcan which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Вулкан которая находится на Аляске в 130 километрах от Анкориджа разразился в 1992 году

The volcano which is located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 95: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英希

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992raquo

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992

Το ηφαίστειο που βρίσκεται στην Αλάσκα 130 χιλιόμετρα από το Anchorage ξέσπασε το 1992

The volcano located in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 96: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英西

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

El volcaacuten que se encuentra en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

El volcaacuten ubicado en Alaska a 130 kiloacutemetros de Anchorage entroacute en erupcioacuten en 1992rdquo

The volcano located in Alaska 130 miles from Anchorage erupted in 1992rdquo

翻訳結果は一定のものに落ち着く

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 97: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

英独

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

Der Vulkan die in Alaska 130 Kilometer von Anchorage liegt brach im Jahr 1992

The volcano which collapsed in Alaska 130 kilometers from Anchorage is in 1992rdquo

Der Vulkan der in Alaska 130 Kilometer von Anchorage zusammenbrach ist im Jahr 1992

The volcano which is in Alaska crashed 130 kilometers from Anchorage in 1992

翻訳結果は落ち着かない

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 98: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

日韓

ldquoアラスカにあるアンカレッジから130キロの火山は1992年に爆発した

알래스카의 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

アラスカのアンカレッジから130キロの火山は1992年に爆発した

알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

ldquoアラスカアンカレッジから130キロの火山は1992年に爆発した

rdquo알래스카 앵커리지에서 130 킬로미터의 화산은 1992 년에 폭발했다

翻訳結果は一定のものに落ち着く

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 99: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

言語の意味へのアプローチ --- Knowledge Graph

ここでは言語の意味へのアプローチとしてLei Zhangの論文 ldquoKnowledge Graph Theory and Structural Parsingrdquo を紹介する

httpdocutwentenl386471t0000020pdf

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 100: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

意味のネットワーク上での表現と ZhangのKnowledge Graph

Semantic Webはいわば自然言語の媒介抜きに情報概念を形式的に表現しようとするそこでは人間にとっての可読性とともに機械が意味を処理するのに適した表現形式が選ばれることになる

それに対してZhangのKnowledge Graphは自然言語そのものの形式的分析を通じて言語の表現する意味を考えるそこではコトバの意味を機械にどう理解させるかと同時に人間自身がどのようにコトバの意味を理解しているのかが研究課題となっている

「情報や概念の表現なら自然言語を使うのが一番すっきりしないか」もしも機械にそれが理解出来るなら

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 101: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

グラフによる知識表現 --- 理論史

1982 Hoede and Stokman Theory of knowledge graphs

1984 Sowa Conceptual Graphs

1987 Bakker Path Algebra

1989 de Vries extracting causal relationships from a text

1991 Smitt

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 102: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

1993 Willem Word Graph ldquoChemistry of Languagerdquo

1993 van den Berg ldquoLogic and Knowledge Graphs one of two kindsrdquo

1991 Lin ldquoTransformation Graphsrdquo

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 103: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Linの基本的な観点

もし「言語はKnowledge Graphで表現されうる」というパラダイムが擁護出来るなら中国語に固有な特徴もこの理論の中で表現可能になるべきである

1996 Hoede amp Li verbs nouns and prepositions

1998 Hoede amp Li adverbs adjectives and Chinese classifiers or quantity words

2001 Hoede amp Zhang the logic words

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 104: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Zhang論文の要約 (1)

知識表現のOntologyは沢山存在しているにも関わらずそのどれをも普遍的と呼ぶことは出来ないなぜならそれらは他のもので置き換えることが出来るからだ

知識が言語によって表現されるのであるからその理論はどの言語をも表現することが出来るはずである

Knowledge Graphを用いた表現は実際に考慮している言語に独立であるように見えると我々は結論づけるだろう

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 105: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Zhang論文の要約 (2)

我々はいかにして複数の語句を意味論的でもあり統語論的でもあるWordグラフで表現するかを提案している

文をSentenceグラフにマップする為には統語論と意味論の両方の情報が必要である目標の一つとして次のような主要なステップからなる翻訳システムを開発すること構造的字句解析Sentenceグラフの変形対象言語でのSentenceグラフの発話重要な結果はコンピュータのプログラムを開発する為にChunkが利用出来るということである

主要な結論はKnowledge Graph理論から実際に翻訳システムが開発されうるということである

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 106: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Zhang論文の要約 (3)

第7章では情報抽出を実行する方法を展開したこれは我々の研究の後期の段階に関わってきたことであるここではあらためて文のChunkを考慮に入れることSentenceグラフの重要性に注意を向ける必要がある構造的字句解析のアイデアはここでも実り多いことが判明した

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 107: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Theory of Knowledge Graphs

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 108: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Token

我々がボールの心像 Tokenを持つときKnowledge Graphではそれを次のように表現する

ldquoALIrdquoはa like である

このグラフは「ボールのようなもののイメージを持つ」ことを表現するこれは同時に「ボール」という「語」の意味のグラフでもあるとKnowledge Graphでは考える

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 109: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

TokenとType

このグラフの右側に登場する「ボール」は具体的実在的な「ボール」ではないことに注意されたいここでの「ボール」は抽象的な概念としての「ボール」である

Knowledge Graphではこうした抽象的なものをTypeと呼ぶ先のグラフは「Type「ボール」の「ようなもの」の心像 Token を持つ」ことを表していることになる

TypeとTokenの区別はもともとはアメリカの論理学者哲学者のパースによって導入されたものである 「タイプとトークンの区別」 httpjawikipediaorgwikiタイプとトークンの区別

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 110: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ALIとEQU

いままで見てきた例のようにある言葉で表されるTypeとTokenとが関係 ALI で結ばれたときこのTokenはある言葉で表されるTypeを持つことを表現している

TokenとTokenの関係はALIだけではない次の図の EQU はTokenが「名前」を持つことを表しているPluteはこのTokenの「値」だと言われることもあるToken同士がEQUで結ばれれば「等しい」ことを表す このグラフは「プルートという名前を持つ犬」を表している

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 111: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

CAU

文の構造を表す上で重要な役割を果たすToken同士の関係にCAUがある

CAUの矢印の出発点となるTokenは動作の主体をCAUの矢印の到達点となるTokenは動作の目的対象を表す

先の図はhit(打つ)という動詞のWordグラフであるhitは主格と目的格をとる他動詞であることを表現している

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 112: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

CAU

次の図は「眠る」のWordグラフである

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 113: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

CAU

次のグラフは「人が犬を打つ」という文のグラフである

次のグラフはJohnという名前を持つある人物が何かをhitするという文を表現している

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 114: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Peter read book today

次の文グラフに現れる関係PARはまだちゃんと説明していないが動詞に係る副詞だと思えばいいこの文グラフはPeter read book todayを表現している

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 115: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

二項の関係

Equality EQU

Subset relationship SUB

Similarity of sets alikeness ALI

Disparateness DIS

Causality CAU

Ordering ORD

Attribution PAR

Informational dependency SKO

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 116: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Wordグラフ HOTDOG ISA SAUSAGE

もしある言葉例えばrdquohotdogrdquoが他の言葉のsubtypeであるなら次のように2つのトークンの間をFPARリンクで結ぶ

このグラフは「ホットドックはソminusセージの一種である」と読む

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 117: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Wordグラフ COMPANY SYNONYM WITH FIRM

もしある言葉がldquocompany and firmrdquoのように他の言葉の同義語であるなら2つのトークンをEQUリンクで結ぶ

次のグラフは「CompanyはFirmと同義語である」と読む

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 118: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Structural Parsing

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 119: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Structural parsing

Structural parsingとは文を意味論的SentenceグラフにマップすることであるStructual Parsingの目的である文の意味論的グラフは原理的には次のようにして得られる

1 その文に対して一つあるいはそれ以上の解析木を構成する為に文法が利用される

2 解析木を利用して統語論的なSentenceグラフが導出される

3 発見された統語論的Sentenceグラフから意味論的Sentenceグラフが導出される

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 120: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Example

ldquoThe volcano that lies in Alaska 130 kilometers from Anchorage erupted in 1992rdquo

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 121: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

CHUNK分割のIndicator

Indicator 0 Pairs of comma andor period signs

Indicator 1 Frame words including auxiliary verbs

Indicator 2 Reference words

Indicator 3 ldquoJumpsrdquo with respect to grammar

Indicator 4 Link words including prepositions

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 122: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

ExampleのCHUNK分割

1 [[The volcano] CHUNK1

2 [[that][lies][in Alaska]] CHUNKS 2 3 and 4

3 [[130 kilometer][from Anchorage]] CHUNKS 5 and 6

4 [[erupted][in 1992]]] CHUNKS 7 and 8

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 123: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Lexicon of Example

Lexicon of Example

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 124: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Lexicon of Example

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 125: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

of Example Syntactic chunk graphs of Example

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 126: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Syntactic chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 127: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Semantical chunk graphs of Example

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 128: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Semantical chunk graphs of Example

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 129: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Semantical chunk graphs of CH10

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 130: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Semantical chunk graphs of CH11

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 131: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Semantical chunk graphs of CH12

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 132: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Semantic Sentence graphs of Example

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 133: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

Semantic sentence graph with display of ldquochunksrdquo

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 134: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

The mean tall man with a very big stick hit(s) the poor small dog in the garden

図中の太い線は この文が基本的 には誰かが 何かをhitする ことを表現して いる

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 135: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

おわりに

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 136: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

2つのKnowledge Graph

GoogleのKnowledge Graphは検索をより現実的により知的にするという具体的な問題意識から出発して知識の表現とネットワーク上でのその利用という問題にあらためて答えていこうとする試みである

「文字列からものへ」というスローガンが表現しているのは検索者の検索経験の変化ではなく検索システムの位置づけとその実装の変化である

それは構造化されたデータないしは知識のネットワークとして既存のネットワークを再構成しようとする試みと結びついている

こうした試みはようやく始まったばかりである

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 137: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

2つのKnowledge Graph

では誰がデータを構造化するのか 多分現時点では最終的には人間であるあるいはどうしてそういうことが可能なのか おそらく人間が言語の意味を理解する能力を持つからである

人間のコトバの意味を理解出来る立派なロボットが出来たと思っていたら何枚か皮をめくると中には沢山の人間が入っているようなものだでもそれは悪いことではないかも知れない

こうして知識のネットワークとしてネットワークを再構成しようという試みは最終的には人間が持つ言語の意味を理解する能力の問題に行き着くことになる

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 138: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

2つのKnowledge Graph

ZhangのKnowledge Graphは直接言語とその意味にアプローチしようとする試みであるそこでは言語の構造こそが意味の担い手であるとされるこうしたアプローチは言語の意味理解にとっては本質的に重要な一歩になるかもしれない

さらにこうした関係は具体的な言語を問わず普遍的なものであるという主張がなされるそれゆえZhangのKnowledge Graphの理論は言語間の機械翻訳の基礎理論を提供しうるものである

ただこうした試みもまだ始まったばかりである

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある

Page 139: Googleの新しい検索技術 Knowledge Graphについて · Googleの新しい検索技術 今年の5月、Googleは、「Knowledge Graph」と名付けられた新しい検索サービス

2つのKnowledge Graph

楽観的な見通しを述べればこの2つのKnowledge Graphのアプローチはいずれ合流するだろう

ただこうした前進をドライブする本質的な力は現在のGoogleのKnowledge Graphの側にではなくZhangらの言語の意味に対するアプローチとしてのKnowledge Graphの側にある