30
ビビビビビビビビビビビビビ ビビビビビビ ビ ビビビ ビビビビ ビビビビビビビ [email protected] 東東東東東東 東東 東東東東東東東 2013 東 11 東 21 東

ビッグデータから知をつむぐ 自然言語処理

Embed Size (px)

DESCRIPTION

東北大学電気・情報 東京フォーラム 2013 年 11 月 21 日. ビッグデータから知をつむぐ 自然言語処理. 乾 健太郎 東北大学 情報科学研究科 [email protected]. コミュニケーション. あらゆる社会活動の根幹. 最も 重要なメディア は 言語 (ことば). ソーシャルメディアの爆発的普及. http:// internet.watch.impress.co.jp /docs/event/itweek12/20120511_532162.html. 自然言語処理. 言葉がわかる賢いコンピュータを作る. 人工知能. - PowerPoint PPT Presentation

Citation preview

Page 1: ビッグデータから知をつむぐ 自然言語処理

ビッグデータから知をつむぐ自然言語処理

乾 健太郎東北大学 情報科学研究科

[email protected]

東北大学電気・情報 東京フォーラム2013 年 11 月 21 日

Page 2: ビッグデータから知をつむぐ 自然言語処理

コミュニケーションあらゆる社会活動の根幹

最も重要なメディアは

言語 (ことば)

Page 3: ビッグデータから知をつむぐ 自然言語処理

ソーシャルメディアの爆発的普及

http://internet.watch.impress.co.jp/docs/event/itweek12/20120511_532162.html

Page 4: ビッグデータから知をつむぐ 自然言語処理

言葉がわかる賢いコンピュータを作る

自然言語処理

人工知能

自然言語処理

言葉(=自然言語)で伝達される情報を理解・検索・抽出・翻訳・整理・分析し、

地球規模のコミュニケーションを支援するソフトウェア技術

Page 5: ビッグデータから知をつむぐ 自然言語処理

言語意味解析による情報の編集

ウェブ・ SNS

マスメディア

政府・会社大学・研究機関

国民

談話解析情報検索

リンク解析

言語解析

情報・意見の整理・集約・可視化

知識獲得

意味解析

デマ検出信憑性分析 根拠検索 健康・危機管理

行動決定支援アプリケー

ション

情報リテラシー

解析・集約

Page 6: ビッグデータから知をつむぐ 自然言語処理

東北大学 自然言語処理研究室研究スタッフ

2010 2011 2012 20130

10

20

30

5

12

4

10 (+2)

学部

修士

博士研究生

スタッフ

水野淳太(NICT 研究員 )

乾健太郎教授

岡崎直観准教授

渡邉陽太郎助教

松林優一郎特任助教

井之上直也研究員

C. Kruengkrai研究員

研究員募集中

VACANT

VACANT

Page 7: ビッグデータから知をつむぐ 自然言語処理

東北大学 自然言語処理研究室2010 年 9 月 言語処理学会 第 16 回年次大会 最優秀発表賞2011 年 2 月 CICLing-2011 Best Paper Award (First Place)

2011 年 3 月 言語処理学会 2010 年度 最優秀論文賞2011 年 6 月 日本経済新聞社 技術トレンド調査 総合 3 位2011 年 9 月 NLP 若手の会 第 6 回シンポジウム 奨励賞2012 年 5 月 情報処理学会 自然言語処理研究会 学生奨励賞2012 年 9 月 情報処理学会 2012 年度 山下記念研究賞2012 年 9 月 言語処理学会 第 18 回年次大会 優秀賞2012 年 9 月 NLP 若手の会 第 7 回シンポジウム 奨励賞2013 年 3 月 東北大学 情報科学研究科長賞2013 年 3 月 情報処理学会 第 75 回全国大会 学生奨励賞2013 年 3 月 情報処理学会 第 75 回全国大会 学生奨励賞 2013 年 3 月 情報処理学会 東北支部 学生奨励賞2013 年 9 月 言語処理学会 第 19 回年次大会 優秀賞

Page 8: ビッグデータから知をつむぐ 自然言語処理

ビッグデータと対話する自然言語処理

自然言語処理

知識の編集 知識の獲得話題①

話題②

Page 9: ビッグデータから知をつむぐ 自然言語処理

福島の桃 with NHK

ツイートデータの解析例①

2013.9.8http://www.youtube.com/watch?v=RwIjlqDVNdg

Page 10: ビッグデータから知をつむぐ 自然言語処理

ツイート数の推移(肯定・否定別)「福島産のモモを買うこと、食べること」に肯定的か否定的か

福島の桃は市場に出ているものはしっかりと調べられているので安全です!何よりこんな笑顔が素敵なおじちゃんおばちゃんの愛がつまってるのでめちゃめちゃ美味しいです!

肯定側ツイート

福島では山梨からトラックが桃を安値で買い占めに来ている。山梨産といっても安心はできない。

否定側ツイート

Page 11: ビッグデータから知をつむぐ 自然言語処理

否定的な意見が強い 肯定的な意見が強い

RT ネットワーク

• RT ネットワーク上で2つのクラスタ(グループ)に分離– 肯定・否定の推測結果に一致する

• 反対の立場のツイートはあまり RT されない– 反対側のツイートは拡散させたいと思われない

リツイート

Page 12: ビッグデータから知をつむぐ 自然言語処理

2011-052011-062011-072011-082011-092011-102011-112011-122012-012012-022012-032012-042012-052012-062012-072012-082012-092012-102012-112012-122013-012013-022013-032013-042013-052013-062013-072013-08

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

否定→否定 否定→肯定 支持→肯定 肯定→肯定

肯定派・否定派はそれぞれムラを作っている

両者の意見交換は少ない → 風評対策の難しさ

Page 13: ビッグデータから知をつむぐ 自然言語処理

参議院選挙 with 朝日新聞( 2013 年 7 月 3 日 , 22 日, 26 日 朝日新聞掲載)

ツイートデータの解析例②

Page 14: ビッグデータから知をつむぐ 自然言語処理

参議院選挙のツイート分析( 2013年 7月 3日 朝日新聞掲載)

• ツイート総数が衆院選前と比べ3割減(参院選への関心低い)

• 共産党に関するツイートが増加• 維新の会のツイートは激減• ネット選挙に関連して,未成年

のリツイート問題が話題に• 原発を含むツイートが依然多い

分析内容

政策・政党名でツイートを検索し,日々のツイート数,関連語を分析

知見

Page 15: ビッグデータから知をつむぐ 自然言語処理

世の中の関心を自動的に掘り起こす( 2013年 7月 26日 朝日新聞掲載)

結果と課題• 「児童ポルノ禁止法改正

案」「Jリーグの2ステージ制」など,新聞が取り上げていない話題を抽出

• 分析結果がそのまま新聞記事に掲載された

• 賛否を分離して数を出すことは出来なかった

分析内容        記者のフィルターを介さずに,ツイートから社会の論点・関心を抽出

Page 16: ビッグデータから知をつむぐ 自然言語処理

信頼できる情報を見分けるための支援

情報の「背景」の可視化

Page 17: ビッグデータから知をつむぐ 自然言語処理

言論マップ

イソジンで被曝を防げる?

質問

被曝を軽減するにはイゾジンがいい

肯定

イソジンは被曝対策には使えません

否定

Page 18: ビッグデータから知をつむぐ 自然言語処理

平時の一般のトピックでも

Page 19: ビッグデータから知をつむぐ 自然言語処理

根拠evidence

対立意見の根拠evidence of

opposing opinion

同意・対立・根拠の認識

+存在+ existence

− 存在 − existence

対立conflict

コラーゲンをサプリメントで 飲んでも、Even when taken as a supplement,途中でアミノ酸に分解されてしまうので、(collagen) ends up broken down into amino acids so,

肌をきれいにする効果は期待できません。we cannot expect (collagen) to be effective at making

skin pretty.

肌を美しくするto beautify skin

美しい→きれいbeautiful→pretty

美肌=肌を美しくするbeautiful skin = to beautify skin

( Φが)

Collagen has beautiful skin effects.

コラーゲンには美肌効果がある

事実性(モダリティ)解析 + 構造的アライメント + 関係パターン認識

Page 20: ビッグデータから知をつむぐ 自然言語処理

賛否によるネット情報の自動分析は世界初言語処理学会 最優秀発表賞( 2010 )言語処理学会 若手奨励賞( 2010 )

CICLing Best Paper Award ( 2011 )日経新聞技術トレンド調査 総合 3位( 2011 )

情報処理学会 山下記念研究賞( 2012 )

Page 21: ビッグデータから知をつむぐ 自然言語処理

④ _____

① __________

② _____

③ __________

現在のWeb空間

ハイパーリンク

ハイパーリンク

ウェブの情報の流れを変える

まとめ

デマ

訂正情報

① __________

_____批判

賛成

対立 発信

まとめ

デマ

訂正情報

論理的な言論空間

Page 22: ビッグデータから知をつむぐ 自然言語処理

深海魚油ソフトカプセル

○○ 社によって製造された深海魚油のソフトカプセルです。 ...

主な成分である ω-3脂肪酸は,血液のより良い循環を促進し,高コレステロールの改善,血栓の防止,高血圧の改善,心臓の健康維持をサポートします。また、双極性障害, ADHD の改善に有効です。

Deep sea Fish OilSoft Capsules

[ロイター ] 英国で行われた研究によると、魚油に含まれるオメガ3脂肪酸は、心臓の健康のためには良いが、脳の機能を高める効果はないという。ロンドン大学の研究者らが専門誌「アメリカン・ジャーナル・オブ・クリニ カル ...

魚油のオメガ 3脂肪酸、頭を良くする効果ない=英研究

[独立行政法人 国立栄養研究所 ]小児の ADHD は血中 DHAレベルの低さと関連があるが、 DHA は小児の注意欠陥多動性障害 (ADHD) に対して、経口摂取で効果がないことが示唆されている。DHA を 1 日あたり 345mg摂取しても改善はみられなかった ...

健康食品データベース DHA..

生活習慣をサポートする『オメガ 3脂肪酸 (後編)』[サプマート USA] ... ADHD 、統合失調症、アルツハイマー疾患のような精神・認知に関する疾患を患う人は、血中のオメガ 3脂肪酸レベルが低い人が多いことから、このような精神・認知に関係する疾患に対し、オメガ 3脂肪酸は有効性が期待できます。 ...

「 ω-3脂肪酸は ADHD の改善に有効」の対立ページ

「 ω-3脂肪酸は ADHD の改善に有効」の根拠ページ

対立

根拠

「裏を取る」を支援あれ?

ちがうのかぁ

Page 23: ビッグデータから知をつむぐ 自然言語処理

その先の言語理解研究へ「行間を読む」言語処理への挑戦

Page 24: ビッグデータから知をつむぐ 自然言語処理

週末に母とやなぎに行ってみま

した。

うどん屋の名前

私はうどんを食べた

きつねうどんの

「行間を読む」

うどんを食べるために

うどんが美味しいと

やなぎで

私は評判のきつねうどんを頼ん

だのですが、期待通りの味 に大

満足。

Page 25: ビッグデータから知をつむぐ 自然言語処理

ガッカリ

「行間を読む」常識に 基づく推論

庭に洗濯物を干す 雨が降る

庭に洗濯物を干したとたんに雨が降ってきた

常識的な知識

〈洗濯物を干す〉 〈洗濯物を乾かす〉目的

〈晴れ〉 〈洗濯物が乾く〉条件

乾・岡崎研究室

Page 26: ビッグデータから知をつむぐ 自然言語処理

大問題!膨大な知識をどう やって集めるか

• 「洗濯物を干す」目的は「洗濯物を乾かす」こと

• 「洗濯物が乾く」条件は「晴れている」こと• 「うどん」は,「レストラン(うどん屋)で

食べる」• 「(料理を)注文する」ことを「頼む」とも

言う• 「レストラン」では,「料理を注文」して,

しばらくすると料理が「出て」きて,それを「食べる」

言葉の理解に必要な知識

Page 27: ビッグデータから知をつむぐ 自然言語処理

常識もビッグデータから集める天気が良いので,洗濯物がよく乾く

最近,晴れが続いているので,洗濯物がよく乾く日が当たらないので,洗濯物が乾くのもままなら

ずお天気は晴れマークが 多かったから,洗濯物が乾

く湿度はなかったから,洗濯物が乾く

今日は,空気が乾燥していて,洗濯物がよく乾く梅雨空が続いたため,洗濯ものが乾かず

天気が良い(晴れる) → 洗濯物がよく乾く

Page 28: ビッグデータから知をつむぐ 自然言語処理

母とやなぎに行った。  評判のきつねうどんを頼んだ。

「何かを食べる」には「飲食店に行って、それを注文」すればよい

「(店で)注文する」ことを「頼む」とも言う

「ある食べ物が評判」なら「それを食べたい」と思う

「行間を読む」仮説推論

私 (x) ∧ やなぎ (y) ∧ 行く (x, y) ∧ きつねうどん (z) ∧ 頼む (x, z, v) ∧評判 (z)

飲食店 (w)

評判 (z)

やなぎ=飲食店

評判だから食べに行った

注文する (x, z, w)

y=w w=v

評判 (z) → 食べる (x, z)

食べる (x, z) → 飲食店 (w) ∧ 行く (x, w) ∧ 注文する (x, z, w)

注文する (x, z, w) → 頼む (x, z, w)

観測

仮説

B背景知識

O観測

H仮説∪

|=

食べる目的で行った

背景知識

「頼む」=やなぎで注文する

③ 言語処理への応用 :NLP 若手の会 奨励賞 (2011)

① 世界最速の推論エンジン7 分( US ) → 3 秒(東北大)

情報処理学会 山下記念賞 (2012)言語処理学会 年次大会優秀賞 (2012)

きつねうどんを食べた

食べる (x, z)

② 仮説の評価関数の学習(世界初)

NLP 若手の会 奨励賞 (2012)自然言語処理研究会 学生奨励賞 (2012)

IBIS 2012 Honorable Mention (2012)

Page 29: ビッグデータから知をつむぐ 自然言語処理

( S1: A lot of traffic once used Folsom Dam Road. )

S2: Right now, the road is closed.

S3: Most of the people who used the road every day are angry.

Page 30: ビッグデータから知をつむぐ 自然言語処理

ま と めグーテンベルク以来の情報爆発

地球規模のコミュニケーションの支援へ

鍵は自然言語処理による情報・知識編集

ソーシャルリスニングとメディエーション

言語処理技術自身もビッグデータで飛躍

「行間を読む」言語処理は知識 × 推論

言語処理から人工知能にブレークスルーを