41
ああああ ああああ あああああああああ </>: Twitter あああああああああああああああああ ああああ ああああ あああああああああ JST ああああ LC あああ , 2012 (2 あ 22 あ , あああああああ

<あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

  • Upload
    robert

  • View
    39

  • Download
    8

Embed Size (px)

DESCRIPTION

<あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究. 荒牧英治 東京大学 知の構造化センター JST さきがけ. LC 研究会 , 2012 (2 月 22 日 , 国立国語研究所. 素朴 な疑問. なぜ,人間は未だ<完全な言語>(普遍言語 ? )のような言語を持っていないのだろう ? そもそも言語は進歩しているのか ? 言語の変化に 方向性 はあるのか ? な ぜ ( ≒ どういう利点があって)言語は変化するのか ? (補足)そもそも,ここでいう < 言語の変化 > は何を対象としているのか ? 文法の変化 ? - PowerPoint PPT Presentation

Citation preview

Page 1: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

<あなた/わたし>にだけ伝わる言葉:Twitter データでみる語彙の変遷に関する研究

荒牧英治 東京大学 知の構造化センター

JST さきがけ

LC 研究会 , 2012 (2 月 22 日 , 国立国語研究所

Page 2: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

素朴な疑問• なぜ,人間は未だ<完全な言語>(普遍言語 ? )の

ような言語を持っていないのだろう ?– そもそも言語は進歩しているのか ?– 言語の変化に方向性はあるのか ?– なぜ( どういう利点があって)言語は変化するのか≒ ?

• (補足)そもそも,ここでいう < 言語の変化 > は何を対象としているのか ?– 文法の変化 ?– 語彙の変化 ? (語の使用頻度の変化) – 語彙と概念の対応関係の変化 ?

Page 3: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

一連の RQ の変遷言語は変化して

いるのか ?

言語の変化は時間に対して方向性を持つか ?

研究終了

言語は進化しているか?

言語は常に変化しつづける

Yes No

なぜ言語は常に変化するのか?

言語が変化することで何かいいことがあ

るのか?≒

言語の変化 語彙の使用頻度の変化≒

言語の変化には方向性がある

Page 4: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

現代日本語で頻出する 1000 語のうち万葉集において見られるものは 326 語 [ 宮島 1967]

平安時代 現代 現代 +Δt

32.6%使用頻度

時間

Page 5: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

材料• Twitter クロールデータ約 30 億 tweet• 全データを形態素解析器 (juman) にて解析• 1 日毎に過去 30 日の語の使用頻度を集計

した– スライド単位 =1 日,ウィンドウ幅 =30 日– 本稿では形態素を語とみなす

• 相対頻度(対象となる形態素頻度/すべての形態素頻度)で正規化– 日によってクロール稼働率が異なるため

Page 6: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

2つの指標• N 位保存率– ある時期で N 位以内にいた語が Δt 経過後にも

N 位以内にとどまる割合

• 順位相関係数(スピアマン)– 基準期間で上位 N 位以内の語の順位(の系

列)が Δ t 時間経過後の順位とどれくらい類似しているか

Page 7: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

N 位保存率( Y 軸)と Δt ( 1.5 年)最新結果

Page 8: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

順位相関係数と Δt

Page 9: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

Δt 経過後 (Δt=180 日 ) に成長した語と衰退した語

フォロワー 9134位→1408位

つぶやいて

7408位→1612位

ツイッター 4517位→1005位

マイケル 7317位→2514位

民主党 8535位→3234位

ユニクロ 5171位→1972位

Android 7501位→2880位

プラス 4740位→1888位

Chrome 7799位→3458位

ヒートテック

8740位→3988位

牧場 9509位→4429位

ラブ 2793位→1420位

ケフィア 1959 位→

圏外

衛星 2434 位→

圏外

麻生 2490 位→

圏外

デジタルネイティブ

3017 位→

圏外

塗装 3391 位→

圏外

ZERO3470 位

→圏外

クロノトリガー

3878 位→

圏外

キラッ 3971 位→

圏外

やよい 4043 位→

圏外

インデックス

4618 位→

圏外

ワザップ 5080 位→

圏外

小室 5195 位→

圏外

Page 10: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

時間 T での相対頻度

基準期間で頻度 a であった語が, Δt 経過後にどのような頻度に変化しているかの確率分布

Δt 経過後に頻度 a となった語がもともと基準期間にどのような頻度であったかの確率分布

どのような頻度変化が起こっているのか ?ある時点で頻度 X だった後が Δt 時間経過後に

頻度 Y になっている頻度( Δt=30 日)

時間 T + Δt での相対頻度

Page 11: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

詳細釣り合い( detailed balance )

• ある過程の起こる確率とその逆過程の起こる確率が等しい状態– 企業の成長や気体分子の運動などに見られる

• 言語の頻度変化で詳細釣り合いが成り立つ範囲– 相対頻度 2.5e-5 より大きい語(使用頻度上位 4000

語)• 語の頻度分布の形は時間の経過とともに変化し

ない– 現時点での言語が Zipf 則にしたがっているなら今後

も従い続ける

Page 12: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

現代日本語で頻出する 1000 語の 1 年後でも同順位に入っているものは 80%

平安時代 現代 現代 +Δt

32.6%使用頻度

時間

80%

Page 13: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

一連の RQ の変遷(再掲)言語は変化して

いるのか ?

言語の変化は時間に対して方向性を持つか ?

研究終了

言語は進化しているか?

言語は常に変化しつづける

Yes No

なぜ言語は常に変化するのか?

言語が変化することで何かいいことがあ

るのか?≒

言語の変化 語彙の使用頻度の変化≒

NOW HERE!

言語の変化には方向性がある

Page 14: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

素朴な疑問:語彙の使用頻度が変化することで何かいいことがあるのか?

• 変化によって,これまで理解できていた人も理解が困難になる恐れがある– 語彙を固定化した方が効率的なコミュニーケーション

が行えるのでは ?

• 定期的に変化することの利点– 狭い範囲にしか通じない = 仲間うちでしか通じない– セキュリティ/暗号(公開鍵)との強いアナロジーあ

り〼

• もしそうであるならば,安易なコミュニーケーション支援は,セキュリティを破壊してしまう ?

Page 15: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

ケース 1 :少人数のみ共有する笑い

• (外国で英語の)講演を聞く.どっと笑い声が起こる.どこが面白いのか,よく理解できない.もっと,集中して聞こうと思う.再び,ジョーク.今度はどこが面白いか分かった.声を立てて笑う.そこはかとない満足感を覚える.

• 少人数に向けられた笑いは,全員が分かるような笑いよりも深い満足感をもたらしてくれるであろう

Page 16: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

ケース 2 :流行語の産出• ファッション誌は,次々と新しい流行語を生み

出している.部外者には,どういった商品なのかイメージがわかないが,たぶん,それは素晴らしいものだという気がする.

• 流行語を理解できないことが,理解できることへの憧れを生み出し,購買欲を高めるかもしれない.

• 熱心な読者層の一体感を生み出すかもしれない.

Page 17: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

ケース 2 の実例 :女性誌「 inRed」の見出し表現

https://docs.google.com/spreadsheet/ccc?key=0Al1_00GeFekndGJNUktvRVRJM3F5UTFFcDNGUTJvcXc#gid=0

Page 18: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

ケース 3 :専門用語• 医療者間で使われる「ステる」「ケモ」

などは非医療者には理解できない場合が多い.患者さんに聞かれないように配慮しているとも考えられるが,患者がいないはずの学会でも,これらの表現は使われる.

• 同業者の連帯感?

Page 19: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

望ましい性質と RQ

• (1) 意図した相手に伝わること– コミュニケーションの成功

• (2) 意図しない相手には伝わらないこと– ディス・コミュニケーションの成功

• → もし意図しない相手に(みんなに)伝わることが分かるとその語を使うのやめるハズ

• RQ : 語が広まってさっと水が引くように使うのをやめるような現象が観察されるのだろうか?

Page 20: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

材料• コホート– 連続した6ヶ月 (2009 年 11 月〜 2010 年 3 月 )

使い続けているユーザ( 18 万人)を対象• 発言数: 約 0.3 億 tweet• 調査した語 : 頻度変化の大きな名詞(次頁)

Page 21: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

調査した語の一例キター 整いました ホムペ 女装子 中央大 モナー

グー モテキホームペー

ジ ディスる グ〜 ネチケットますた モテ期 レギンス メンヘラ orz わろす女子力 ぜよ レギパン 山ガール ようつべ ワロス

あると思います なう と思われ イクメン youtube JK

婚活 だん 藁 ふぁぼる リア充 だお。仕分け (笑 逝ってよし どや顔 じゃね 萌え

ガチムチそんなの関

係 キボンヌ ラブ注入 神 マンセー草食 どんだけ だめぽ ダダ漏れ ネ申 ググレカス

ケーマー 品格 おまいら ゲゲゲの ほめぱげ 整いました

Page 22: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

頻度の可視化

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410

5000

10000

15000

20000

25000

30000

35000

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410

20000

40000

60000

80000

100000

120000

「なう」

「の」

頻度

頻度

時間

時間

Page 23: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

可視化方式に関してIndividual Posting Plot [Yamada]

• 初めてその語を用いた日でソートする.

✔HUMAN-DDAY1 DAY2 DAY3 DAY4 DAY5 DAY6

HUMAN-C ✔

✔HUMAN-B ✔ ✔

HUMAN-A ✔ ✔

✔HUMAN-DDAY1 DAY2 DAY3 DAY4 DAY5 DAY6

✔HUMAN-B ✔ ✔

HUMAN-A ✔ ✔

HUMAN-C ✔

Page 24: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「実に面白い」

ブーム

わずかに広がる

そこそこのブーム

終結?

Page 25: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「成人の日」

Page 26: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「中央大」

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410

20406080

100120140160180200

中央大刺殺事件

Page 27: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「ググレカス」

Page 28: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「整いました」

Page 29: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「ぜよ」

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 1011051091131171211251291331371410

100

200

300

400

500

600 1週単位

Page 30: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

仕分け

Page 31: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「派遣村」

急に使われなくなる

Page 32: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

「品格」

0 20 40 60 80 100 120 140 1600

1000

2000

3000

4000

5000

6000

1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410

100

200

300

400

500

600

700

急に使われ始める

急に使用頻度が減る

書籍「国家の品格」 2005ドラマ「派遣の品格」 2007

Page 33: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

モテキ

1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 1390

50100150200250

0 20 40 60 80 100 120 140 1600

2000400060008000

100001200014000160001800020000

モテ期

ドラマ開始

Page 34: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

望ましい性質と RQ (再掲)• (1) 意図した相手に伝わること– コミュニケーションの成功

• (2) 意図しない相手には伝わらないこと– ディス・コミュニケーションの成功

• → もし意図しない相手に(みんなに)伝わることが分かるとその語を使うのやめるハズ

• RQ : 語が広まってさっと水が引くように使用をやめるような現象が観察されるのだろうか?

YES. では,どんなメカニズムで水引を再現できるのか? モデルで検証してみる

Page 35: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

(提案モデル)語の伝搬のモデル:

• 1 日に a回つぶやく( a=0…1; 正規分布)• 人間を①②③の3つの状態のいずれかをとるものとする.

②から③への遷移:? (本研究で解くべき問題)①から②への遷移:一定確率( d% )づつ遷移

1 2 3語 w を知らない状態

語 w を知っている状態b% のつぶやきに語 w を使う

語 w を使わない状態c% のつぶやきに語 w を使う ( c<<b )

Page 36: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

シミュレーション 1

1 2 3Pr=0.05 Pr=0.05

Pr=0.05 Pr=0.01

白く抜ける

縦の線(全員一度に使用をやめる)はでてこない

Page 37: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

シミュレーション 2

1 2 3Pr=0.20 Pr=0.05

Pr=0.05 Pr=0.01

白く抜ける

Page 38: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

シミュレーション 2

1 2 3Pr=0.05 Pr=0.05

Pr=0.05 Pr=0.01

ただし, 80% の人が語 A を知れば②は③に強制移行①<20%

Page 39: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

さらに調べたいこと• 全員そろって使用するのはありうる ( TV など)• そのブームが全員そろって終わる場合がある• 何がトリガーなのか?

– ある語が十分に広まってしまったことが原因なのか?– → ある語が十分に広まってしまっていることを成員はいかに知り

うるのか ?• (1) 語 A を知らない人間が 20% であることを知る→非常に困難• (2) 語 A を知っている人が 80% である→困難• (3) 語 A を知らなさそうな人が知っていることを知る→ ありそう• (4) 語 A が TV で取り上げられた→ ありそうだが(研究として)面白くない

Page 40: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

まとめ• 昔からうすうす思っていること– 言語は変わる– 人間や世の中が変わるから言語も変わるわけ

ではない– 言語(ルールの集合)にはそれ自体を改変す

るような自己言及的なルールがある(よう)• 今思っていること– <伝わらないこと>ことが価値を持つとすれば言語変化の必要性が説明できるので ?

Page 41: <あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究

Thank you

Eiji ARAMAKI Ph.D.University of [email protected]://mednlp.jp

Contact INFO.