Upload
robert
View
39
Download
8
Embed Size (px)
DESCRIPTION
<あなた/わたし>にだけ伝わる言葉: Twitter データでみる語彙の変遷に関する研究. 荒牧英治 東京大学 知の構造化センター JST さきがけ. LC 研究会 , 2012 (2 月 22 日 , 国立国語研究所. 素朴 な疑問. なぜ,人間は未だ<完全な言語>(普遍言語 ? )のような言語を持っていないのだろう ? そもそも言語は進歩しているのか ? 言語の変化に 方向性 はあるのか ? な ぜ ( ≒ どういう利点があって)言語は変化するのか ? (補足)そもそも,ここでいう < 言語の変化 > は何を対象としているのか ? 文法の変化 ? - PowerPoint PPT Presentation
Citation preview
<あなた/わたし>にだけ伝わる言葉:Twitter データでみる語彙の変遷に関する研究
荒牧英治 東京大学 知の構造化センター
JST さきがけ
LC 研究会 , 2012 (2 月 22 日 , 国立国語研究所
素朴な疑問• なぜ,人間は未だ<完全な言語>(普遍言語 ? )の
ような言語を持っていないのだろう ?– そもそも言語は進歩しているのか ?– 言語の変化に方向性はあるのか ?– なぜ( どういう利点があって)言語は変化するのか≒ ?
• (補足)そもそも,ここでいう < 言語の変化 > は何を対象としているのか ?– 文法の変化 ?– 語彙の変化 ? (語の使用頻度の変化) – 語彙と概念の対応関係の変化 ?
一連の RQ の変遷言語は変化して
いるのか ?
言語の変化は時間に対して方向性を持つか ?
研究終了
言語は進化しているか?
言語は常に変化しつづける
Yes No
なぜ言語は常に変化するのか?
言語が変化することで何かいいことがあ
るのか?≒
言語の変化 語彙の使用頻度の変化≒
言語の変化には方向性がある
現代日本語で頻出する 1000 語のうち万葉集において見られるものは 326 語 [ 宮島 1967]
平安時代 現代 現代 +Δt
32.6%使用頻度
時間
材料• Twitter クロールデータ約 30 億 tweet• 全データを形態素解析器 (juman) にて解析• 1 日毎に過去 30 日の語の使用頻度を集計
した– スライド単位 =1 日,ウィンドウ幅 =30 日– 本稿では形態素を語とみなす
• 相対頻度(対象となる形態素頻度/すべての形態素頻度)で正規化– 日によってクロール稼働率が異なるため
2つの指標• N 位保存率– ある時期で N 位以内にいた語が Δt 経過後にも
N 位以内にとどまる割合
• 順位相関係数(スピアマン)– 基準期間で上位 N 位以内の語の順位(の系
列)が Δ t 時間経過後の順位とどれくらい類似しているか
N 位保存率( Y 軸)と Δt ( 1.5 年)最新結果
順位相関係数と Δt
Δt 経過後 (Δt=180 日 ) に成長した語と衰退した語
フォロワー 9134位→1408位
つぶやいて
7408位→1612位
ツイッター 4517位→1005位
マイケル 7317位→2514位
民主党 8535位→3234位
ユニクロ 5171位→1972位
Android 7501位→2880位
プラス 4740位→1888位
Chrome 7799位→3458位
ヒートテック
8740位→3988位
牧場 9509位→4429位
ラブ 2793位→1420位
ケフィア 1959 位→
圏外
衛星 2434 位→
圏外
麻生 2490 位→
圏外
デジタルネイティブ
3017 位→
圏外
塗装 3391 位→
圏外
ZERO3470 位
→圏外
クロノトリガー
3878 位→
圏外
キラッ 3971 位→
圏外
やよい 4043 位→
圏外
インデックス
4618 位→
圏外
ワザップ 5080 位→
圏外
小室 5195 位→
圏外
時間 T での相対頻度
基準期間で頻度 a であった語が, Δt 経過後にどのような頻度に変化しているかの確率分布
Δt 経過後に頻度 a となった語がもともと基準期間にどのような頻度であったかの確率分布
どのような頻度変化が起こっているのか ?ある時点で頻度 X だった後が Δt 時間経過後に
頻度 Y になっている頻度( Δt=30 日)
時間 T + Δt での相対頻度
詳細釣り合い( detailed balance )
• ある過程の起こる確率とその逆過程の起こる確率が等しい状態– 企業の成長や気体分子の運動などに見られる
• 言語の頻度変化で詳細釣り合いが成り立つ範囲– 相対頻度 2.5e-5 より大きい語(使用頻度上位 4000
語)• 語の頻度分布の形は時間の経過とともに変化し
ない– 現時点での言語が Zipf 則にしたがっているなら今後
も従い続ける
現代日本語で頻出する 1000 語の 1 年後でも同順位に入っているものは 80%
平安時代 現代 現代 +Δt
32.6%使用頻度
時間
80%
一連の RQ の変遷(再掲)言語は変化して
いるのか ?
言語の変化は時間に対して方向性を持つか ?
研究終了
言語は進化しているか?
言語は常に変化しつづける
Yes No
なぜ言語は常に変化するのか?
言語が変化することで何かいいことがあ
るのか?≒
言語の変化 語彙の使用頻度の変化≒
NOW HERE!
言語の変化には方向性がある
素朴な疑問:語彙の使用頻度が変化することで何かいいことがあるのか?
• 変化によって,これまで理解できていた人も理解が困難になる恐れがある– 語彙を固定化した方が効率的なコミュニーケーション
が行えるのでは ?
• 定期的に変化することの利点– 狭い範囲にしか通じない = 仲間うちでしか通じない– セキュリティ/暗号(公開鍵)との強いアナロジーあ
り〼
• もしそうであるならば,安易なコミュニーケーション支援は,セキュリティを破壊してしまう ?
ケース 1 :少人数のみ共有する笑い
• (外国で英語の)講演を聞く.どっと笑い声が起こる.どこが面白いのか,よく理解できない.もっと,集中して聞こうと思う.再び,ジョーク.今度はどこが面白いか分かった.声を立てて笑う.そこはかとない満足感を覚える.
• 少人数に向けられた笑いは,全員が分かるような笑いよりも深い満足感をもたらしてくれるであろう
ケース 2 :流行語の産出• ファッション誌は,次々と新しい流行語を生み
出している.部外者には,どういった商品なのかイメージがわかないが,たぶん,それは素晴らしいものだという気がする.
• 流行語を理解できないことが,理解できることへの憧れを生み出し,購買欲を高めるかもしれない.
• 熱心な読者層の一体感を生み出すかもしれない.
ケース 2 の実例 :女性誌「 inRed」の見出し表現
https://docs.google.com/spreadsheet/ccc?key=0Al1_00GeFekndGJNUktvRVRJM3F5UTFFcDNGUTJvcXc#gid=0
ケース 3 :専門用語• 医療者間で使われる「ステる」「ケモ」
などは非医療者には理解できない場合が多い.患者さんに聞かれないように配慮しているとも考えられるが,患者がいないはずの学会でも,これらの表現は使われる.
• 同業者の連帯感?
望ましい性質と RQ
• (1) 意図した相手に伝わること– コミュニケーションの成功
• (2) 意図しない相手には伝わらないこと– ディス・コミュニケーションの成功
• → もし意図しない相手に(みんなに)伝わることが分かるとその語を使うのやめるハズ
• RQ : 語が広まってさっと水が引くように使うのをやめるような現象が観察されるのだろうか?
材料• コホート– 連続した6ヶ月 (2009 年 11 月〜 2010 年 3 月 )
使い続けているユーザ( 18 万人)を対象• 発言数: 約 0.3 億 tweet• 調査した語 : 頻度変化の大きな名詞(次頁)
調査した語の一例キター 整いました ホムペ 女装子 中央大 モナー
グー モテキホームペー
ジ ディスる グ〜 ネチケットますた モテ期 レギンス メンヘラ orz わろす女子力 ぜよ レギパン 山ガール ようつべ ワロス
あると思います なう と思われ イクメン youtube JK
婚活 だん 藁 ふぁぼる リア充 だお。仕分け (笑 逝ってよし どや顔 じゃね 萌え
ガチムチそんなの関
係 キボンヌ ラブ注入 神 マンセー草食 どんだけ だめぽ ダダ漏れ ネ申 ググレカス
ケーマー 品格 おまいら ゲゲゲの ほめぱげ 整いました
頻度の可視化
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410
5000
10000
15000
20000
25000
30000
35000
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410
20000
40000
60000
80000
100000
120000
「なう」
「の」
頻度
頻度
時間
時間
可視化方式に関してIndividual Posting Plot [Yamada]
• 初めてその語を用いた日でソートする.
✔HUMAN-DDAY1 DAY2 DAY3 DAY4 DAY5 DAY6
HUMAN-C ✔
✔HUMAN-B ✔ ✔
HUMAN-A ✔ ✔
✔HUMAN-DDAY1 DAY2 DAY3 DAY4 DAY5 DAY6
✔HUMAN-B ✔ ✔
HUMAN-A ✔ ✔
HUMAN-C ✔
「実に面白い」
ブーム
わずかに広がる
そこそこのブーム
終結?
「成人の日」
「中央大」
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410
20406080
100120140160180200
中央大刺殺事件
「ググレカス」
「整いました」
「ぜよ」
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 1011051091131171211251291331371410
100
200
300
400
500
600 1週単位
仕分け
「派遣村」
急に使われなくなる
「品格」
0 20 40 60 80 100 120 140 1600
1000
2000
3000
4000
5000
6000
1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96 101 106 111 116 121 126 131 136 1410
100
200
300
400
500
600
700
急に使われ始める
急に使用頻度が減る
書籍「国家の品格」 2005ドラマ「派遣の品格」 2007
モテキ
1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 1390
50100150200250
0 20 40 60 80 100 120 140 1600
2000400060008000
100001200014000160001800020000
モテ期
ドラマ開始
望ましい性質と RQ (再掲)• (1) 意図した相手に伝わること– コミュニケーションの成功
• (2) 意図しない相手には伝わらないこと– ディス・コミュニケーションの成功
• → もし意図しない相手に(みんなに)伝わることが分かるとその語を使うのやめるハズ
• RQ : 語が広まってさっと水が引くように使用をやめるような現象が観察されるのだろうか?
YES. では,どんなメカニズムで水引を再現できるのか? モデルで検証してみる
(提案モデル)語の伝搬のモデル:
• 1 日に a回つぶやく( a=0…1; 正規分布)• 人間を①②③の3つの状態のいずれかをとるものとする.
②から③への遷移:? (本研究で解くべき問題)①から②への遷移:一定確率( d% )づつ遷移
1 2 3語 w を知らない状態
語 w を知っている状態b% のつぶやきに語 w を使う
語 w を使わない状態c% のつぶやきに語 w を使う ( c<<b )
シミュレーション 1
1 2 3Pr=0.05 Pr=0.05
Pr=0.05 Pr=0.01
白く抜ける
縦の線(全員一度に使用をやめる)はでてこない
シミュレーション 2
1 2 3Pr=0.20 Pr=0.05
Pr=0.05 Pr=0.01
白く抜ける
シミュレーション 2
1 2 3Pr=0.05 Pr=0.05
Pr=0.05 Pr=0.01
ただし, 80% の人が語 A を知れば②は③に強制移行①<20%
さらに調べたいこと• 全員そろって使用するのはありうる ( TV など)• そのブームが全員そろって終わる場合がある• 何がトリガーなのか?
– ある語が十分に広まってしまったことが原因なのか?– → ある語が十分に広まってしまっていることを成員はいかに知り
うるのか ?• (1) 語 A を知らない人間が 20% であることを知る→非常に困難• (2) 語 A を知っている人が 80% である→困難• (3) 語 A を知らなさそうな人が知っていることを知る→ ありそう• (4) 語 A が TV で取り上げられた→ ありそうだが(研究として)面白くない
まとめ• 昔からうすうす思っていること– 言語は変わる– 人間や世の中が変わるから言語も変わるわけ
ではない– 言語(ルールの集合)にはそれ自体を改変す
るような自己言及的なルールがある(よう)• 今思っていること– <伝わらないこと>ことが価値を持つとすれば言語変化の必要性が説明できるので ?