35
数学と統計学の応用に関する3つの話題 数学を知らないと解けない問題のお話 吉田 知行 (北大・理) [email protected] 2008 共通科目

数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

数学と統計学の応用に関する3つの話題

—数学を知らないと解けない問題のお話

吉田 知行 (北大・理)

[email protected]

2008 共通科目

Page 2: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

数学と統計学の応用に関する3つの話題

II. 一致率検定による東アジアの諸言語の系統探求

言語学—比較言語学,音韻対応の法則,基礎語彙,言語年代学謎—日本語と関係のある言語:朝鮮語・アイヌ語・中国語・カンボジア語等々?統計—分割表の検定,二項検定,並べ替え検定,ブートストラップ法数学—市街化距離,順列組合せと母関数,確率,対称群,ランダムウォーク

Page 3: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

比較言語学(歴史言語学)

●William Jones “The Sanscrit Language”(1786)

英語 two three ten father mother brotherサンスクリット語 dvi tri dasa pitar matar bhratarギリシア語 duo treis deka pater meter phraterラテン語 duo tres decem pater mater frater

「3つの言語は,共通の源(インドヨーロッパ祖語)から発した」

●比較文法学,印欧語族の発見—Schlegel 1808, Bopp 1816 等●系統樹モデル—分裂をくり返してさまざまな言語になった(Schleicher 1861).●波動モデル—波動のように伝播拡散した(Schmidt 1872).言語地理学.

1

Page 4: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

音韻対応の法則に例外なし

●ゲルマン語の音韻推移(グリムの法則)ギリシア p t k d g ph thラテン p t c(=k) d g f f/d

サンスクリット p t s d j bh dh

ゲルマン f θ/∂ h(x) t k b d

問題 英語とドイツ語・フランス語などで,音が対応している単語の例をあげよ.

印欧語では,古い資料がたくさん残っているため言語同士の姉妹関係や文法音韻単語の歴史的変遷をさかのぼって調べることができた.例えば英語の単語が印欧祖語でどのような形をしていたか再構成ができる.

言語の同系の判定は,音韻対応の法則.文法法則と音韻体系の比較による.2

Page 5: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

日本語の起源問題の難しさ

・中国語(漢語)を除けば,東アジアには古い言語の資料がない.日本語は712年古事記,朝鮮語は1446年ハングルによる仏典など,モンゴル語は9世紀ウイグル文字と13世紀パスパ文字.西夏語は11世紀.

・分岐年代が古すぎて従来の比較言語学の方法が使えない可能性が高い.そもそも日本語成立の過程は印欧語族ほど単純でない.

・まともな言語学者は参入しづらい.こじつけとトンデモの世界.例:タミル語説,古代朝鮮語説,例:名前–name,坊や–boy.

日本語と同系な言語は,琉球語(琉球方言とも)だけ.北琉球方言(沖縄など),南琉球方言(八重山など).かなりの違い.別の言語?母音の数が3つ(aiu).規則正しい対応(a↔a,ei↔i, ou↔u)

3

Page 6: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

日本語の起源問題に関したいくつかの疑問

●縄文語と弥生語.・どちらが日本語の基盤になったか(両者はまったく別系統だろう).・縄文語はどこから来たか.弥生語はどこから来たか.

●日本語は変な言語か?・文法音韻とも日本語は,きわめて平凡な言語.平凡でないのは,膨大な数の単語.

●英語は普通の言語か?・英語(かなり孤立語化)は,退化した印欧語(屈折語).異常に多い母音(12個),子音(清音だけで12個以上).形式主語.・世界的に見てSOV型が最多.印欧語族でも,ギリシャ語・ラテン語など多数.古英語・ドイツ語もどちらかというとSOV.

4

Page 7: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

日本語の単語の不思議なところ

●数詞の倍数構成—世界的に見てきわめてまれ.・1(hi)-2(hu), 3(mi)-6(mu),4(yo)-8(ya), 5(itu)-10(to).

●高句麗語の数詞—『三国史記』にでてくる高句麗の地名(新村出1913).三紛縣(密波兮),五谷郡(于次呑忽),七重縣(難隠別),十谷縣(徳頓忽)

つまり「三」「五」「七」「十」の一云(読み) が「ミツ」「ウチャ」「ナン」「トク」.

●身体語と植物関係語.・鼻↔花,目↔芽,頬↔穂,耳↔実 — 場所形が似ている?・耳(ミミ),乳(チチ),頬(ホホ)—同じ音の繰り返し.

5

Page 8: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

比較言語学における数理的方法

●問題点—文法・音韻・語彙は変わる.比較する範囲.古い資料がない.・現代語で比べるしかない.基礎語彙(数詞,基礎100語,200語)による比較.

・Polyaの二項検定法.安本による改良.・Oswaltのシフト検定法.対称群を使ったシフト法とモメント公式.・3言語のまとまり度合い,言語群の比較.・Swadeshの言語年代学—分岐年代.・多変量解析法の応用—クラスタ分析,主成分分析,多次元尺度構成法.

6

Page 9: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●比較法(1) Polya の二項検定法『発見的推論 そのパターン—数学における発見はいかになされるか2』当たる確率 p のくじ.10回引いて(復元抽出) x 回以上当たる確率は

P (x) =10∑

r=x

10Cr pr(1 − p)10−r, nCr =

(nr

)=

n!

r! (n − r)!

ヨーロッパの言語の数詞(文字表記,アクセント記号は省略)英語 スウェー

デン語デンマーク語

オランダ語

ドイツ語

フランス語

スペイン語

イタリア語

ポーランド語

ハンガリー語

1 one en en een ein un uno uno jeden egy2 two tra to twee zwei deux dos due dwa ketto3 three tre tre drie drei trois tres tre trzy harom4 four frya fire vier vier quatre cuatro quattro cztery negy5 five fem fem vijf funf cinq cinco cinque piec ot6 six sex seks zes sechs six seis sei szesc hat7 seven sju syv zeven sieben sept siete sette siedem het8 eight atta otte acht acht huit ocho otto osiem nyolc9 nine nio ni negen neun neuf nueve ove dziewiec kilenc10 ten tio ti tien zehn dix diez dieci dziesisc tiz

7

Page 10: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

語頭文字の一致数(太数字は,上側二項確率 P (x) < 0.05 を意味する)英 ス デ オ ド フ ス イ ポ ハ

英 8 8 3 4 4 4 4 3 1ス 8 9 5 6 4 4 4 3 2デ 8 9 4 5 4 5 5 4 2オ 3 5 4 5 1 1 1 0 2ド 4 6 5 5 3 3 3 2 1フ 4 4 4 1 3 8 9 5 0スペ 4 4 5 1 3 8 9 7 0イ 4 4 5 1 3 9 9 6 0ポ 3 3 4 0 2 5 7 6 0ハ 1 2 2 2 1 0 0 0 0計 39 45 46 22 32 38 41 41 30 8

x P (x)0 1.0000001 .6306442 .2438233 .0615244 .0106125 .02128146 .03108717 .05637078 .06246199 .085656510 .01058625

語頭文字が偶然一致する確率 p =32 + 02 + 52 + 112 + · · · + 42

1002= 0.0948

ここで 3, 0, 5, · · ·, 4 は,語頭文字に a, b, c, · · · , z が現れる回数.

8

Page 11: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●比較法(2) R.Oswalt の(巡回)シフト検定法 (1970)

用意するもの:基礎語彙表 {WAi}, {WBi} (i = 1, · · ·, n).語頭音写像 f(i), g(i): WAi, WBi の語頭音.一致数 x0:f(i) = g(i) となる i の個数.偶然による一致数 x0, x1, · · ·, xn−1 を求める(後述).x0 は除くことが多い.平均 m = (x0 + x1 + · · · + xn−1)/n

分散 s2 = ((x0 − m)2 + (x1 − m)2 + · · · + (xn−1 − m)2)/n

偏差値 z = (x0 − m)/s と上側確率 Qn(z) =1

√2π

∫ ∞

ze−t2/2dt

Qn(z) < 0.05 (z > 2.33)なら5パーセント水準で,両言語は関係がある.

9

Page 12: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

偶然による一致数を求める.片方の言語の単語をひとつずつずらしながら比較する.

項目 意味 日本語 朝鮮語

1 all mina -¾ mot5nHHj

HHY

2 ash ËaËi -¾ tS5iHHj

HHY

3 bark kaËa -¾ k@ptSirHHj

HHY

4 belly Ëara -¾ p5iHHj

HHY

... ... ... ... ...HHj

HHY

99 woman me -¾ ky@tSipHHj

HHY

100 yellow kı -¾ nurWHHj

HHY

1 all mina (mot5n)

f(i), g(i):i 番目の単語の語頭音.x0 := ]{i | f(i) = g(i)}.xk := ]{i | f(i) = g(i + k)}i + k は modn で計算.

LB の単語の順番をずらすと LA

の単語の意味とあわないので,x1, · · ·, xn−1 は偶然による一致数.x0 も背景点に入れる(理論が簡単).似た音はまとめる.語頭子音の一致を見る方がよい.

10

Page 13: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

¢¢¢¢ -

6

5

10

15

20

20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 x× ×××××××

××

××××××××

××××

××××××

××××

×××××××××××××

××××××××××××

×××××××××××××××××

×××××××××××××××

××××××××××××××

××××××××××××××××

××××××××××××

×××××××××××××××××

×××××××××××××

××××

××××××××××

×××××××××

××××××××

×××× ×× ×©

¾ -16.85

36.155m

53x0

上側確率 p = 0.000663偏 差 値 z = 3.210標準偏差 s = 5.248背景点平均 m = 36.155粗点 x0 = 53

「上古日本語」と「中期朝鮮語」のシフト検定(基礎 200 語)

11

Page 14: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

■(オズワルトの)巡回シフト法の問題点

(A) 計算量の問題.・比較回数は O(m2n2).(2 ≤ m --- 100 は言語数,n ≈ 200 は単語数).・言語数増加,単語数増加,単語間の距離計算のコスト増加に難点.

(B) 背景点の分布は正規近似できるか.・やや右裾の長い分布.∴ P 値が過小.・印欧系言語ではさらに右裾が長い—語彙リストが英語の単語の順のため.・語彙表における単語の並べ方によって,分布の形が変わる.

解決法(A) 背景点の平均値 m,標準偏差 s を求める公式.(B) 単語の並べ方によらない方法.背景点分布の正確な形.正確な P 値.

12

Page 15: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

問題の解決—置換群によるシフト法

N := {1, 2, · · ·, n} (単語番号),Sn : n次対称群(n 文字の順列全体).G ⊆ Sn が置換群とは,1 ∈ G(単位置換)かつ σ, τ ∈ G ⇒ στ ∈ G.置換群 G が可移とは,i, j ∈ N なら,ある σ ∈ G が存在して σ(i) = j

写像 f, g : N −→ Λ の一致数 x[f, g] := ]{i ∈ N |f(i) = g(i)}.

背景点(偶然による一致数) x(π) := x[f, gπ] (π ∈ G).その平均と分散:

m :=1

|G|∑π∈G

x(π), s2 :=1

|G|∑π∈G

(x(π) − m)2

平均や分散を aλ := |f−1(λ)|, bλ := |g−1(λ)| で表したい.aλ, bλ は音 λ で始まる LA, LB の単語の個数.

巡回群 Cn := 〈π0 = (1, 2, · · ·, n)〉 の場合はOswalt の巡回シフト法.13

Page 16: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●平均値公式.G が可移なら,m =1

n

∑λ∈Λ

aλbλ

定理の証明.可移性から,]{π ∈ G | π(i) = j} = |G|/n (∀i, j ∈ N).∑π∈G

x[f, gπ] = ]{(π, i) | f(i) = g(π(i))}

= ]{(π, i, j) | f(i) = g(j), π(i) = j}= ]{(i, j) | f(i) = g(j)} × |G|/n

=|G|n

∑λ∈Λ

|f−1(λ)| · |g−1(λ)|

14

Page 17: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●完全シフト法の分散公式.

s2 =1

n − 1m(m + n) −

1

n(n − 1)

∑λ

aλbλ(aλ + bλ)

証明.{(i, j) | i 6= j} 上の置換群 Sn に平均値公式を適用する.

言語 LA, LB で,単語の語頭音が λ である確率:pλ = aλ/n, qλ = bλ/n

LA, LB の単語の対で語頭音が偶然一致する確率 p = m/n =∑

pλqλ

偶然による一致数の分散

s2 =n2

n − 1

{p(1 + p) −

∑pλqλ(pλ + qλ)

}≈ Cn

15

Page 18: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●完全シフト法の高次モメント公式.

1

n!

∑π∈Sn

(x(π)

t

)=

(n − t)!

n!

∑Σtλ=t

∏λ

(aλtλ

) (bλtλ

)tλ!

結論:完全シフト法の場合,背景点 {x(π) | π ∈ Sn} の分布は,語頭音分布表{aλ}, {bλ} で決まる.

16

Page 19: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●例:上古日本語と中期朝鮮語の音韻対応表

J\K k m n p r t w y -k 9 6 6 9 3 11 0 0 4 48m 7 4 1 4 2 5 0 1 1 25n 3 4 3 3 1 2 0 0 1 17p 6 3 7 10 0 6 0 0 1 33r 0 0 0 0 0 2 0 0 0 2t 4 5 8 11 1 27 0 1 0 57w 1 0 3 2 1 3 0 0 0 10y 1 1 2 2 0 1 0 0 1 8- 0 0 0 0 0 0 0 0 0 0

31 23 30 41 8 57 0 2 8 200

完全シフト法:x0 = 53, m = 36.155, s = 5.1647, z = 3.2615,

P = 0.03554.x0 = 53 が偶然得られる確率は2000回に1回程度.

17

Page 20: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●完全シフト法の問題点

(A) 計算量 (2 ≤ m --- 100 は言語数,n ≈ 200 は単語数).

・(オズワルトの)巡回シフト法:比較回数は O(m2n2).・完全シフト法のモメント公式+正規検定(カッパ検定):O(m2n).音の分布 {aλ}, {bλ} と粗点 x0 を求めればよい.

問題点(B) P 値は正確か?—正確でない!過小評価.

・背景点 x(π) = x[f, gπ], π ∈ Sn の正確な分布—超幾何分布の和・正規分布で近似できるか?—近似できる(カッパ検定).・正確な P 値 P (x0) = ]{π ∈ Sn | x(π) ≥ x0}/n! ?

18

Page 21: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

シフト法の変形—かき混ぜるのに何を使うか

N = {1, · · ·, n} 上の置換の集合 G.f, g : N −→ Λ.背景点 x(σ) = ]{i ∈ N | f(i) = g(σi)}, σ ∈ G.一致数 x0 = x(1).

(1) 置換群—可移なら背景点平均 m は音韻分布表 {aλ}, {bλ} から求まる.巡回群—Oswaltのシフト法,計算機による度数分布表.多重可移群—背景点平均分散 m, s2 音韻分布表から求まる.対称群—完全シフト法.背景点分布は,音韻分布表 {aλ}, {bλ} から決まる.

(2) 対称半群 En (N から N への写像全体,重複順列の集合).背景点 x(σ, τ ) = ]{i ∈ N | f(σi) = g(τi)}, σ, τ ∈ En.f, g に関して対称.

これは安本方式の二項検定法 B(n, p) (p = (1/n)2∑

aλbλ) と同じ.Polya方式— p = (1/2n)2

∑(aλ + bλ)2

対称群より対称半群の方が簡単なのは不思議.積和公式のおかげ.19

Page 22: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

対称半群を使った完全シフト法は,二項検定と同じ.

積和公式 ∏i∈I

∑j∈J

uij =∑

λ:I→J

∏i∈I

ui,λ(i) I = N, J = N × N

F (θ) :=∑x≥0

]{(σ, τ ) | x(σ, τ ) = x}n2n

θx =1

n2n

∑σ,τ∈En

θx(σ,τ )

=1

n2n

∑σ,τ

∏i∈N

θδ(fσ(i), gτ (i)) =∏

i∈N

1

n2

∑j,k∈N

θδ(f(j), g(k))

∑j,k

=∑λ,µ

aλbµθδ(λ,µ) = n2 − n2p(1 − θ), p :=1

n2

∑λ

aλbλ

∴∴∴ F (θ) = (1 − p + pθ)n (二項分布の確率母関数)

20

Page 23: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

(3) (重複)順列の集合—背景点平均が音韻分布表で決まらないことがある.乱順列全体—m∗ = m + (m − x0)/(n − 1).正規部分集合(e.g.共役類)—単語の並べ方によらない.注:G ⊂ Sn が正規とは,σ ∈ G, π ∈ Sn ⇒ πσπ−1 ∈ G.x[fπσ, gπ] = x[fπσπ−1, g].対称群 Sn(n ≥ 5) の正規部分群は Sn, An.

(4) N が有限準群 (x · y = z のふたつが定まれば残りも一意的に定まる).ラテン方陣は単位元を持つ有限準群.数独の解は準群.

背景点 xs := ]{i ∈ N | f(i) = g(s · i)}(s ∈ N).背景点の平均 m = (1/n)

∑aλbλ

ラテン方陣 i · j := i + j − 1 (mod n) の場合は巡回シフト法と同等.

21

Page 24: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●モンテカルロ法:かき混ぜるための Sn や En の元をランダムに発生させる.x(π) := ]{i ∈ N | f(i) = g(πi)}, π ∈ Sn, |Sn| = n!.x(σ, τ ) := ]{i ∈ N | f(σi) = g(τi)}, σ, τ ∈ En, |En| = nn.

背景点 x(π) の分布.π は対称群 Sn の元をランダムに取る.−→ Fisherの置換法.π1, · · ·, πn は 1, · · ·, n の順列.

背景点 x(σ, τ ) の分布.σ, τ は対称半群 En の元をランダムに取る.−→ ブートストラップ法.σ1, σ2, · · · と τ1, τ2, · · · は 1, · · ·, n の重複順列.

作用 分布型 すべて取る ランダムに取る対称群 HGDの和1) (1a) 完全シフト法  (1b) Fisher の置換法 対称半群 二項分布 (2a) 安本の二項検定 (2b) ブートストラップ法

1)∑

λ xλ,λ (分割表の対角和).各 xλ,µ の分布は超幾何分布 (互いに独立でない)

22

Page 25: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●どの方法を採るか.(1a) 完全シフト法+正規検定—高速,P -値が過小.(1b) 完全シフト法+置換法—遅そう.順列のランダムな発生法.(1c) 完全シフト法+正確確率法—正確な P -値.計算量膨大.

(2a) 安本方式の二項検定法—高速,P -値が過大.信頼性がある.(2b) ブートストラップ法—使う意味がない.(3a) 巡回シフト法+正規検定—現在では使う意味がない.(3b) 準群+二項検定など—理論的には何かあるかもしれない.

基礎語彙は母集団か標本か.標本と見るなら,二項検定法がよい.

実験結果も安本方式の二項検定法を支持する

23

Page 26: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

安本流の二項検定法の手順のまとめ・比較したいふたつの言語A,Bの語彙リストを用意する.基礎200語など.・ふたつの単語の一致の基準を決める.ふつうは語頭(子)音の類似.・語頭音写像 f, g : N −→ Λ が定まる.Λ は音の同値類の集合.・言語A, Bにおける語頭音分布表 {aλ}, {bλ} を作る.・言語 A, Bの語頭音の一致数 x0 を数える.必要なら音韻対応表を作る.・x0 に対する二項検定 B(n, p) を行う.n は単語数.

P (x0) =n∑

x=x0

(nx

)px(1 − p)n−x, p :=

1

n2

∑λ

aλbλ

・多言語,語族同士の比較も同様.偶然による一致の確率 p が必要.

24

Page 27: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

さらなる拡張—語族の比較,重み付き一致数

言語 A,B 間の一致数,完全シフト法の背景点の平均と分散 xAB, mAB, s2AB

f, g, h : N −→ Λ :言語 A,B,C の語頭音を与える写像aλ := |f−1(λ)|, bλ := |g−1(λ)|, cλ := |h−1(λ)|:λ で始まる単語の個数

3言語のまとまり—語頭音一致数(multi-metric)

方式1:x′0 = xAB + xBC + xCA.3言語で一致した単語は3倍して数える.

方式2:x′′0 = xABC := x[f, g, h] = ]{i ∈ N | f(i) = g(i) = h(i)}.

25

Page 28: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

方式1による偶然による背景点の平均と分散:

m′ =1

n

∑λ

(aλbλ + bλcλ + cλaλ)

s′2 = s2AB + s2

BC + s2CA

方式2による背景点の平均と分散:

m′′ =1

n2

∑λ

aλbλcλ

s′′2 =2n − 1

(n − 1)2m′2+

n2 − 2n

(n − 1)2m′−

1

n2(n − 1)2

∑λ

aλbλcλ(aλ+bλ+cλ)

26

Page 29: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

●日本語(J),アイヌ語(A),朝鮮語(K)の比較結果

J × A J × K A × K JAK(1) JAK(2)x0 41 53 56 151 23m 36.535 36.035 37.53 109.88 8.2465s 5.1070 5.1635 5.2094 8.9160 2.9833γ1 0.0981 0.1035 0.1001 — —γ2 -0.03862 0.03104 0.03481 — —z 0.8743 3.2615 3.5455 4.6119 4.9454

P (正規) 0.1910 0.03509 0.03196 0.05252 0.06380P (正確) 0.2163 0.02156 0.03479 — —P (二項) 0.2312 0.02188 0.03943 0.04227 0.04104

・正規分布に比べると,背景点の分布はやや右に長い尾を引いている.・たいていの場合は,(正規) < (正確) < (二項).安本流の二項検定で間に合う.正規は P -値が過小に出る.正確確率は計算が大変.

27

Page 30: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

日本語・アイヌ語・朝鮮語の比較結果の解釈

●共通の核(JAK(2))がある,核を除けば相関がない.極東地域に3言語の元になる言語(安本の古極東アジア語?)があった(約1万年前).まず日本語が分かれ,その後アイヌ語朝鮮語が分かれた.3言語は各地域で独立に発展した.

●私見:これら3言語は北方系.日本語には南方系の影響がある.北からアイヌ語祖語・朝鮮語祖語・日本語祖語の順に,中国東北部から沿海州シベリア方面に分布していた.その後南下して,玉突きのように,サハリン・朝鮮半島・日本列島を占めた.アイヌ語は,サハリン経由か,日本海横断して日本列島北部に入った.アイヌ語への縄文語の影響は思ったより少ない.縄文人の遺伝子は長い間に少しずつアイヌ人に入り込んだ.

28

Page 31: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

正確な p 値の求め方 — 2F0 型超幾何多項式.

P (x ≥ x0) = ]{π ∈ Sn | x[f, gπ] ≥ x0}/n!

f, g : N −→ Λ, aλ := |f−1(λ)|, bλ := |g−1(λ)|.

・F (u) :=∏λ

∑k≥0

(aλ

k

) (bλ

k

)k!uk

=∑k≥0

(nk

)k! q(k)uk

・p(x) =∑k≥x

(−1)k−x

(kx

)q(k)

・P (x ≥ x0) = p(x0) + p(x0 + 1) + · · · + p(n).

例:上古日本語と中期朝鮮語 x0 = 53.P (x ≥ 53) =971072955976527370489065992048363534695258683180916330016972623729162842170272509552467370904366650977071823270606663

621808756731104460234413202960802888298370454841707272110637520765525658472228904396826948279002883680647387345546300000

P (x0 ≥ 53) = 0.00156169(正確).正規 0.000554.二項 0.00238.

29

Page 32: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

言語年代学 — Swadesh の公式とその改良.

言語 LA, LB.分岐年代 T (単位千年).一致数 x0.時刻 t における言語 LA(t).LA(T ) = LA = LB.r:ひとつの単語の語頭音の千年あたりの残存率(r ≈ 0.8).

●Swadesh の公式:x0(t) = x0(0)rt.x0 = nr2T.これから分岐時期 T が求まる.

m(t):LA(0) と LA(0) の平均一致数.x0(t):LA(0) と LA(t) の一致数.

●改良 Swadesh の公式:x0(T ) − m(T )

x0(0) − m(0)= rT ,

x0 − m

x0(0) − m(0)= r2T.

日本語と朝鮮語の(同系としての)分岐年代は,6400年前.

30

Page 33: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

日本語の起源

●日本語に同系の言語は琉球語(南北2系統)のみ.●日本語周辺で,強い関係のある言語対,有意確率 0.0005 以下,(括弧内は0.001以下)・日本語(東京)—カンボジア語,朝鮮語・日本語(上古)—インドネシア語,(カンボジア語,朝鮮語)・日本語(沖縄)—インドネシア語,ベトナム語・朝鮮語—アイヌ語

●結論—日本語と同系の言語は琉球語以外にない.日本語の祖語もない.日本語の骨格は縄文語で北方系.さらにインドネシア語・カンボジア語などの南方系言語が流れ込んだ.弥生時代に,ビルマ系江南語など南方系言語の語彙を取り込んだ.東アジアにおける,中国語(漢語)の爆発的拡大によって,南方系の言語は東西南に拡散した.

31

Page 34: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

・吉田 知行 「言語間の距離とシフト法」数理科学 1984/12・吉田 知行 「数学の応用事例—比較言語学への応用」サイエンストピックス,北大理学部HP・ポリヤ『数学における発見はいかになされるか』第2巻『発見的推論』1959.・安本美典・野崎昭弘『言語の数理』筑摩書房 1976.・安本美典『言語の科学』朝倉書店 1995.・安本美典『日本語の誕生』大修館書店 1983.・R.Gray-Q.Atkinson, Language-tree divergence times support the Ana-tolian theory of Indo-European origin, NATURE 426 (2003), 435–439.http://www.psych.auckland.ac.nz/Psych/research/Evolution/Gray&Atkinson2003.pdf

32

Page 35: 数学と統計学の応用に関する3つの話題 数学を知らないと解 …ohmoto/Classes/fw/rigaku2.pdf数学と統計学の応用に関する3つの話題 II. 一致率検定による東アジアの諸言語の系統探求

音韻対応表

J\K k m n p r t w y -k 9 6 6 9 3 11 0 0 4 48m 7 4 1 4 2 5 0 1 1 25n 3 4 3 3 1 2 0 0 1 17p 6 3 7 10 0 6 0 0 1 33r 0 0 0 0 0 2 0 0 0 2t 4 5 8 11 1 27 0 1 0 57w 1 0 3 2 1 3 0 0 0 10y 1 1 2 2 0 1 0 0 1 8- 0 0 0 0 0 0 0 0 0 0

31 23 30 41 8 57 0 2 8 200

J\A k m n p r t w y -k 8 1 6 10 6 16 0 0 1 48m 2 1 2 8 2 8 1 1 0 25n 4 2 2 2 2 4 0 1 0 17p 4 0 4 10 1 11 0 3 0 33r 0 0 0 1 0 1 0 0 0 2t 8 3 8 10 5 20 1 2 0 57w 3 1 0 2 0 3 0 0 1 10y 1 1 3 3 0 0 0 0 0 8- 0 0 0 0 0 0 0 0 0 0

30 9 25 46 16 63 2 7 2 200

K\A k m n p r t w y -k 8 2 4 5 2 10 0 0 0 31m 3 0 4 7 2 5 2 0 0 23n 4 0 6 6 1 11 0 1 1 30p 5 4 4 15 3 9 0 1 0 41r 2 0 1 1 3 1 0 0 0 8t 5 3 6 8 5 24 0 5 1 57w 0 0 0 0 0 0 0 0 0 0y 1 0 0 1 0 0 0 0 0 2- 2 0 0 3 0 0 3 0 0 8

30 9 25 46 16 63 2 7 2 200

似た音はまとめるH=h=p=b=f=v=x,t=sh=ts=d=s=z,k=g=q=ng,r=l

33