99
5. 得点 データ分析の目的によってデータ行列の成分全体を一定の規則で変換す ることがあります。この節では,データを構成する個々のデータの「得点」 (Score) に着目し,データ内のそれぞれの値の特徴をデータ全体の中で観察 します。以下で扱う得点の中には「度」という用語を使って「相対度」 「期待度」のように一般によく使われるものもありますが,「加重得点」 「限定得点」「代表得点」「卓立得点」は一般に使われていません。「標準 得点」は「標準スコア」「標準測度」などとよばれますが,ここではデー タの個々の値を変換した値を成分としてもつ行列をすべて「得点行列」 という用語で統一しました。最初に扱う実測値の分布を見るために使う「階 級得点」は,もとの実測値の行列と大きさ(行と列)が異なりますが, そのほかはすべて実測値の大きさと同じです。 5.1. 相対得点 先に見た実測値の問題点は,行と列ごとにスケールが異なるため,比較 が難しいということです。たとえば,列 v1 d1=10 d2=11 をそのまま 比較することができません。それぞれの横和 (62, 29) が異なるからです。 実測値 v1 v2 v3 v4 v5 横和 Sh d1 10 19 14 7 12 62 d2 11 7 10 0 1 29 d3 0 0 1 12 1 14 d4 0 1 2 3 3 9 縦和 Sv 21 27 27 22 17 114 そこで有効になるのが「相対得点」(Relative Score: RS)(割合)です。そ れぞれの得点 X を和 Sm で割ることで算出できます。X = 0 のとき RS は最 小値 0 で, X = Sm のとき最大値 1 になります 1 RS = X / Sm RS: [0.0 (x = 0) 0.5 (X = Sm / 2) 1.0 (x = Sm)] 「行相対得点」 (Relative Score in Row: RSr) と,「列相対得点」 (Relative Score in Column: RSc) をそれぞの横和列 (SumH) と縦和行 (SumV) を使って計算し ます。 RSr np = X np / SumH n1 RSc np = X np / SumV 1p 1 この値に 100 を掛けた値が「百分率」 (percent) です。

5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

5. 得点

データ分析の目的によってデータ行列の成分全体を一定の規則で変換す

ることがあります。この節では,データを構成する個々のデータの「得点」

(Score)に着目し,データ内のそれぞれの値の特徴をデータ全体の中で観察

します。以下で扱う得点の中には「度数」という用語を使って「相対度数」

「期待度数」のように一般によく使われるものもありますが,「加重得点」

「限定得点」「代表得点」「卓立得点」は一般に使われていません。「標準

得点」は「標準スコア」「標準測度」などとよばれますが,ここではデー

タの個々の数値を変換した値を成分としてもつ行列をすべて「得点行列」

という用語で統一しました。最初に扱う実測値の分布を見るために使う「階

級得点」は,もとの実測値の行列と大きさ(行数と列数)が異なりますが,

そのほかはすべて実測値の大きさと同じです。

5.1. 相対得点

先に見た実測値の問題点は,行と列ごとにスケールが異なるため,比較

が難しいということです。たとえば,列 v1 の d1=10 と d2=11 をそのまま

比較することができません。それぞれの横和 (62, 29)が異なるからです。

実測値 v1 v2 v3 v4 v5 横和 Sh

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

縦和 Sv 21 27 27 22 17 114

そこで有効になるのが「相対得点」(Relative Score: RS)(割合)です。そ

れぞれの得点 X を和 Sm で割ることで算出できます。X = 0 のとき RS は最

小値 0 で,X = Sm のとき最大値 1 になります 1。

RS = X / Sm

RS: [0.0 (x = 0) ≦ 0.5 (X = Sm / 2) ≦ 1.0 (x = Sm)]

「行相対得点」(Relative Score in Row: RSr)と,「列相対得点」(Relative Score

in Column: RSc)をそれぞの横和列 (SumH)と縦和行 (SumV)を使って計算し

ます。

RSrn p = Xnp / SumHn 1

RScn p = Xnp / SumV1 p

1 この数値に 100 を掛けた値が「百分率」 (percent)です。

Page 2: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

1

ここで,X はそれぞれのセルの値ですが,Xn p は行列全体をさします。

SumH が横和 (Horizontal Sum)の列ベクトルを示し,SumV は縦和 (Vertical

Sum)の行ベクトルを示します。たとえば行相対得点の d1:v1 では X = 10 な

ので,それを SumH (= 62)で割ると 10 / 62 = 0.16 になります。

RSR v1 v2 v3 v4 v5

RSC v1 v2 v3 v4 v5

d1 .16 .31 .23 .11 .19

d1 .48 .70 .52 .32 .71

d2 .38 .24 .34 .00 .03

d2 .52 .26 .37 .00 .06

d3 .00 .00 .07 .86 .07

d3 .00 .00 .04 .55 .06

d4 .00 .11 .22 .33 .33

d4 .00 .04 .07 .14 .18

下表「全体相対得点」(Relative Score in all: RSa)は,それぞれのセルの値

を全範囲の和 (S)(スカラー)で割ったものです。

RSa = Xn p / S

RSa v1 v2 v3 v4 v5

d1 .09 .17 .12 .06 .11

d2 .10 .06 .09 .00 .01

d3 .00 .00 .01 .11 .01

d4 .00 .01 .02 .03 .03

割合や百分率などの相対得点 (R.S.)の問題点は,データの規模が大きくな

ると分母が大きくなるので,小さな数値になりやすいことです。とくに全

体相対得点 (RSA)が小さな数値になる傾向があります。

●総和による標準化

上で見た「全相対得点」は「総和による標準化」(Normalization by Sum: NS)

を示します。単純にデータ Xn pのそれぞれの成分をデータ総和 (T)で割った

値です。たとえば, d1:v1 のセルでは 10 / 114 = 0.088 となります。

NSn p = Xn p / Sum(In p)

Xnp v1 v2 v3 v4 v5 和 Sh

NS. v1 v2 v3 v4 v5 和 Sh

d1 10 19 14 7 12 62

d1 .088 .167 .123 .061 .105 .544

d2 11 7 10 0 1 29

d2 .096 .061 .088 .000 .009 .254

d3 0 0 1 12 1 14

d3 .000 .000 .009 .105 .009 .123

d4 0 1 2 3 3 9

d4 .000 .009 .018 .026 .026 .079

和 Sv 21 27 27 22 17 114 和 Sv .184 .237 .237 .193 .149 1.000

*池田 (1976: 121-123)を参照しました。

Page 3: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

2

●分数平均による標準化

次は「分数平均による標準化」 (Normalization by Fractional Mean: NFM)

式と結果です。詳細は後述します(→標準化の理由)。

Wn p = 2 Xn p / (Shn 1 + Sv1 p)

NFMn p = Wn p / Sum(Wn p)

NFM v1 v2 v3 v4 v5 Sh

d1 .062 .109 .080 .043 .078 .371

d2 .112 .064 .091

.011 .279

d3

.012 .170 .016 .199

d4 .014 .028 .049 .059 .151

Sv .174 .187 .212 .262 .164 1.000

●モステラーの標準化

下左表のようなデータ行列のそれぞれのセルを一定の値で割って,縦和

も横和もそれぞれすべての和が同一になるように変換すると,全体の中で

値を相対的に見ることができます(下右表)。この例では総和を 1 にして

います。

Xnp v1 v2 v3 v4 v5 和 Sh

NS.Mos v1 v2 v3 v4 v5 和 Sh

d1 10 19 14 7 12 62

d1 .068 .091 .043 .007 .041 .250

d2 11 7 10 0 1 29

d2 .132 .059 .053 .000 .006 .250

d3 0 0 1 12 1 14

d3 .000 .000 .041 .162 .047 .250

d4 0 1 2 3 3 9

d4 .000 .050 .063 .031 .106 .250

和 Sv 21 27 27 22 17 T:114 和 Sv .200 .200 .200 .200 .200 1.000

このように横和 Sh を一定にそろえ,総和 (T)を 1 にするためは,行列全

体を横和 *行数 (=4)で割ります。

X (1 )n p = Xnp / (Sh * 4)

X1np v1 v2 v3 v4 v5 Sh

d1 .040 .077 .056 .028 .048 .250

d2 .095 .060 .086 .000 .009 .250

d3 .000 .000 .018 .214 .018 .250

d4 .000 .028 .056 .083 .083 .250

Sv .135 .165 .216 .326 .158 1.000

次に,縦和 Sv を一定にそろえ,総和 (T)を 1 にするためは,行列全体を

縦和 Sv*列数 (=5)で割ります。

Page 4: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

3

X (2 )n p = Xnp

(1) / (Sv * 5)

X2np v1 v2 v3 v4 v5 Sh

d1 .060 .093 .052 .017 .061 .283

d2 .140 .073 .080 .000 .011 .304

d3 .000 .000 .017 .132 .023 .171

d4 .000 .034 .051 .051 .105 .242

Sv .200 .200 .200 .200 .200 1.000

このとき横和 Sh が変化しますから,再び横和 Sh*行数で割り,また縦和

Sv*列数で割る,という演算をします。この演算をセルの値の変化がほと

んでなくなるまで繰り返します。この方法は「モステラー (Mosteller)の標

準化」 (Mosteller Standardization)とよばれます。*池田 (1976: 123-124)

モステラーの標準化はすべての行和を同じにそろえ,すべての列和を同

じに揃えます。そのため個々のデータの規模が元の数値と大きく異なるこ

とになるので (たとえば上でマークした数値 ),注意が必要です。

●検索

データ行列の特徴的な値を観察するために特定の条件に一致したセルの

文字色や背景色を変えます。たとえば,「A 以上」という条件を選択しま

す。「平均」を選択すると「平均以上」が条件になりまる。ここで「指定」

を具体的な数値にすると,その数値以上の値を持つセルを検索します。

データ

データ v-1 v-2 v-3 v-4 v-5

d-1 10 40 70 50 20

d-2 20 40 60 50 20

d-3 100 400 700 500 200

条件:A 以上,A:平均

結果

データ v-1 v-2 v-3 v-4 v-5

d-1 10 40 70 50 20

d-2 20 40 60 50 20

d-3 100 400 700 500 200

●異常値と欠測値

サンプルのデータ行列は小さなものですが,実際の言語データ分析では

行数も列数もかなり大きな行列を扱うことがあります。そのとき,それぞ

Page 5: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

4

れのセルのデータは全体の中に紛れてしまい,貴重な情報が見失われます。

とくに「異常値」とよばれるデータに注目しなければなりません。そこ

には何か特別なことが生じているためです。一般にデータ分析では普通で

はないデータを異常値として退けるのではなく,むしろそのようなデータ

が特別な「情報」をもっている,とも考えられます。逆に,普通に起こる

ことにはあまり情報がありません。そこで平均からの距離が大きな値や上

位 N 番などをマークして注目するのです。

データ行列の「欠測値」(missing value)も異常値の 1 つと考えられるでし

ょう。次のサンプルデータでは,10 点満点のテストで欠席のケース x でマ

ークしてありますが,「指定」「N:x」でさらに背景色や文字色を変えてみ

ました。このようにデータを視覚化すると,欠測値を見失うことはありま

せん。欠測値の扱いについては後述します。 .

●卓立化

[1] 行卓立相対得点と列卓立相対得点

「自分(セル)が他のメンバー(セル)たちと違う」ことを示す「卓立

得点」(Prominent Score: PS)という数値を提案します。ここでは 1 つのセル

の値 (X),たとえば d1:v1=10 を取り出して説明しましょう。

Xnp v1 v2 v3 v4 v5 和 SumHn 1 個数 P

d1 10 19 14 7 12 62 5

d2 11 7 10 0 1 29 5

d3 0 0 1 12 1 14 5

d4 0 1 2 3 3 9 5

和 SumV1 p 21 27 27 22 17 114

個数 N 4 4 4 4 4 20

ここで,X の実測値 (=10)を,横行の他の値全体の和 (SumH – X = 62 - 10 =

52)と比較します。このとき,そのまま比較するのではなく,X に列数 (P) -

Page 6: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

5

1 = 5 - 1 = 4 を掛けた値 (P – 1) X と SumH – X を比較します。これは X (1

個 )の大きさを,他のセル全部 (P - 1 個 )と比べると不利になるからです。そ

こで,セルの数を同じと見なしたときの X の値, (P – 1) X を考えます。 (P

- 1) X を,他の (SumH – X)と相対化した値は (P – 1) X / [(P – 1) X + (SumH –

X)]です。これを「行卓立相対得点」(Prominent Relative Score in Row: PRSR)

とします。卓立係数 (PS)は [0.0 ~ 1.0]の範囲になります。

PRSR = (P – 1) Xnp / [(P – 1) Xnp + (SumHn 1 – Xn p )]

= (P – 1) Xnp / [(P – 2) Xnp + SumHn 1]

同様に「列卓立相対得点」 (Prominent Relative Score in Colum: PRSC)は

PRSC = (N – 1) Xnp / [(N – 1) Xn p + (SumV1 p – Xn p )]

= (N – 1) Xnp / [(N – 2) Xn p + SumV1p]

セルの数が多くなると,相対得点 (RS)は小さくなりがちですが,卓立相

対得点 (PRS)ではセルの数 (Cn)の大小にあまり左右されない数値が得られ

ます。これは PS の式の分子にも分母にも P, N があるためです。

PRSr v1 v2 v3 v4 v5

PRSc. v1 v2 v3 v4 v5

d1 .43 .64 .54 .34 .49

d1 .73 .88 .76 .58 .88

d2 .71 .56 .68 .00 .13

d2 .77 .51 .64 .00 .16

d3 .00 .00 .24 .96 .24

d3 .00 .00 .10 .78 .16

d4 .00 .33 .53 .67 .67

d4 .00 .10 .19 .32 .39

[2] 全卓立相対得点

「全卓立相対得点」 (Prominent Relative Score in All: PRSA)は X を行列全

体のその他のメンバーの和 (S – X) と比較します。そのとき,X には行列全

体の個数 (N*P) – 1 を加重して不利にならないようにします。

PRSA = (N P – 1) Xn p / [(N P – 1) Xnp + (S – Xn p )]

= (N P – 1) Xn p / [(N P – 2) Xnp + S]

PRSA v1 v2 v3 v4 v5

d1 .65 .79 .73 .55 .69

d2 .67 .55 .65 .00 .14

d3 .00 .00 .14 .69 .14

d4 .00 .14 .25 .34 .34

●パーブロック

頻度がデータの一部に片寄って分布していると,その和を求めても,そ

の和が全体の傾向を示していることにはなりません。そこで,データ全体

Page 7: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

6

の傾向を知るために,「パーブロック」(Per blocks)と呼ぶ方法を考えます。

たとえば ff で始まる語が {2, 5, 8, 45, 50}の行番にある,とします。データ

全体を {1-10, 11-20, 21-30, 31-40, 41-50}のように 5 ブロックに分けて考え

ると,{2, 5, 8}は {1-10}のブロックにあり,{45, 50}は {41-50}のブロックに

あるので,2 ブロックに集中していることになります。一方,{2, 13, 25, 38,

43}というような分布をしているデータならば,すべてのブロックにデータ

が見つかるので,出現ブロック数は 5 です。出現数はどちらも 5 個ですが,

出現ブロック数は 2 個と 5 個になり,大きな差を示します。

出現ブロック数は全体ブロック数によって変化します。全体ブロック数

をたとえば 100 と決めて分析することも考えられますが,データ全体の行

数に応じて,それを超えない近い数値を設定するほうが正確な出現ブロッ

ク数が得られます。

また,全体ブロック数を増やしていくと,出現ブロック数は変化しなく

なるポイントがあります。出現ブロック数は変化しなくなったときの全体

ブロック数を選択することも考えられます。

次の 3 つの表は,f-, ff-, s-, ss-の語の歴史的な推移を示します。最初の表

(F.A.)は絶対頻度,2 番目の表 (100 bloques)は 100 ブロック当りの出現ブロ

ック数,3 番目の表 (1000 bloques)は 1000 ブロック当りの出現ブロック数を

示します。

F.A. 1200 1250 1300 1350 1400 1450

1.#f[^f]% 2340 3976 1781 2730 4090 3489

2.#ff% 100 1998 2160 886 153 127

3.#s[^s]% 3176 8435 4441 5998 8175 7030

4.#ss% 9 1301 2074 939 95 27

100 bloques 1200 1250 1300 1350 1400 1450

1.#f[^f]% 39 68 60 53 55 57

2.#ff% 12 63 50 45 35 17

3.#s[^s]% 39 70 62 53 55 58

4.#ss% 5 51 44 39 24 5

1000 bloques 1200 1250 1300 1350 1400 1450

1.#f[^f]% 134 290 180 160 184 215

2.#ff% 22 243 149 111 59 31

3.#s[^s]% 135 314 203 171 186 218

4.#ss% 5 140 138 90 36 7

最初の表 (F.A.)では, ff で始まる語のピークは 1300 年代になっています

が,パーブロックの表 (100 bloques, 1000 bloques)では 1250 年代がピークを

示しています。単純に ff で始まる語の生起数を求めるならば,1300 年代に

Page 8: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

7

なりますが,これには片寄りがあるようです。正確な傾向を求めるときに

はパーブロック法を使うことが考えられます。パーブロック法は頻度と拡

散度を同時に考慮した計算法です 2。

■相対頻度とパーミル比: 2 重子音文字

次は中世スペイン語 (公証文書 )の鼻音と流音の 2 重子音文字を有する語

の頻度の実測値 (O)です。

O 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

nn 550 66 143 57 1 2 2 4 4 1 0 2 30

ll 2310 1166 4524 1354 243 367 325 571 902 217 439 589 776

rr 625 327 1563 846 109 309 283 533 290 181 152 249 273

この 3 者 (<nn>, <ll>, <rr>)だけを比較した行相対得点は次のようになり

ます。

PRF 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

nn .638 .077 .166 .066 .001 .002 .002 .005 .005 .001 .000 .002 .035

ll .168 .085 .328 .098 .018 .027 .024 .041 .065 .016 .032 .043 .056

rr .109 .057 .272 .147 .019 .054 .049 .093 .051 .032 .026 .043 .048

次は年代ごとのすべての文書の総語数 (W)を示します。

W 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

& 62549 29396 114499 44040 6000 11732 10506 19276 27990 8131 15952 20792 27048

先の実測値 (O)を総語数 (W)で割り,1000 を掛けると次のパーミル比が得

られます (M)。

Mn p = Onp * 1000 / W1p

M 1260 1280 1300 1320 1340 1360 1380 1400 1420 1440 1460 1480 1500

nn 9 2 1 1 1

ll 37 40 40 31 41 31 31 30 32 27 28 28 29

srr 10 11 14 19 18 26 27 28 10 22 10 12 10

相対得点 (R)では比較する相手が自分を除いた 2 者に限られますが,全数

を母数とするパーミル比 (M)を使うと,全体の語数 (W)の中でそれぞれの 2

重文字語の趨勢を見ることができます。14 世紀に<nn>が急減したのは,こ

れが n の上に省略記号の~を付けた形に変わったためです。これがスペイ

ン語特有の文字エニェ (ñ)の起源になりました。

2 次を参照しました:Davies, Mark. 2006. A Frequency Dictionary of Spanish.

Core Vocabulary for Learners. New York. Routledge. p.6-7.

Page 9: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

8

yo era mas ni<n>no「私は幼少だった」

■標準化の理由:«s»の 2 異文字・死亡者と生存者

中世・近代スペイン語では,文字«s»に,短い<s> と縦長の<ſ>という異文字 (allograph)がありました。その分布の特徴は語末に短い<s> が使われ

る傾向があった,ということが観察されています。しかし,確かに語末で

短い <s>が多く使われているのですが,それは語頭・語中でもやはり使わ

れています(下左表:『アレクサンダー大王物語』 Libro de Alexandre (1300)

の冒頭から 2 万字まで)。下右表は総和による標準化 (NS)の結果です。

/s/ 語頭 語中 語末 和 Sh

NS 語頭 語中 語末 和 Sh

<s> 62 2 593 657

<s> .042 .001 .397 .440

<ſ> 314 412 109 835

<ſ> .210 .276 .073 .560

和 Sv 376 414 702 1492 和 Sv .252 .277 .471 1.000

短い<s>が語末に出現する傾向は,このような小さな規模(2 行 3 列の大

きさの表)で頻度が低いデータ(総数 1492)ならばとくに標準化しなくて

も大体様子がわかるのですが,データの規模とスケールがさらに大きくな

ると,分布の傾向を見ることが難しくなります。そこで,よく行われるの

は次のような横和,または縦和で割った相対頻度の表示です。

RSR 語頭 語中 語末 和 Sh

RSC 語頭 語中 語末 和 Sh

<s> .094 .003 .903 1.000

<s> .165 .005 .845 1.014

<ſ> .376 .493 .131 1.000

<ſ> .835 .995 .155 1.986

和 Sv .470 .496 1.033 2.000 和 Sv 1.000 1.000 1.000 3.000

ここで気づくことは,横和で相対化すると (RSR),観点は横軸に集中し,

たとえば,短い s が語頭・語中よりも語末に集中していることがわかり,

一方,縦和で相対化すると (RSC),たしかに語末では短い s が多く現れてい

るのですが (.845),語頭での長い ſ もそれに続くように高い比率 (.835)を占

めていることがわかります。そのことならば,横軸相対化得点(上左表)

で見れば,語頭の位置の短い s と縦長の ſ の割合が同じになるのではないか,と思われるかもしれませんが,実は,.094 / .470 = .200, .376 / .470 = .800

になるので,上右表の .165, .835 とは異なり,必ずしも正確には両者の比率

が正しく比較できません。

次の表 (NS.FM)は横比率と縦比率の分数平均による標準化得点を示して

います。

Page 10: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

9

NS.FM 語頭 語中 語末 和 Sh

<s> .052 .002 .377 .430

<ſ> .224 .285 .061 .570

和 Sv .276 .286 .438 1.000

上表 (NS.FM)=両軸相対得点 (RSB)では,語頭の<s>の頻度を横和で割っ

た値 62/657 と,縦和で割った値 62/314 のそれぞれの分子と分母を足して

割り算をしています( (62 * 2) / (657+314) = .052)。このとき,単に<s>の

頻度の横の割合だけでなく,その縦の割合も考慮に入れています。

さらに大きな数値例として,たとえば,コレラ流行時の A 市と B 市の感

染死亡者数を比較する資料があると仮定しましょう(下左表「コレラ」)。

下右表 (RSC)はそ の縦軸の割合です。それ ぞれの市の死亡者 の割合

( .032, .012)が算出されるので,ここから A 市 (.032)は B 市 (.012)と比べて,

2.7 倍にもなる (.032 / .12 ≒ 2.66),と言えるでしょうか?それならば,生

存者を比較して (.968, .988),両者の比を計算すると .980 (.968 / .988

≒ .980)なので,ほとんど同じになってしまいます。

コレラ A市 B 市 和 Sh

RSC A市 B 市 和 Sh

死亡者 1300 250 1550 死亡者 .032 .012 .045

生存者 39000 20000 59000 生存者 .968 .988 1.955

和 Sv 40300 20250 60550 和 Sv 1.000 1.000 2.000

実は,このように母数の異なる集団の中の割合(率,%など)を比較す

ることは本質的にできないはずです。そこでデータを標準化する必要が生

まれますが,そうすると次のような結果になります。

NS.S A市 B 市 和 Sh

NS.FM. A市 B 市 和 Sh

死亡者 .021 .004 .026 死亡者 .045 .017 .062

生存者 .644 .330 .974 生存者 .571 .367 .938

和 Sv .666 .334 1.000 和 Sv .616 .384 1.000

上左表 (NS.S)は単純な総和による標準化の結果です。それぞれの 4 つの

数値は同じ共通の総和( 60550)で割っているので,一応は比較できます。

これで,もとのデータ行列では見にくかった割合の内訳がわかるようにな

りました。しかし,この方法では,たとえば B 市の死亡者の割合 (.004)を

計算するとき,その分母に,直接関係のない,A 市の多数の生存者 (39000)

も含めるので,その結果非常に小さな数値 (.004)になっています。むしろ,

死亡者全体の中の B市の割合と B市全体の中の死亡者の割合を共に計算に

入れた両軸の割合の分数平均(上右表 NS.FM)を使ったほうが納得できる

数値 (.017)になっていることがわかります。

言語研究に限らず,さまざまな分野の研究で母数の異なる集団の数量的

比較が行われますが,そのとき,そもそも母数が異なれば絶対頻度(数え

Page 11: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

10

た素数)では比較できません。そこで,割合やパーセント,パーミル,パ

ーミリオンなどの相対頻度が使われることが多いのですが,これらの率も,

厳密に言えば,簡単には比較できないはずです。とくに母数が大きく異な

るときにその問題(比較が困難なこと)が顕著になります。極端な例では,

250/1000=25%と,3/10=30%を比較してもほとんど意味がないでしょう。そ

れならば,母数が近いとき,たとえば,25/400, 25/450 ならばそれほど問題

にならない,ということも考えられます。しかし,どのような母数の隔た

りまで比較が許されるのでしょうか? 1.5 倍や 2 倍ならば問題がないので

しょうか?厳密に数値を相対化して比較するためには,データ行列全体に

適切な標準化を適用してみる価値があります 3。

■中世・近代スペイン公証文書の略記形

中世・近代スペインの公証文書では,多くの語が完全な形ではなく語中・

語尾が省略されて書かれていました。次の表は頻繁に使われた略記形の頻

度(千語率を分数平均で両軸相対化:→「得点」「相対得点」)を示しま

す。

3 確率を用いた検定については後述します。

Page 12: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

11

NS.FM d<e> d<e>l d<e>la d<e>los d<ic>ha d<ic>ho d<ic>hos dich<o>

1260 348 61 28 174 22

1280 100 66 71

541

1300 629 824 922 686 3

2556

1320 1048 1087 1016 438

5250

1340 215 237 379 103

833

1360 1196 702 805 273

2289

1380 906 1147 1081 451 37 23 65 1372

1400 545 387 396 210 13 24 27 706

1420 981 847 517 331 153 299 195 63

1440 989 1354 938 138 461 548 233 18

1460 914 473 397 158 250 306 303

1480 2623 1669 902 201 1118 1164 598

1500 1465 1207 811 412 776 687 541 10

1520 1503 1110 629 231 1021 1052 667

1540 2707 1854 842 284 1315 1719 865

1560 660 481 280 121 1533 1192 901

1580 154 52 88

554 611 457

1600 558 378

1490 1566 1049

1620 30

93 63 74

1640 66

1570 1932 1170

1660

288 229 78

1680 43 3566 4953 2579

上の分布を見ると略記形が年代によって集中していることがわかります。

d<e>はどのバリアント (d<e>, d<e>l, d<e>la, d<e>los)も 15 世紀後半を頂点

とし,d<ic>ho のタイプの略記形 (d<ic>ha, d<ic>ho, d<ic>hos)は 16 世紀前半

を頂点としています。一方,dich<o>のように語尾が脱落するのは,かなり

早期に見られるので( 14 世紀前半),これは略記というよりも当時頻繁に

起きた語末母音の脱落によるものだと思います。それぞれの語形が一定の

年代に集中しているので公証人たちが当時の規範に従っていたことを示し

ています。

5.2. 対立得点

先に要約のための統計値として扱った「対立度」 (Oppositive Grade: OG)

を次のように得点として設定します。「行対立得点」 (Oppositive Score in

Row: OSR)は

OSR = [Xn p – (SumHn 1 – Xn p)] / [Xn p + (SumHn 1 – Xn p)]

= (2 Xnp – SumHn 1) / SumHn 1

Page 13: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

12

= 2 Xn p / SumHn 1 - 1

「列対立得点」 (Oppositive Score in Column: OSC)は

OSC = [Xn p – (SumV1 p – Xn p)] / [Xn p + (SumV1 p – Xn p)]

= (2 Xnp – SumV1 p) / SumV1 p

= 2 Xn p / SumV1 p - 1

「全対立得点」 (Oppositive Score in All: OSA)は

OSA = [Xn p – (S – Xn p)] / [Xn p + (S – Xn p)]

= (2 Xnp – S) / S

= 2 Xn p / S - 1

ここで,SumHn 1は横和縦ベクトル,SumV1 pは縦和横ベクトル,S は総和

スカラーを示します。

OSR v1 v2 v3 v4 v5

OSC 1 2 3 4 5

d1 -.677 -.387 -.548 -.774 -.613

d1 -.048 .407 .037 -.364 .412

d2 -.241 -.517 -.310 -1.000 -.931

d2 .048 -.481 -.259 -1.000 -.882

d3 -1.000 -1.000 -.857 .714 -.857

d3 -1.000 -1.000 -.926 .091 -.882

d4 -1.000 -.778 -.556 -.333 -.333

d4 -1.000 -.926 -.852 -.727 -.647

OSA v1 v2 v3 v4 v5

d1 -.825 -.667 -.754 -.877 -.789

d2 -.807 -.877 -.825 -1.000 -.982

d3 -1.000 -1.000 -.982 -.789 -.982

d4 -1.000 -.982 -.965 -.947 -.947

5.3. 比例得点

絶対頻度と相対頻度はそれぞれの特徴があるので,データを観察すると

きに併用されることがあります。一般に頻度を比較するときは相対頻度が

使われますが,相対頻度の計算で分母の規模が大きく異なるとき比較が困

難になります。次に,その 1 つの解決法を提案します。

たとえば,d1:v2 の 19 はその横和が 62 ですから,この相対得点は 19/62

= .31 になります。一方,w4L4 の 3 の相対得点は 3/9 = .33 になり, d1:v2

よりも大きな値になります。しかし,私たちの直感では前者の 19 のほうが

後者の 3 よりも「重い」値だと感じられます。

Page 14: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

13

実測値 v1 v2 v3 v4 v5 横和

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

縦和 21 27 27 22 17 114

このように実測値の得点を比較するとき,その実測値 (OS)と相対得点

(RS)の積にすると,実態を表す数値として直感的に納得がいくことがあり

ます。実測値に相対得点という実測値に比例した重みを与えたからです。

たとえば,上表の d1:v2 の 19 には 19 / 62 = .31 という重みを与え, d4:v2

の 3 には 3 / 9 = .33 という重みを与えます。そこで比例得点 (Proportional

Score: PS)として次の式を提案します。

PSRn p = Xnp RSRnp = Xn p Xnp / SumHn 1 = Xn p2 / SumHn 1

PSR.: 0.0 (X = 0) ≦ 0.5 (X2 = SumH / 2) ≦ X (X = SumH)

PSCn p = Xnp RSCnp = Xn p Xnp / SumV1 p = Xn p2 / SumV1 p

PSC.: 0.0 (X = 0) ≦ 0.5 (X2 = SumV / 2) ≦ X (X = SumV)

ここで,PSR は行比例得点,PSC は列比例得点,X は実測値,RSR は行

相対得点,SumH は横和列(縦ベクトル),RSC は列相対得点,SumV は

縦和行(横ベクトル)を示します。比例得点 (PS)は X = 0 のときに最小値

ゼロになり,X = SumH, X = SumV のとき,つまりデータの中に X 以外の

数値がないときに最大値 X になります。

PSR. v1 v2 v3 v4 v5

PSC. v1 v2 v3 v4 v5

d1 1.61 5.82 3.16 0.79 2.32

d1 4.76 13.37 7.26 2.23 8.47

d2 4.17 1.69 3.45 0.00 0.03

d2 5.76 1.81 3.70 0.00 0.06

d3 0.00 0.00 0.07 10.29 0.07

d3 0.00 0.00 0.04 6.55 0.06

d4 0.00 0.11 0.44 1.00 1.00

d4 0.00 0.04 0.15 0.41 0.53

全比例得点 (Proportional Score in All: PSA)を求めるには,分母に全得点

の総和 (S)を使います。全体比例得点 (PSA)は表全体の総和 (N)で相対化され

るために全体的に数値が低くなる傾向があります。

PSA = Xn p2 / S

PSM. v1 v2 v3 v4 v5

PSA v1 v2 v3 v4 v5

d1 2.41 8.11 4.40 1.17 3.65

d1 0.88 3.17 1.72 0.43 1.26

d2 4.84 1.75 3.57 0.00 0.04

d2 1.06 0.43 0.88 0.00 0.01

d3 0.00 0.00 0.05 8.00 0.06

d3 0.00 0.00 0.01 1.26 0.01

d4 0.00 0.06 0.22 0.58 0.69

d4 0.00 0.01 0.04 0.08 0.08

Page 15: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

14

●打率と安打数

たとえば, 1 シーズンに 10 打数 3 安打という成績の野球選手 A と 100

打数 25 安打の選手 B の成績を比べるとき,打率だけを見ると 0.3 と 0.25

になるので,A のほうが優秀,ということになります。しかし,安打数で

比べるならば後者 B のほうがずっとチームの成績に貢献しています。これ

を比例得点で比べるならば,0.9 と 6.25 という数値になり,後者 B のほう

が前者 A の 7 倍近い成績 (6.944)になります。このように数値の評価をする

ときは,実測値(安打数)や相対得点(打率)よりも比例得点のほうが直

感に合う数値になるでしょう。

●絶対頻度・相対得点・比例得点の比較

1/10 と 10/100 を比べると,どちらも相対得点は同じですが (.100),比例

得点は,それぞれ .100, 1.000 となって,両者の差は .900 になり,後者のほ

うがかなり「重い」値になります。次に,x / a と y / b の,それぞれの値を

次の表で比較しましょう。RS は相対得点,PS は比例得点,D は比例得点

の差を示します。 y を 10 から 0 まで -1 のステップで下げていきます。

x a y b RS(x) RS(y) PS(x) PS(y) D=PS(y)-PS(x)

1 10 10 100 .100 .100 .100 1.000 .900

1 10 9 100 .100 .090 .100 .810 .710

1 10 8 100 .100 .080 .100 .640 .540

1 10 7 100 .100 .070 .100 .490 .390

1 10 6 100 .100 .060 .100 .360 .260

1 10 5 100 .100 .050 .100 .250 .150

1 10 4 100 .100 .040 .100 .160 .060

1 10 3 100 .100 .030 .100 .090 -.010

1 10 2 100 .100 .020 .100 .040 -.060

1 10 1 100 .100 .010 .100 .010 -.090

1 10 0 100 .100 .000 .100 .000 -.100

そうすると, y が 4 と 3 の間で差がなくなり,その後は x の比例得点の

ほうが大きくなっていることがわかります。このように,絶対頻度 (x <= y),

相対得点 (RS(x) >= SF(y))と,比例得点 (PS(x) < ~ > PS(y))の大小関係は常に

等しいわけではありません。 x と y の比例得点が等しくなるときの y の値

は, x/a - y/b = 0 から y = x √𝑏/𝑎 を導いて数値を代入すると, y = 1 * √100/10 = 3.162 になります。

■中世スペイン語の語末母音 e の脱落

スペイン語史の初期に,語末の母音 -e は歯・歯茎の単子音 C の後で規則

的に脱落しましたが (ciudad(e), papel(e), mes(e) , etc.),中世スペイン語のあ

Page 16: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

15

る時期に present(e) , veint(e) , adelant(e) , part(e), est(e) , end(e)のような 2子音

連続 (CC)の後でもしばしば脱落しました。次は,およそ 1500 の公証文書に

おけるこれら 6語の語末母音 -eの脱落 (-CC)と保持 (-CCe)の回数を示します。

年代 -CC -CCe 計 -CC の率 比例得点 (PS)

1075 2 2 4 .500 1.0

1100 7 5 12 .583 4.1

1150 15 5 20 .750 11.3

1175 10 15 25 .400 4.0

1200 25 68 93 .269 6.7

1225 70 173 243 .288 20.2

1250 101 361 462 .219 22.1

1275 228 605 833 .274 62.4

1300 137 418 555 .247 33.8

1325 165 315 480 .344 56.7

1350 102 358 460 .222 22.6

1375 189 312 501 .377 71.3

1400 239 623 862 .277 66.3

1425 52 283 335 .155 8.1

1450 74 535 609 .122 9.0

1475 48 374 422 .114 5.5

1500 45 749 794 .057 2.6

1525 7 386 393 .018 .1

1550

304 304

この表の比例得点を見ると, -CC の出現がとくに 13 世紀後半から 14 世

紀にかけて顕著になっていることがわかります。従来の研究では 13 世紀前

半に多かった,と報告されていますが,公証文書ではその時期を後に移動

する必要があります。

上の表の 1150 の年代では,-CC の率は確かに .750 と高いのですが,この

時期はラテン語の文書が多くスペイン語の資料は限られているので,比例

得点はかなり低くなります (11.3)。

■現代スペイン語の文法標識付与

スペイン語などの屈折型ヨーロッパ言語の分析のためには,テキスト中

に出現形(変化形)から代表形(名詞ならば単数形,形容詞ならば男性単

数形,動詞ならば不定詞)を導き,出現形の文法特徴(品詞,名詞の性・

数,動詞の法・時制・人称)を分析しなければなりません。短文ならば人

手でも分析できますが,たとえばセルバンテス『ドン・キホーテ』の全文

を分析することは無理です。そこで,統計学を利用した「文法標識付与プ

Page 17: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

16

ログラム」 (grammatical tagger)を作成します。

変化形が常に一意的な対応があるならば,プログラムは対応表を参照し

ながら出現形に文法標識を与えればよいので簡単です。たとえば

Alicia estaba durmiendo. (アリシアは眠っていた )

出現形 代表形 文法特徴

Alicia Alicia 固有名詞

estaba estar 直説法・線過去・ 3 人称

durmiendo dormir 現在分詞

ところが,たとえば pienso という語形には,動詞 pensar「考える」の直

説法現在形 1 人称「私が考える」と,男性名詞「肥料」という 2 つの分析

が可能です。ここでは el pienso que compró ayer「彼が昨日買った飼料」を

分析例とします。はじめにプログラムはすべての品詞の可能性と,前文脈・

中文脈・後文脈における品詞連続の頻度 (*)を列挙します。

(1) 前文脈 : el pienso {que} : (58)

«定冠詞 - 名詞 - {関係代名詞 }» (54)

«定冠詞 - 名詞 - {接続詞 }» (4)

«定冠詞 - 動詞 - {関係代名詞 }» (0)

«定冠詞 - 動詞 - {接続詞 }» (0)

(2) 中文脈 : pienso {que} compró : (105)

«名詞 - {関係代名詞 } - 動詞 » (82)

«名詞 - {接続詞 } - 動詞 » (23)

(3) 後文脈 : {que} compró ayer: (16)

«{関係代名詞 } - 動詞 - 副詞» (2)

«{接続詞 } - 動詞 - 副詞» (14)

そして, (1)前文脈で 4 つの可能性の中から括弧内の頻度が一番高い «定

冠詞 - 名詞 - {関係代名詞 }» (54)の確率を計算します。54 / (54 + 4 + 0 + 0)

= .931。 同様にして, (2)中文脈と (3)後文脈でも最大頻度の確率を求めま

す。«名詞 - {関係代名詞 } - 動詞 » (82): 82 / (82 + 23) = .780; «{接続詞 } - 動

詞 - 副詞»: 14 / (2 + 14) = .875。3 つの文脈の中で最大の確率を示すのは (1)

前文脈 (.931)になるので,プログラムはこの分析を提示します。

この分析は正しいのですが,ここで仮に (3)の «{関係代名詞 } - 動詞 - 副

詞 »の頻度が 2 ではなくて 1 であった,としましょう。そうすると,«{接続

詞 } - 動詞 - 副詞»の確率は 14 / (14 + 1) = .933 になりますから,3 つの文

脈の中で最大になり,プログラムはこの誤った分析を提示するはずです。

しかし,私たちの直感では,54 / 58のほうが 14 / 15よりも重要度が高い,

と思われます。先ほどの打席と安打数の関係(打率)を思い出してくださ

Page 18: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

17

い。そこで,確率などの率(割合)の軽重を比較するとき比例得点を使え

ば,542 / 58 = 50.3 のほうが 142 / 15=13.1 よりも大きくなります。次のプロ

グラムは品詞連続の決定のために比例得点を計算しています。

http://lecture.ecc.u-tokyo.ac.jp/~cueda/lexis/

5.4. 限定得点

実測値の最小値を 0 とし,最大値を 1 として,範囲を [0.0 ~ 1.0]に限定し

て計算した値を限定得点 (Limited Score: LS)とよびます。次のような行,列,

全体の,最小値と最大値を使います。

実測値 v1 v2 v3 v4 v5 横最小値 MinH 横最大値 MaxH

d1 10 19 14 7 12 7 19

d2 11 7 10 0 1 0 11

d3 0 0 1 12 1 0 12

d4 0 1 2 3 3 0 3

縦最小値 MinV 0 0 1 0 1 0

縦最大値 MaxV 11 19 14 12 12

19

たとえば d1:v1 (= 10)は,{10, 19, 14, 7, 12}というデータの範囲 19 – 7 = 12

の中で,最小値 (= 7)から 3 進んだ位置にあります。そこで (10 – 7) / (19 – 7)

= 3 / 12 = .25 という計算をすると,10 が全体 {10, 19, 14, 7, 12}の中で,25%

の位置にあることがわかります。

LS = (X – Min) / (Max – Min)

LS: 0.0 (X = Min) ≦ 0.5 (X = (Max – Min) / 2) ≦ 1.0 (X = MaX)

ここで Min がデータの最小値,MaX がその最大値を示します。X = Min

のとき,LS は最小値 0.0 になり,X = Max のとき,L.S.は最大値 1.0 にな

ります。中間点 (0.5)は X が Max と Min の中間にあるときです。

Page 19: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

18

(1) 行限定得点と列限定得点

行限定得点 (LSr)と列限定得点 (LSc)の式は次のようになります。

LSrn p = (Xnp – MinHn 1) / (MaxHn1 – MinHn 1)

LScn p = (Xnp – MinV1 p) / (MaxV1p – MinV1 p)

ここで MinHn 1 は行最小値の縦ベクトル,MinV1 p .は列最小値の横ベクト

ル,MaxHn 1 は行最大値の縦ベクトル,MaxV1 p .は列最大値の横ベクトルを

示します。

LSr. v1 v2 v3 v4 v5

LSc. v1 v2 v3 v4 v5

d1 0.25 1.00 0.58 0.00 0.42

d1 0.91 1.00 1.00 0.58 1.00

d2 1.00 0.64 0.91 0.00 0.09

d2 1.00 0.37 0.69 0.00 0.00

d3 0.00 0.00 0.08 1.00 0.08

d3 0.00 0.00 0.00 1.00 0.00

d4 0.00 0.33 0.67 1.00 1.00

d4 0.00 0.05 0.08 0.25 0.18

(2) 全限定得点

「全限定得点」 (Limited Score in all: LSa)の式では,行列全体の最小値

MinA と最大値 MaxA を使います。

LSa. = (X – MinA) / (MaxA – MinA)

LSa v1 v2 v3 v4 v5

d1 0.53 1.00 0.74 0.37 0.63

d2 0.58 0.37 0.53 0.00 0.05

d3 0.00 0.00 0.05 0.63 0.05

d4 0.00 0.05 0.11 0.16 0.16

限定得点は,個々の数値がデータ全体の中で,どのように位置づけられ

るかを知るために有用です。

■語彙の文法カテゴリーと出現頻度

次はセルバンテス『ドン・キホーテ』(1605, 1615)の全出現語彙を文法カ

テゴリーと頻度のランクによって分類したものです。頻度のランクは出現

度数を対数に変換し,さらに限定得点を使って,それを 1(最小頻度)か

ら 10(最大頻度)に分類しました。それぞれのセルには該当する異なり語

数を示しています。

Page 20: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

19

Grammatical category (Members) and Rank (1 – 10)

Category / Rank 1 2 3 4 5 6 7 8 9 10 Total

Noun 1656 973 579 349 171 70 10 2 3.810

Verb 631 399 271 183 93 41 16 9 2 1 1.646

Adjective 562 279 191 122 39 25 5 2 1.225

Adverb 55 36 20 17 18 11 8 4 169

Interjection 10 7 3 1 1 22

Numeral 7 8 8 8 1 3 1 36

Demonstrative pronoun 1 2 1 1 1 6

Indefinite pronoun 2 2 1 8 3 16

Interrogative 2 1 2 2 1 8

Personal pronoun tonic 1 1 1 3 2 2 2 12

Preposition 3 1 4 4 1 3 2 3 21

Determinant 4 11 10 5 4 3 2 39

Conjunction 1 1 1 1 4 3 2 13

Unstressed personal

pronoun

3 7

3

13

Relative 1 3 1 5

語彙は冠詞や前置詞・接続詞などの「機能語」(Function Word: 一般に高

頻度で小数メンバー )と,名詞,形容詞,動詞などの「内容語」( content: word:

一般に低頻度で多数メンバー)に分類されます。しかし,上の表を見ると,

機能語であっても比較的低頻度の語があり,また,内容語であっても比較

的頻度が高い語があります。そこで,二分される文法カテゴリーと段階的

な頻度について,次のように 4 分割をしました。

Lexicon type / Frequency High Frequency Low Frequency

Function Words Grammatical Words Instrumental Words

Content Words Common Words Specific Words

一般に高頻度語は短縮しやすく,また高頻度の不規則変化形が保持され

やすい,と言われます。しかし,同じ高頻度語について述べられているこ

とが,一方で語形が短縮し他方で語形の保持というのでは,一見,矛盾し

ているかのように思われます。

そこで,それぞれのメンバーを調べると,傾向として,語彙の短縮化は

むしろ高頻度の機能語(Grammatical Words:強勢アクセントがないため弱

化する)で起こりやすく,一方,不規則変化の保持は高頻度の内容語

(Common Words:強勢があるので弱化しない)の特徴だということがわか

りました。そこで,言語変化の直接的な要因として頻度を考えるのではな

く,むしろ語の機能の違いが,語彙の頻度や語形の(不)変化を引き起こ

している,と考えたほうがよいと思います。

Page 21: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

20

5.5. 比較得点

個々のセルの値(実測値)を平均値,中央値,中間値,最小値,最大値

などのデータの「代表値」と比較したものを比較得点 (Comparative Score:

CS)とよびます。

(1) 平均値比較得点

Xnp v1 v2 v3 v4 v5 横平均値 MeH

d1 10 19 14 7 12 12.40

d2 11 7 10 0 1 5.80

d3 0 0 1 12 1 2.80

d4 0 1 2 3 3 1.80

縦平均値 MeV 5.25 6.75 6.75 5.50 4.25 5.70

平均値差比較得点 (Comparative Score. Mean Difference: CS.MeD)は,それ

ぞれのセルの値 (X)の,平均値からの差を示します 4。

行 平 均 値 差 比 較 得 点 (Comparative Score. Mean Difference in Row:

CS.MeD.R)と,列平均値差比較得点 (Comparative Score. Mean Difference in

Column: CS.MeD.C)は次のようにして求めます。MeHn1は横平均列,MeV1 p

は縦平均行です。

CS.MeD.R = Xnp – MeHn1

CS.MeD.C = Xnp – MeV1p

た と え ば , d1:v1=10 の 行 平 均 値 差 比 較 得 点 は , d1 の 行 平 均 が

(10+19+14+7+12) / 5 = 62 / 5 = 12.4 なので, 10 – 12.4 = -2.4 になります。

CS.MeD.R v1 v2 v3 v4 v5

CS.MeD.C v1 v2 v3 v4 v5

d1 -2.40 6.60 1.60 -5.40 -0.40

d1 4.75 12.25 7.25 1.50 7.75

d2 5.20 1.20 4.20 -5.80 -4.80

d2 5.75 0.25 3.25 -5.50 -3.25

d3 -2.80 -2.80 -1.80 9.20 -1.80

d3 -5.25 -6.75 -5.75 6.50 -3.25

d4 -1.80 -0.80 0.20 1.20 1.20

d4 -5.25 -5.75 -4.75 -2.50 -1.25

全 平 均 値 差 比 較 得 点 (Comparative Score, Mean Difference in All:

CS.MeD.A)は行列全体の平均 (MeA)を使います。

CS.MeD.A = Xn p – MeA.

CS.MeD.A v1 v2 v3 v4 v5

d1 4.30 13.30 8.30 1.30 6.30

4 「平均値差」は「偏差」 (deviation)とよばれています。

Page 22: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

21

d2 5.30 1.30 4.30 -5.70 -4.70

d3 -5.70 -5.70 -4.70 6.30 -4.70

d4 -5.70 -4.70 -3.70 -2.70 -2.70

平均値比比較得点 (Comparative Score, Mean Ratio: CS.MeR)は実測値を平

均値で割った値(比)です。それぞれ行 (R),列 (C),両軸 (B),全体 (A)の平

均値比を見ます。X = 0 のときに最小値 0.0 になり,X = 和 (Sm) のとき,

和 (Sm) / 平均 (Me) = 個数になります。中点の 1.0 は X = Me のときです。

CS.MeR.R = Xnp / MeHn1

CS.MeR.R: 0.0 (X = 0) ≦ 1.0 (X = MeHn 1) ≦ P (X = SumH)

CS.MeR.C. = Xn p / MeV1 p

CS.MeR.C.: 0.0 (x = 0) ≦ 1.0 (X = MeV1 p) ≦ N (x = SumV)

た と え ば , d1:v1=10 の 行 平 均 値 比 比 較 得 点 は , d1 の 行 平 均 が

(10+19+14+7+12) / 5 = 62 / 5 = 12.4 なので, 10 / 12.4 ≒ 0 .81 になります。

CS.MeR.R v1 v2 v3 v4 v5

CS.MeR.C v1 v2 v3 v4 v5

d1 0.81 1.53 1.13 0.56 0.97

d1 1.90 2.81 2.07 1.27 2.82

d2 1.90 1.21 1.72 0.00 0.17

d2 2.10 1.04 1.48 0.00 0.24

d3 0.00 0.00 0.36 4.29 0.36

d3 0.00 0.00 0.15 2.18 0.24

d4 0.00 0.56 1.11 1.67 1.67

d4 0.00 0.15 0.30 0.55 0.71

全平均値比得点 (Comparative Score, Mean Ratio in All: CS.MeR.A)は全体の

平均値 (MeA)を使います。

CS.MeR.B = 2 Xnp / (MeHn 1 + MeV1 p)

CS.MeR.A. = Xn p / MeA.

CS.MeR.A v1 v2 v3 v4 v5

d1 1.75 3.33 2.46 1.23 2.11

d2 1.93 1.23 1.75 0.00 0.18

d3 0.00 0.00 0.18 2.11 0.18

d4 0.00 0.18 0.35 0.53 0.53

平均値差得点はデータのスケールによって左右されるで,平均差得点を

平均値で割ってデータのスケールに合わせます 5。これを平均値差比得点

(Comparative Score. Mean Difference ratio: CS.MeDr.)と名づけます 6。 0.0 は

参照値 (x = Me)です。

5 完全な正規化ではありません。 6 東京大学教養学部統計学教室 (1991:247)は「差比」を「相対誤差」とよんでいます。

Page 23: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

22

CS.MeDr.R = (Xn p – MeHn1) / MeH1

CS.MeDr.R: -1 (x=0) ≦ 0.0 (x = MeH1) ≦ SumH–MeH1) / MeH1 (x=SumH)

CS.MeDr.C = (Xn p – MeV1p) / MeV1p

CS.MeDr.C: -1 (x=0) ≦ 0.0 (x = MeV1p) ≦ SumV – MeV1 p) / Me (x=SumV)

CS.MeDr.R. v1 v2 v3 v4 v5

CS.MeDr.C. v1 v2 v3 v4 v5

d1 - .19 .53 .13 - .44 - .03

d1 .90 1.81 1.07 .27 1.82

d2 .90 .21 .72 - 1.00 - .83

d2 1.10 .04 .48 - 1.00 - .76

d3 - 1.00 - 1.00 - .64 3.29 - .64

d3 - 1.00 - 1.00 - .85 1.18 - .76

d4 - 1.00 - .44 .11 .67 .67

d4 - 1.00 - .85 - .70 - .45 - .29

全平均値差比得点 (Comparative Score. Mean Difference Ratio in All:

CS.MeDr.A)は,行列全体の平均を使います。

CS.MeDr.A = (Xn p – MeA) / MeA

CS.MeDr.A. v1 v2 v3 v4 v5

d1 .75 2.33 1.46 .23 1.11

d2 .93 .23 .75 - 1.00 - .82

d3 - 1.00 - 1.00 - .82 1.11 - .82

d4 - 1.00 - .82 - .65 - .47 - .47

比較基準値を平均値ではなく,以下のように,中央値,中間値,最小値,

最大値,大数平均値,大数最頻値とすることも可能です。

(2) 中央値比較得点

実測値 v1 v2 v3 v4 v5 中央値

d1 10 19 14 7 12 12.00

d2 11 7 10 0 1 7.00

d3 0 0 1 12 1 1.00

d4 0 1 2 3 3 2.00

中央値 5.00 4.00 6.00 5.00 2.00 3.00

中央値比較差得点 (Comparative Score. Median Difference: CS.MdD)

CS.MdD.R. v1 v2 v3 v4 v5

CS.MdD.C v1 v2 v3 v4 v5

d1 -2.00 7.00 2.00 -5.00 0.00

d1 5.00 15.00 8.00 2.00 10.00

d2 4.00 0.00 3.00 -7.00 -6.00

d2 6.00 3.00 4.00 -5.00 -1.00

d3 -1.00 -1.00 0.00 11.00 0.00

d3 -5.00 -4.00 -5.00 7.00 -1.00

d4 -2.00 -1.00 0.00 1.00 1.00

d4 -5.00 -3.00 -4.00 -2.00 1.00

Page 24: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

23

CS.MdD.A v1 v2 v3 v4 v5

d1 7.00 16.00 11.00 4.00 9.00

d2 8.00 4.00 7.00 -3.00 -2.00

d3 -3.00 -3.00 -2.00 9.00 -2.00

d4 -3.00 -2.00 -1.00 0.00 0.00

(3) 中間値比較得点

実測値 v1 v2 v3 v4 v5 中間値

d1 10 19 14 7 12 13.00

d2 11 7 10 0 1 5.50

d3 0 0 1 12 1 6.00

d4 0 1 2 3 3 1.50

中間値 5.50 9.50 7.50 6.00 6.50 9.50

中間値比較差得点 (Comparative Score. Mid Difference: CS.MiD)

CS.Mi.D.R. v1 v2 v3 v4 v5

CS.Mi.D.R. v1 v2 v3 v4 v5

d1 -3.00 6.00 1.00 -6.00 -1.00

d1 4.50 9.50 6.50 1.00 5.50

d2 5.50 1.50 4.50 -5.50 -4.50

d2 5.50 -2.50 2.50 -6.00 -5.50

d3 -6.00 -6.00 -5.00 6.00 -5.00

d3 -5.50 -9.50 -6.50 6.00 -5.50

d4 -1.50 -0.50 0.50 1.50 1.50

d4 -5.50 -8.50 -5.50 -3.00 -3.50

CS.Mi.D.A. v1 v2 v3 v4 v5

d1 0.50 9.50 4.50 -2.50 2.50

d2 1.50 -2.50 0.50 -9.50 -8.50

d3 -9.50 -9.50 -8.50 2.50 -8.50

d4 -9.50 -8.50 -7.50 -6.50 -6.50

(4) 最小値比較得点

実測値 v1 v2 v3 v4 v5 最小値

d1 10 19 14 7 12 7.00

d2 11 7 10 0 1 .00

d3 0 0 1 12 1 .00

d4 0 1 2 3 3 .00

最小値 .00 .00 1.00 .00 1.00 .00

Page 25: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

24

最小値比較差得点 (Comparative Score. Minimum Difference: CS.MnD)

CS.MnD.R. v1 v2 v3 v4 v5

CS.Mn D.C v1 v2 v3 v4 v5

d1 3.00 12.00 7.00 0.00 5.00

d1 10.00 19.00 13.00 7.00 11.00

d2 11.00 7.00 10.00 0.00 1.00

d2 11.00 7.00 9.00 0.00 0.00

d3 0.00 0.00 1.00 12.00 1.00

d3 0.00 0.00 0.00 12.00 0.00

d4 0.00 1.00 2.00 3.00 3.00

d4 0.00 1.00 1.00 3.00 2.00

CS.MnD.A v1 v2 v3 v4 v5

d1 10.00 19.00 14.00 7.00 12.00

d2 11.00 7.00 10.00 0.00 1.00

d3 0.00 0.00 1.00 12.00 1.00

d4 0.00 1.00 2.00 3.00 3.00

(5) 最大値比較得点

実測値 v1 v2 v3 v4 v5 最大値

d1 10 19 14 7 12 19

d2 11 7 10 0 1 11

d3 0 0 1 12 1 12

d4 0 1 2 3 3 3

最大値 11 19 14 12 12 19

最大値比較差得点 (Comparative Score. Maximum Difference: CS.MxD)

CS.MxD.R. v1 v2 v3 v4 v5

CS.MxD.C. v1 v2 v3 v4 v5

d1 -9.00 0.00 -5.00 -12.00 -7.00

d1 -1.00 0.00 0.00 -5.00 0.00

d2 0.00 -4.00 -1.00 -11.00 -10.00

d2 0.00 -12.00 -4.00 -12.00 -11.00

d3 -12.00 -12.00 -11.00 0.00 -11.00

d3 -11.00 -19.00 -13.00 0.00 -11.00

d4 -3.00 -2.00 -1.00 0.00 0.00

d4 -11.00 -18.00 -12.00 -9.00 -9.00

CS.MxD.A. v1 v2 v3 v4 v5

d1 -9.00 0.00 -5.00 -12.00 -7.00

d2 -8.00 -12.00 -9.00 -19.00 -18.00

d3 -19.00 -19.00 -18.00 -7.00 -18.00

d4 -19.00 -18.00 -17.00 -16.00 -16.00

Page 26: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

25

(6) 大数平均値比較得点

実測値 v1 v2 v3 v4 v5 横大数平均値

d1 10 19 14 7 12 12.22

d2 11 7 10 0 1 6.00

d3 0 0 1 12 1 1.89

d4 0 1 2 3 3 1.89

縦大数平均値 5.17 5.83 6.50 5.33 3.50 4.90

大数平均値比較差得点

(Comparative Score. Major Mean Difference: CS.MjMeD)

CS.MjMeD.R v1 v2 v3 v4 v5

CS.M jMe D.C v1 v2 v3 v4 v5

d1 -2.22 6.78 1.78 -5.22 - .22

d 1 4 .83 1 3 .1 7 7 .50 1 .67 8 .50

d2 5.00 1.00 4.00 -6.00 -5.00

d 2 5 .83 1 .17 3 .50 -5 .3 3 -2 .5 0

d3 -1.89 -1.89 - .89 10.11 - .89

d 3 -5 .1 7 -5 .8 3 -5 .5 0 6 .67 -2 .5 0

d4 -1.89 - .89 .11 1.11 1.11

d 4 -5 .1 7 -4 .8 3 -4 .5 0 -2 .3 3 - . 5 0

CS.MjMeD.A v1 v2 v3 v4 v5

d1 5.10 14.10 9.10 2.10 7.10

d2 6.10 2.10 5.10 -4.90 -3.90

d3 -4.90 -4.90 -3.90 7.10 -3.90

d4 -4.90 -3.90 -2.90 -1.90 -1.90

(7) 大数最頻値比較得点

実測値 v1 v2 v3 v4 v5 横大数最頻値

d1 10 19 14 7 12 12.00

d2 11 7 10 0 1 9.33

d3 0 0 1 12 1 .50

d4 0 1 2 3 3 2.67

縦大数最頻値 3.33 2.67 4.33 3.33 1.67 1.09

大数最頻値比較差得点

(Comparative Score. Major Mode Difference: CS.MjMoD)

CS.MjMoD.R v1 v2 v3 v4 v5

CS.MjMoD.C v1 v2 v3 v4 v5

d1 -2.00 7.00 2.00 -5.00 .00

d1 6.67 16.33 9.67 3.67 10.33

d2 1.67 -2.33 .67 -9.33 -8.33

d2 7.67 4.33 5.67 -3.33 -.67

d3 -.50 -.50 .50 11.50 .50

d3 -3.33 -2.67 -3.33 8.67 -.67

d4 -2.67 -1.67 -.67 .33 .33

d4 -3.33 -1.67 -2.33 -.33 1.33

Page 27: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

26

CS.MjMo.A v1 v2 v3 v4 v5

d1 8.91 17.91 12.91 5.91 10.91

d2 9.91 5.91 8.91 -1.09 - .09

d3 -1.09 -1.09 - .09 10.91 - .09

d4 -1.09 - .09 .91 1.91 1.91

5.6. 標準得点

それぞれの行,列または行列全体を同じスケールとばらつきで評価する

には,データの平均が 0 に,標準偏差が 1 になるようにする必要がありま

す。この操作は平均 (M)からの差(偏差)を標準偏差 (Sd)で割ることで可能

になります。この値は標準得点 (Standard Score: SS)と呼ばれます 7。

実測値 Xnp v1 v2 v3 v4 v5 平均 M.Rn1 標準偏差 SD.Rn1

d1 10 19 14 7 12 12.40 4.03

d2 11 7 10 0 1 5.80 4.53

d3 0 0 1 12 1 2.80 4.62

d4 0 1 2 3 3 1.80 1.17

平均 M.C1p 5.25 6.75 6.75 5.50 4.25 5.70

標準偏差 SD.C.1p 5.26 7.56 5.45 4.50 4.55 5.66

次が行標準得点 (Standard Score in Row:SSRn p)と列標準得点 (Standard

Score in Column:SSCn p)の式です。

SSRn p = (Xn p – M.Rn1) / Sd.Rn1

SSCn p = (Xn p – M.C1p) / Sd.C1p

SSR v1 v2 v3 v4 v5

SSC v1 v2 v3 v4 v5

d1 -0.60 1.64 0.40 -1.34 -0.10

d1 0.90 1.62 1.33 0.33 1.70

d2 1.15 0.26 0.93 -1.28 -1.06

d2 1.09 0.03 0.60 -1.22 -0.71

d3 -0.61 -0.61 -0.39 1.99 -0.39

d3 -1.00 -0.89 -1.06 1.44 -0.71

d4 -1.54 -0.69 0.17 1.03 1.03

d4 -1.00 -0.76 -0.87 -0.56 -0.27

全標準得点 (SSAn p)は全平均 (M.A)と全標準偏差 (Sd.A)を使います。

SSAn p = (Xn p – M.A) / Sd.A

SSAn p v1 v2 v3 v4 v5

d1 0.76 2.35 1.47 0.23 1.11

d2 0.94 0.23 0.76 -1.01 -0.83

7「標準得点」は Standarized measure, Z-Score ともよばれます。池田央 (1975)『統計的方法 I 基礎』(新曜社)。

Page 28: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

27

d3 -1.01 -1.01 -0.83 1.11 -0.83

d4 -1.01 -0.83 -0.65 -0.48 -0.48

このようにして尺度を,平均が 0,標準偏差が 1 になるように標準化さ

せた値が標準得点です。標準化前の数値をそのまま比較すると絶対的な尺

度になり,全データの中での相対的な価値が勘案されていないことになり

ます。一方,標準得点は平均がゼロ,標準偏差が 1 になるように標準化さ

れているので,点数とか温度とか価格とか(キロ)メートルのような単位

がなくなります。これにより,異なる概念(単位)の数値の間の関係も標

準得点によって数値化できるようになります。

●標準得点の平均と標準偏差

標準得点 (SS)の平均は 0 になり,標準偏差が 1 になります。はじめに,

標準得点 (SS)の平均 E[SS]が 0 になることを確かめます。

E[SS] = E[(X - m) / Sd] ←SS = (X - m) / Sd

= (1 / Sd) E(X - m) ←E(aX) = a E(X)

= (1 / Sd) [E(X) - E(m)] ←E(X + Y) = E(X) + E(Y)

= (1 / Sd) [m - E(m)] ←E(X) = m

= (1 / Sd) [m - m] ←E(m) = m

= 0

次に,標準得点 (SS)の分散 V[SS]が 1 になることを確かめます。分散が 1

であれば標準偏差(=分散 1 /2)も 1 になります。

V[SS] = V[(X - m) / Sd] ←SS = (X - m) / Sd

= (1 / Sd)2 V(X - m) ←V(a X) = a2 V(X)

= (1 / Sd)2 V(X) ←V(X - a) = V(X)

= (1 / Sd)2 Sd2 ←V(X) = Sd

= 1

標準偏差 SD は分散の根(ルート)ですから,標準得点の標準偏差も 1

となります。このように平均 E(X)と分散 V(X)の基本性質を使うと,数理

的証明が完結になります。(→「確率」)

●偏差値

テストでよく使われる偏差値 (Z)は標準得点 (SS)を 10 倍し 50 を足して計

算します。

Z = 10 SS + 50

Page 29: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

28

そうすると以下のように偏差値 (Z)の平均 E(Z)は 50 になり,標準偏差は

10 になります。ここでは分散 V(Z)が 100 になることを確認します。

E(Z) = E(10 SS + 50) ←Z = 10 SS + 50

= E(10 SS) + E(50) ←E(X + Y) = E(X) + E(Y)

= 10 E(SS) + E(50) ←E(a X) = a E(X)

= 10 0 + E(50) ←E(SS) = 0

= 50 ←E(50) = 50

V(Z) = E(10 SS + 50) ←Z = 10 SS + 50

= V(10 SS) + V(50) ←V(X + Y) = V(X) + V(Y)

= 100 V(SS) + V(50) ←V(a X) = a V(X)

= 100 1 + V(50) ←V(SS) = 1

= 100 ←V(50) = 0

標準得点によって,せっかく平均 0, 標準偏差 1 にして標準化したのに,

偏差値では平均 50, 標準偏差 10 にしているのです。これは,私たちが 100

点満点のテストに慣れているためで,そのほうがわかりやすいからでしょ

う。

●規定標準得点

標準得点をよく観察すると絶対値が 1 を超える数値がしばしば現れるこ

とがわかります。これは得点と平均値の差が標準偏差を超えたことを示し

ています。そこで,標準得点の範囲を [-1 ~ 1]というスケールで規定化した

数値を求めれば,この同じ尺度で数値を評価・比較することができます。

これを規定標準得点 (Regular Standard Score: RSS)とよびます。規定標準得

点 (RSS)は標準得点 (SS)を標準得点の最大値 (SSmax)で割った値 (SS /

SSmax)とします。最大標準得点は, {X, A, A, A, A}のようなデータ (X > A)

のときの X の標準得点になります。上で見たように,データ全体を加減乗

除しても標準得点に変化がないので, {X-A, 0, 0, 0, 0}を {K, 0, 0, 0, 0}とし

て,この K の標準得点を最大標準得点 SSmax とします。そうすると,相対

標準得点 (LSS)は次の式になります。

RSS = SS / SSmax

つまり,SS を SS の最大値で割った値です。 SS が最大値 SSmax に達し

たときに 1 になります。

データ {K, 0, 0, 0, 0}の平均は

[1] M = K / N (M:平均値;N:個数 )

また,先の「規定標準偏差」(RSd)で見たように(→「分散・標準偏差」),

Page 30: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

29

{K, 0, 0, 0, 0}のようなデータの標準偏差 (Sd)は標準偏差の最大値 (Sd.max)

になります。

[2] Sd.max = M (N – 1)1 /2 (M:平均値;N:個数 )

よって

標準得点 (SS)の最大値 SS.max は

SS.max = (K – M) / Sd.max ←標準得点の定義

= (K - M) / [M (N -1)1 /2] ←上述 [2]

= (K – K / N) / [K / N (N -1)1 /2] ←上述 [1] = (N K – K) / N / [K / N (N -1)1 /2] ← / N を外へ

= [(N – 1) K / N] / [K / N (N -1)1 /2] ←K を外へ

= (N – 1) / (N - 1)1 /2 ←共通 K / N を消去

= (N-1)1 /2 ←X / √X = √X

よって,規定標準得点 (R.SS)は

R.SS = SS / SS.max = SS / (N - 1)1 /2

= [D - Av(D)] / [Sd(D) * (N - 1)1 /2]

次が行 (r),列 (c),両軸 (b),全体 (a)の規定標準得点 (RSS)です(範囲:[-1, 1])。

RSSr. v1 v2 v3 v4 v5

RSSc. v1 v2 v3 v4 v5

d1 -.30 .82 .20 -.67 -.05

d1 .52 .94 .77 .19 .98

d2 .57 .13 .46 -.64 -.53

d2 .63 .02 .34 -.71 -.41

d3 -.30 -.30 -.19 1.00 -.19

d3 -.58 -.52 -.61 .83 -.41

d4 -.77 -.34 .09 .51 .51

d4 -.58 -.44 -.50 -.32 -.16

RSSb. v1 v2 v3 v4 v5

RSSa. v1 v2 v3 v4 v5

d1 .14 .89 .51 -.25 .46

d1 .17 .54 .34 .05 .26

d2 .60 .07 .40 -.67 -.48

d2 .21 .05 .17 -.23 -.19

d3 -.44 -.43 -.40 .92 -.29

d3 -.23 -.23 -.19 .26 -.19

d4 -.62 -.42 -.39 -.13 .00

d4 -.23 -.19 -.15 -.11 -.11

●一般化規定標準得点

先の規定標準得点 (RSS)の分母にデータの個数 (N)が使われています。そ

のためデータ数が多くなると規定標準得点 (RSS)は必然的に小さくなりま

す。とくに大量のデータを扱うときには規定標準得点は適しません。

平均値からの偏差が標準偏差の 3 倍を超えることは極めて稀なので(→

「確率」),次の式で一般化規定標準得点 (Generalized Regular Standard Score:

Page 31: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

30

GRSS)を定義します。

GRSS = [D - Av(D)] / [Sd(D) * 3]

この式は規定標準得点 (RSS)の分母の (N - 1)1 /2を 3に固定したことになり

ます。

(N - 1)1 /2 = 3 → (N - 1) = 9 → N = 10

よってデータ数 (N)が 10 以上のときには規定標準得点 (RSS)の代わりに

一般化規定標準得点 (GRSS)を使うとよいでしょう。

SS3r v1 v2 v3 v4 v5

SS3c v1 v2 v3 v4 v5

d1 -.20 .55 .13 -.45 -.03

d1 .30 .54 .44 .11 .57

d2 .38 .09 .31 -.43 -.35

d2 .36 .01 .20 -.41 -.24

d3 -.20 -.20 -.13 .66 -.13

d3 -.33 -.30 -.35 .48 -.24

d4 -.51 -.23 .06 .34 .34

d4 -.33 -.25 -.29 -.19 -.09

SS3a v1 v2 v3 v4 v5

d1 .25 .78 .49 .08 .37

d2 .31 .08 .25 -.34 -.28

d3 -.34 -.34 -.28 .37 -.28

d4 -.34 -.28 -.22 -.16 -.16

5.7. 確率得点

言語資料の中に現れる言語現象を,絶対頻度・相対頻度・正規化頻度で

比較するとき,絶対頻度の和や相対頻度・正規化頻度の分母(比較の共通

のベース)が小さな値であったり,大きく異なっていたりする場合,そも

そも比較することが困難になります(後述→「各種頻度の問題点」)。そ

こで出現数と和・分母から一定の安全率で導き出せる確率を使って求めた

値を使う方法を提案します。この方法は言語資料の分析だけでなく一般の

頻度データ分析に応用できます。

5.7.1. 有意率

たとえば 10 打席 3 安打の成績をもつ打者 (打率=3 割 )よりも 100 打席 28

安打 (打率=2 割 8 分 )の成績をもつ打者のほうが出場回数(打席)が多いの

で有意(重要)であり,チームへの貢献度は高い,と考えられます。この

ような「有意(重要)である程度」を確率で示した数値を「有意率」

(Significance: S)と呼びます。

有意率 (S)を計算するために二項分布確率を使います(→「確率」)。次

Page 32: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

31

の表は試行数 n=1, 期待確率 e=0.5 の事象,たとえばコイン投げの事象につ

いて,コインの表が出現する回数 (x = 0, 1)ごとの出現確率 (Occurrent

Probability: OP),その累積確率 (Cumulative Probability: CP),有意率 (S)の分

布を示します。

(x, n:1, e:0.5) OP(x) CP(x) S(x)

x = 0 0.5 0.5 0

x = 1 0.5 1 0.5

上表の出現確率 (OP)はコインを 1 回投げて,表にならないとき (x = 0)の

出現確率 OP(0)が 1/2 = 0.5 であり,表になるときの出現確率 OP(1)が 1/2 =

0.5 であることを示します (OP(1) = 0.5)。累積確率 (CP)は,出現数が 0 の場

合 (x = 0)は出現確率 (OP)と同じですが (CP(0) = 0.5),出現数が 1 の場合 (x =

1)は,出現数が 0の場合の出現確率 (0.5)と出現数が 1の場合の出現確率 (0.5)

を足し上げた確率 (1.0)になります (CP(1) = 1)。

有意率 (S)は該当するコインの表の出現数 xの 1つ前の出現数 (x-1)までの

累積確率 (CP)に相当します 8。

S(x, n, e) = CP(x-1, n, e) = BINOMDIST(x-1, n, e, 1)

出現数が 0 の場合は,その 1 つ前 (-1)の累積確率 (OP)は存在しないので,

その有意率 (S)を 0 とします (S(0)=0)。コインの表の出現数 1 の場合の有意

率 S(1)は,出現数 x = 0の累積確率 CP(0) = .5になります (S(1) = CP(0) = 0.5)。

このように出現数 x の有意率 S(x)を直前の出現数 x-1 の累積確率 CP(x-1)

とする理由は,該当する出現数未満のすべての場合の確率の和,すなわち

累積確率 (CP)が該当する出現数の有意率を保証する確率,すなわち有意率

であると考えるためです。コインを 1 度投げてそれが表であったとしても,

それを保証する有意率は 0.5 に過ぎません。実際に出現数 0 にも出現確率

OP(0)として 0.5 の確率が存在するからです。この場合,累積確率 CP(0)=0.5

が有意率です。

次の表は同じコイン投げの試行数を 2 回とした場合のそれぞれのコイン

の表 (おもて )の出現数 (x = 0, 1, 2)の確率分布を示します。

S(x, n:2, e:0.5) OP(x) CP(x) S(x)

x = 0 0.25 0.25 0

x = 1 0.50 0.75 0.25

x = 2 0.25 1.00 0.75

今回もコインの表 (おもて )が出ることの確率が 0.5 であることは同じで

す。出現確率 (OP)の列は,表 (おもて )が 0 回出現する出現確率 OP(0)が 0.25

8 エクセル関数 BINOMDIST の引数は x:出現数, n:試行数, ep:期待確率,0-1:個別確率 (0)-累積確率 (1)のオプションです。

Page 33: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

32

(裏・裏 ), 表が 1 回出現する出現確率 OP(1)が 0.5(表・裏,裏・表 ),そして

表が 2 回出現する出現確率 OP(2)が 0.25(表・表)であることを示してい

ます。CP の列はその累積確率を示し,S の列は有意率を示します。先のコ

イン投げ 1 回のケースで最後の有意率 S(1)が 0.5 (50%)であったのに対し,

この場合の最後の有意率 S(2)は 0.75 (75%)に上昇しました。

このことは 75%の有意率がありますが,同時に 25%の危険率 (Risk: R)も

あることを示しています。有意率 (S)と危険率 (R)の関係は

有意率 (S) + 危険率 (R) = 1

よって,有意率を「安全率」 (Security: S)を示していることになります。

安全率 (S) + 危険率 (R) = 1

この有意率 S(2) = 0.75 は,表の出現数 x=2 の出現確率 OP(2)の 1 の補数

を示します。

S(2, 2, 0.5) = 1 - OP(2) = 1 - 0.25 = 0.75

同様にして表の出現数 x=1 の有意率 S(1)は

S(1, 2, 0.5) = 1 - [OP(1) + OP(2)] = 1 - (0.5 + 0.25) = 0.25

次の表で試行数 n=3 の場合も見ておきましょう。

S(x, n:3, e:0.5) OP(x) CP(x) S(x)

x = 0 .125 .125 0

x = 1 .375 .500 .125

x = 2 .375 .875 .500

x = 3 .125 1.000 .875

ここでコインの表の出現数 x=3 のときに,有意率 S(3)=.875 になりまし

た。有意率が .875 であるとき,有意でない出現数が含まれる確率(危険率)

が .125 (12.5%)もあることを示しています (1 - .875 = .125)。有意率は少なく

とも 95%,理想的にはさらに 99%とし,危険率を 5%,理想的にはさらに

1%に抑えなければ,その出現数の重要性・有意性を正しく評価できません。

今度は試行数を 10 まで拡大しましょう。

S(x, n:10, e:0.5) OP(x) CP(x) S(x)

x = 0 .001 .001 .000

x = 1 .010 .011 .001

x = 2 .044 .055 .011

x = 3 .117 .172 .055

x = 4 .205 .377 .172

Page 34: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

33

x = 5 .246 .623 .377

x = 6 .205 .828 .623

x = 7 .117 .945 .828

x = 8 .044 .989 .945

x = 9 .010 .999 .989

x = 10 .001 1.000 .999

このときコインの表の出現数 (x)が 9 のとき,有意率 (S)が 0.95 を超え

(.9893),その出現数が 10 のとき有意率が 0.99 を超えました (.9990)。よっ

て 10 回中 9 回の出現数があれば,この頻度を 0.95 以上の有意率がある,

として提示することができ,10 回中 10 回の出現数であれば,その有意率

は 0.99 を超えることになります。実際に 10 回コインを投げて 9 回表が出

現したならば,これは 9 に満たない出現数 [0, 1, 2…, 8]の確率の和が 98.9%

になるので,かなり有意(重要)な数値であると言えます。つまり,私た

ちは期待確率が 0.5 であることを 10 回試行して 9 回出現したことの有意率

は 98.9%である,と言えるのです。

「有意(重要)である」という意味は,この数値以上になる,つまり例

外となる確率(危険率)が 1.1%に過ぎないからです (.010 + .001 = .011)。

これを先に見た, 1 回の試行中 1 回の出現 (有意率 s=0.500), 2 回の試行中 2

回の出現 (有意率 s=0.750), 3 回の試行中 3 回の出現 (有意率 s=0.875)と比べ

て見ると,その有意率の高さがわかります。そして,今回の,たとえば 10

回の試行で 5 回出現したことの有意率は 0.377 に過ぎません。 6 回出現し

ても 0.623 で,0.95 や 0.99 には遠く及びません。これらの頻度は偶然でも

十分に出現しうるのです 9。

以下では基本的に有意率の基準を厳しく設定して 0.99 を前提にします。

有意率の基準を 0.95 にすると比較的小さな数値でも有意率を超えてしま

います。逆にたとえば 0.999 のように非常に高い有意率を基準に設定する

と,ほとんど可能性のない大きな出現数までも含めてしまうので実用的で

はありません。

次はコインを投げて表が出るような期待確率 e=0.5 ではなく,1, 2, …, 10

という数字が書かれた 10 枚のカード群の中から,目を閉じて 1 枚のカード

9 ここで問題とするのは,個別の生起確率 (OP)ではなく,直前の場合までを積み上げた累積確率 (CP)です。個別の生起確率 (OP)を問題にすると,たとえば 10 回コインを投げて,表が 5 回出現し裏が 5 回出現する確率は .246でしかありません。そこで, 0 回から 4 回までの累積確率ならば .377, 0 回から 5 回までの累積確率ならば .623 であるので,その両者の間に,期待される確率である .500 が存在していることになります。また,累積確率を該当する場合までの累積ではなく,その直前までの累積とする理由は,その

累積確率の補数( 1-累積確率 )を「有意率」として使うためです。たとえばコインを 10 回投げるとき,表が 9 回出るような累積確率は .989 で,有意率は .011 です。1.1%の確率で起こることはきわめて稀なのでコインに不正がない,という帰無仮説は棄却されます(→二項検定)。

Page 35: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

34

を引き,それが "1"であるときの場合(期待確率 e= 1/10 = 0.1)の有意率 (S)

を示します。それを 10 回繰り返して, "1"が出た回数を示します。

S(x, n:10, e:0.1) OP(x) CP(x) S(x)

x = 0 .349 .349 .000

x = 1 .387 .736 .349

x = 2 .194 .930 .736

x = 3 .057 .987 .930

x = 4 .011 .998 .987

x = 5 .001 1.000 .998

x = 6 .000 1.000 1.000

x = 7 .000 1.000 1.000

x = 8 .000 1.000 1.000

x = 9 .000 1.000 1.000

x = 10 .000 1.000 1.000

たとえば x:5, n:10, e:0.1 のとき有意率 S(5) = .998 になる,ということは

x = 0, 1, 2, 3, 4 の累積出現確率が 0.998 になる,ということを意味します。

つまり x=4 と x=5 の間で有意率が .99 を超えたことになります。よって,

有意率 0.99 を境にすれば 0 から 4 までの範囲がほとんど確実に (99%)出現

し,5 以上はほとんど出現しない (1%以下 )ことになります。

次は横軸を期待確率 (e: 0.1., 0.2., …, 0.9),縦軸を出現数 (x: 1, 2, …, 10)

とし,それぞれのセルに対応する有意率 (s)を計算した表です。

BinS(x, 10, e) e = 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

x = 0 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000

1 0.349 0.107 0.028 0.006 0.001 0.000 0.000 0.000 0.000

2 0.736 0.376 0.149 0.046 0.011 0.002 0.000 0.000 0.000

3 0.930 0.678 0.383 0.167 0.055 0.012 0.002 0.000 0.000

4 0.987 0.879 0.650 0.382 0.172 0.055 0.011 0.001 0.000

5 0.998 0.967 0.850 0.633 0.377 0.166 0.047 0.006 0.000

6 1.000 0.994 0.953 0.834 0.623 0.367 0.150 0.033 0.002

7 1.000 0.999 0.989 0.945 0.828 0.618 0.350 0.121 0.013

8 1.000 1.000 0.998 0.988 0.945 0.833 0.617 0.322 0.070

9 1.000 1.000 1.000 0.998 0.989 0.954 0.851 0.624 0.264

10 1.000 1.000 1.000 1.000 0.999 0.994 0.972 0.893 0.651

Page 36: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

35

たとえば,セル 1:0.1 の .349 という有意率は次の関数 BinS を使います。

s ← BinS(x, n, e) s:有意率 ; x:出現数 ; n:試行数 ; e:期待確率

.349 ← BinS(1, 10, 0.1)

これは期待確率 0.1 で起きることを 10 回試行して,1 回出現する有意率

が .349 であることを示します。同様にして 2 回出現する有意率は

.736 ← BinS(2,10,0.1)

次の表は試行数 (n)を 100 として,それぞれの出現数 (x)を 10 ごとに上昇

させた場合の有意率を示します。

S(x, n:100, e) e = 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

x = 0 .000 .000 .000 .000 .000 .000 .000 .000 .000

10 .451 .002 .000 .000 .000 .000 .000 .000 .000

20 .998 .460 .009 .000 .000 .000 .000 .000 .000

30 1.000 .989 .462 .015 .000 .000 .000 .000 .000

40 1.000 1.000 .979 .462 .018 .000 .000 .000 .000

50 1.000 1.000 1.000 .973 .460 .017 .000 .000 .000

60 1.000 1.000 1.000 1.000 .972 .457 .012 .000 .000

70 1.000 1.000 1.000 1.000 1.000 .975 .451 .006 .000

80 1.000 1.000 1.000 1.000 1.000 1.000 .984 .441 .001

90 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .994 .417

100 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

上の表で期待確率 0.1 の有意率 0.99 を超える出現数は 20 になっていま

すが,1 桁の数値まで正確に求めると 19 になります。このように数値の規

0.000

0.100

0.200

0.300

0.400

0.500

0.600

0.700

0.800

0.900

1.000

0 1 2 3 4 5 6 7 8 9 10

S(x, 10, e)

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Page 37: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

36

模が 10 倍になったとしても,0.99 の点が 5 から 50 に変わるのではなく,

19 という 50 よりもかなり小さな値になります。

■中世子音字の変異<u>, <b>, <v>の有意率

現代スペイン語の文字 <b>と<v>はどちらも両唇音を示し,音韻的な区別

はありません。中世スペイン語では唇歯音(または両唇摩擦音)と両唇閉

鎖音が区別され,書き方にも <b>, <u>, <v>のバリエーションがありました。

下左図は資料中の絶対頻度を示します。このような頻度分布表から,統

計的な有意率を求めます。たとえば uoz の 1250 年 (1250-1299)の頻度は 8

でバリエーション (boz,uoz, voz)の全体は 12 なので,12 の中の 8 という数値

の有意率を求めることになります。そのときの期待確率は 1/3 とします。

これは uoz, boz, voz という 3 種の変種がランダムに分布するならば,それ

ぞれ 1/3 の確率になる,と期待(予想)できるからです。そこで, uoz の

1250 年 (1250-1299)の頻度の有意率 (S)は次の通りです。

S(uoz, 1250) = BINOMDIST(8-1, 12, 1/3, 1) = 0.981

AF 1200 1250 1300 1350 1400

Sec. 1200 1250 1300 1350 1400

boz 0 3 8 18 35

boz 0.000 0.181 0.981 0.526 0.758

uoz 3 8 3 11 6 uoz 0.963 0.981 0.181 0.019 0.000

voz 0 1 1 23 53

voz 0.000 0.008 0.008 0.934 1.000

Sum 3 12 12 52 94

有意率が 0.95 以上の値を太字にしました。これらが統計的に有意である,

と判断されます (p<.05)。

●小数点のあるデータ

上の例 (中世スペイン語子音字の変異 <u>,

<b>, <v>)では,頻度を扱ったので,データは

すべて整数です。そこで次に,たとえば水量

の配分 (g)や平均時速 (km/時間 )などのように

小数点があるデータの有意率を計算すること

を考えます。たとえば,12 グラムの水を左図のような 3 等分した容器にラ

Page 38: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

37

ンダムに注いで, 1 つの区分に 7.5 グラムが集まったときの統計的有意性

を求めることを考えます。

このとき, 2 項分布確率に従う数値データの平均 (Av)と標準偏差 (SD)は

次になります。→「確率」

Av = n * e, SD = [n * e * (1 - e)]1 /2( n: 試行回数, e: 期待確率)

よって,このデータを正規分布に従うと想定すると,小数を含む数値 x

の有意確率(安全率)は次の Excel 関数で計算されます。

Security = NORMDIST(x-0.5, Av, SD, 1)

= NORMDIST(x-0.5, n * e, [n * e * (1 - e)]1 /2 , 1)

ここで NORMSDIST 関数の第 1 引数が 7.5 ではなく,7.5-0.5 = 7 とする

理由は,連続補正 (Continuity correction)で+0.5 とし(→「確率」),次に

二項分布と揃えるために二項分布の第 1 引数からの 1 を引くためです。

全体が 12 グラムで,その中の 7.5 グラムが示す安全率と危険率は Excel

の NORMSDIST 関数を使えば次のように計算されます。

Security = NORMSDIST(7.5-0.5, [12 * (1/3)], [12 * (1/3) * (2/3)] 1 /2 , 1)

= .967 (96.7%)

Risk = 1 - Security = .033 (3.3%)

次は x を変えたときの正規分布の確率密度 (Norm),危険率 (Risk),安全

率 (Secirity)を示します。

x Norm. Risk Security

0.0 0.012 0.997 0.003

0.5 0.025 0.993 0.007

1.0 0.045 0.984 0.016

1.5 0.076 0.967 0.033

2.0 0.115 0.937 0.063

2.5 0.160 0.890 0.110

3.0 0.203 0.821 0.179

3.5 0.233 0.730 0.270

4.0 0.244 0.620 0.380

4.5 0.233 0.500 0.500

5.0 0.203 0.380 0.620

5.5 0.160 0.270 0.730

6.0 0.115 0.179 0.821

6.5 0.076 0.110 0.890

7.0 0.045 0.063 0.937

Page 39: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

38

7.5 0.025 0.033 0.967

8.0 0.012 0.016 0.984

8.5 0.005 0.007 0.993

9.0 0.002 0.003 0.997

9.5 0.001 0.001 0.999

10.0 0.000 0.000 1.000

10.5 0.000 0.000 1.000

11.0 0.000 0.000 1.000

11.5 0.000 0.000 1.000

12.0 0.000 0.000 1.000

上の左表と図を見ると,x=7.5 の危険率 (p 値 )が .033 なので,これを p 値

とすると 5%以下なので,7.5 以上の数値が統計的に有意であることがわか

ります。

■中世スペイン語古文献の平均語数の有意性

下左表は中世スペインで発行された各種文書の平均語数 (Av)を文書の種

類によってまとめたものです (C:王室,E:教会 , J:法廷 , M:役場 , P:個人 , Sum:

計 )。これらの数値はすべて文書数で割った値なので,このような数値がそ

のままで比較されることがありますが,それぞれの母数が年代によって大

きく異なるので,厳密には比較することができません。そこで,下右表で

は安全率 (Sec.: Security)を計算しました。

Av 1200 1250 1300 1350 1400 1450

Sec. 1200 1250 1300 1350 1400 1450

C 53.8 196.4 168.0 150.3 177.7 337.5

C 0.003 1.000 0.998 0.003 0.002 1.000

E 205.8 213.8 206.4 465.7 466.7 395.5

E 1.000 1.000 1.000 1.000 1.000 1.000

J 5.2 29.4 24.9 50.6 46.6 43.9

J 0.000 0.000 0.000 0.000 0.000 0.000

M 2.7 13.2 15.6 53.3 27.8 43.6

M 0.000 0.000 0.000 0.000 0.000 0.000

P 104.4 76.8 270.9 198.4 357.8 224.6

P 1.000 0.001 1.000 0.881 1.000 0.878

Sum 371.9 529.5 685.8 918.3 1076.6 1045.0

Page 40: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

39

安全率が 95%を超えたデータは有意である,と考えて,太字で示しまし

た。これらの安全率は,それぞれの年代の列の中で,偶然では起きない確

率を示します。

●プログラム

Funct ion BinS(x, n, e, sel) 'Secur ity. H. Ueda (2017)

'(x: frequency, n: sum, e: Expected probabilit y, sel=0: integer / 1: decimal))

If x < 1 Then BinS = 0 'Definit ion

If x >= 1 Then

If sel = 0 Then BinS = Applicat ion.BinomDist(x - 1, n, e, 1)

'Secur ity in binomial dist r ibut io n

If sel = 1 Then BinS = Applicat ion.NormDist(x - 0.5, n * e, Sqr(n * e * (1 - e)), 1)

'Secur ity in normal dist r ibut ion (cont inuity correct ion + .5, secur ity - 1.0)

End I f

End Funct ion

Function BinR(x, n, e, sel) 'Risk. H. Ueda (2017)

'(x: frequency, n: sum, e: Expected probability, sel=0: integer / 1: decimal)

BinR = 1 - BinS(x, n, e, sel) 'Risk = 1 - Security

End Function

5.7.2. 期待確率

先に見たように有意率 s は次の関数 BinS または Excel 関数 BINOMDIST

で求められます。

s = BinS(x, n, e) = BINOMDIST(x-1, n, e, 1)

(x:出現数; n:試行数; e:期待確率 )

ここで関数 Bins は既知の出現数 (x), 試行数 (n), 期待確率 (e)から未知の

有意率 (s)を求めています。しかし,実際の言語データ分析では,コインを

投げるときや目を閉じてカードの選択を選択するときや,数表内の数値の

危険率・安全率を計算するときとは違って,初めから期待確率がわかって

いないことが普通です。そこで,既知の出現数 (x), 試行数 (n), 有意率 (s)か

ら未知の期待値 (e)を求める関数 BinEを作成します(→後述「プログラム」)。

e = BinE(x, n, s)

期待確率 e は n 回試行して x 回出現するような事象を一定の有意率 s で

評価するときの前提となる事象の生起確率です(→「確率」)。たとえば,

Page 41: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

40

10 回の試行で 5 回出現したとすれば,そのようなことが起こることが予想

される確率を一定の有意率 s(たとえば 0.99)で推定することになります。

次の表は試行数 n を 10 回とし,出現数 x を 1, 2, …, 10 とし 10,有意率を

95%, 99%, 99.9%としたときのそれぞれの期待確率 (e)を示します。この表を

見ると出現数 (x)が上がるほど期待確率 (e)が全体的に上昇することがわか

ります。たとえば,有意率 (s)を 0.99 にすると 10 回の試行 (n)をして 1 回の

出現 (x)があれば,その事象の期待確率 (e)は .001 という低い数値になります

が,出現数が 10 であれば,その事象の期待確率 (e)は .631 となって上昇し

ます。これは期待確率が小さな事象の出現数が小さく,逆に期待確率が大

きな事象の出現数が大きくなる,という自明のことを示しています。確か

にこのことは自明なのですが,ここでの目的はそれぞれのケースの正確な

期待確率を求めることです。

BinE(x,n:10,s) s = 0.95 0.99 0.999

x = 1 0.005 0.001 0.000

2 0.037 0.016 0.005

3 0.087 0.048 0.021

4 0.150 0.093 0.050

5 0.222 0.150 0.090

6 0.304 0.218 0.141

7 0.393 0.297 0.205

8 0.493 0.388 0.282

9 0.606 0.496 0.376

10 0.741 0.631 0.501

また,有意率 s が上がるほど逆に期待確率 e が下がることを確認しまし

10 出現数 x = 0 の行は必ず 0 になるので省略します。

0.000

0.100

0.200

0.300

0.400

0.500

0.600

0.700

0.800

1 2 3 4 5 6 7 8 9 10

BinE (x,n:10,s)

s = 0.950

s =0.990

s =0.999

Page 42: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

41

ょう。たとえば BinE(5, 10, 0.95)は .223 になりますが,これは期待確率 0.223

の事象が 10 回試行されたとき有意率 s=0.95 で出現数 x が [0, 5]の範囲にあ

るときの期待確率 e が .222 であることを示しています。同じ事象を有意率

s=.99 で見ると期待確率 e = .150 になり,さらに有意率 s=.999 で見ると期

待確率 e = .090 に下げて想定しなければなりません。

次の表は試行数 n を 20 回とし,出現数 x を 1, 2, …, 20 とし,有意率 s

を 0.95, 0.99, 0.999 としたときのそれぞれの期待確率 e を示します。この表

からも先の場合と同じように,期待確率は出現数が上がるほど上昇し,逆

に有意率が上がるほど下降することがわかります。上の表 (n:10)と比べる

と,期待確率の範囲(最小値と最大値の幅)が大きくなっています。

BinE(x,n:20,s) s = 0.95 0.99 0.999

x = 1 0.003 0.001 0.000

2 0.018 0.008 0.002

3 0.042 0.023 0.010

4 0.071 0.044 0.023

5 0.104 0.069 0.040

6 0.140 0.098 0.062

7 0.177 0.129 0.086

8 0.217 0.163 0.114

9 0.259 0.200 0.144

10 0.302 0.239 0.177

11 0.347 0.280 0.213

12 0.394 0.323 0.252

13 0.442 0.369 0.293

14 0.492 0.417 0.337

15 0.544 0.468 0.385

16 0.599 0.522 0.436

17 0.656 0.579 0.491

18 0.717 0.642 0.553

19 0.784 0.711 0.622

20 0.861 0.794 0.708

たとえば,ある実験で 10 回中 2 回 (n=10, x=2)成功したからといって (成

功率=20%),同じ実験を 100回して 20回成功することを期待できません 11。

試行数 n を 10, 100, 1000, 10000, …のように 10 倍ずつ増やして,期待確率

がどのように増えるのかを見ましょう。

n BinE(n*0.2, n, 0.990)

11 直後に見るように同じ実験を同じ試行数 n = 10 で行っても 2 回成功することは到底期待できません。

Page 43: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

42

n = 10 0.016

100 0.116

1,000 0.171

10,000 0.191

100,000 0.197

1,000,000 0.199

10,000,000 0.200

100,000,000 0.200

1,000,000,000 0.200

上の表から有意率を 99%としたとき (s = 0.99), 10 回の試行で 2 回成功し

ても,その期待確率 (e)は 0.016 (1.6%)に過ぎず,私たちが期待する e = 20%

の確率には遠く及びません。実質的に e = 20%に近くなるのは試行数 n =

10,000 で, e = 0.191 (19.1%)になりました。 n を 10,000 以上に増やしても,

期待確率の変化は微増です。最終的に 20%に達するときの n は 10,000,000

です(e = 20.0%)。

このことは成功率 (g)によって異なります。そこで成功率を 0.100, 0.200,

…, 1.000 として同じ実験をします。

BinE n = 10 100 1 000 10 000 100 000 1 000 000

g = 0.10 0.001 0.042 0.079 0.093 0.098 0.099

0.20 0.016 0.116 0.171 0.191 0.197 0.199

0.30 0.048 0.198 0.267 0.289 0.297 0.299

0.40 0.093 0.287 0.364 0.389 0.396 0.399

0.50 0.150 0.381 0.463 0.488 0.496 0.499

0.60 0.218 0.479 0.563 0.589 0.596 0.599

0.70 0.297 0.582 0.665 0.689 0.697 0.699

0.80 0.388 0.691 0.769 0.791 0.797 0.799

0.90 0.496 0.809 0.876 0.893 0.898 0.899

1.00 0.631 0.955 0.995 1.000 1.000 1.000

BinE(n*g, n, 0.99)

上の表を見ると,成功率 (g)が上がるにつれて,それぞれ目標の 20%,

40%, ... , 100%に達するまでの試行回数 (n)が少なくなることがわかります。

そこで次に,それぞれの期待確率 (e)を期待確率の目標値 (g)で割って,目

標達成の比率を求めます。

Page 44: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

43

BinE n = 10 100 1 000 10 000 100 000 1 000 000

g = 0.10 1.0% 42.4% 79.1% 93.1% 97.8% 99.3%

0.20 7.8% 57.8% 85.7% 95.4% 98.5% 99.5%

0.30 15.8% 66.1% 88.9% 96.5% 98.9% 99.6%

0.40 23.3% 71.8% 91.0% 97.1% 99.1% 99.7%

0.50 30.1% 76.1% 92.6% 97.7% 99.3% 99.8%

0.60 36.4% 79.8% 93.9% 98.1% 99.4% 99.8%

0.70 42.4% 83.1% 95.0% 98.5% 99.5% 99.8%

0.80 48.5% 86.3% 96.1% 98.8% 99.6% 99.9%

0.90 55.1% 89.9% 97.3% 99.2% 99.8% 99.9%

1.00 63.1% 95.5% 99.5% 100.0% 100.0% 100.0%

BinE(n*g, n, 0.99) / g

たとえば [n=10: g=0.200]の目標達成の比率は 0.016 / 0.200 = 0.078 (7.8%)

になります。このことは 10 回の試行で 2 回成功しても,実際は 99%の安

全率を求めるならば , 20%ではなく, 1.6% (0.016)しか保証できず,これは

目標 (0.200)の 7.8%しか達成していないことになります。達成率 7.8%

(0.078)を 95% (0.950)まで上げるにはおよそ 10,000 回の試行回数が必要で

す。この達成率 (BinE / g) は成功率 g によって変わり,成功率 g が高くな

れば,少ない試行回数で達成率 95%に達します。たとえば成功率 g が 0.800

で あ れ ば , 1000 回 の 試 行 回 数 で 96.1% (0.961)に 達 し て い ま す 。

上の表と図から,たとえば成功率が g = 1 (100%)ならば試行数 n = 1000

で目標の 100%に達しますが, g = 0.2 (20%)ならば, n = 1 億回必要である

ことがわかります 12。このように完全な(完全に近い)達成ではなく,95%

12 BinE(n*g, n, 0.99)の表では目標達成時の nは 1千万でしたが,BinE(n*g, n, 0.99 / g の比率の表では目標達成時の nは 1 億です。これは前者の表では期待確率が小数点以下 3桁で丸められているためです。後者では丸めのない精確な数値で

0.000

0.100

0.200

0.300

0.400

0.500

0.600

0.700

0.800

0.900

1.000

10

^1

10

^2

10

^3

10

^4

10

^5

10

^6

10

^7

10

^8

10

^9

BinE(n*g, n, 0.99)

0.2

0.4

0.6

0.8

1

Page 45: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

44

の達成を目標とすれば g = 0.2, 0.4, 0.6では n = 10,000, g = 0.8では 1,000, そ

して g = 1 では n = 100 で目標に到達します。いずれにしても成功率 g が小

さいとき,その成功率 g が十分信頼できる,と言えるようにするためには

非常に多数の試行回数 n が必要です。

よって,母数が少ないとき (1000 に満たないとき)は,とくに少ない成

功率は,十分に安全な期待確率に達していないので,相対頻度・正規化頻

度は取扱いに注意が必要です。また,言語研究で扱う単語の出現率(正規

化頻度)は 1 % (0.01)以下の場合が多いので,そのような単語の頻度を精

確に比較するときには確率頻度を用いるとよいでしょう。一般に確率頻度

の元となる期待確率は成功率より低くなりますが,たとえば 99%のような

高い有意率 (s)を保つことができるからです。

●プログラム

次は出現数 (x),試行数 (n),有意率 (s)から期待確率 (EP)を求める関数 BinE(x,

n, s)のプログラムです。

Function BinE(x, n, s, sel) 'Expected probability. H. Ueda (2017)

'(x: frequency, n: sum, s: Security, sel=0: integer / 1: decimal)

Dim p, l, h, m, sc, e

If x = 0 Then BinE = 0: Exit Function 'Return 0 by definition: End

p = 10 ^ 5: l = 0: h = p 'p: precision, l: low bound, h: high bou nd in binary search

Do While l <= h

m = (l + h) / 2 'm: Midpoint between low bound (l) and high bound (h)

e = m / p 'e: Candidate of Expected probability

sc = BinS(x, n, e, sel) 'sc: Security

If sc > s + 1 / p Then 'If sc exceeds s+1/p.. .

l = m + 1 'Raise low bound (l) of search to midpoint (m)+1

ElseIf sc < s - 1 / p Then 'If sc does not reach s - 1/p...

h = m - 1 'Lower high bound (h) of search to midpoint (m) -1

Else 'If sc is in s±1/p...

Exit Do 'Exit the loop (e is the Expected probability)

End If

Loop

BinE = e 'Return the Expected probability (e)

End Function

はじめに出現数 x = 0 のときの期待確率を 0 とします。先に見た有意率

と期待確率の間の単調増加・単調減少で相反する関係を使い,一定の精度

比を求めています。

Page 46: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

45

p で二分探索をしながら順次期待確率 BinE を作成し 13,その期待確率 BinE

で計算した有意率の候補 sc が指定された有意率 s と差が±1/r の範囲内に

あって実質的に同値になった時点の期待確率を返します。

■中世子音字の変異<u>, <b>, <v>の期待確率

先に見た中世子音字の変異 boz, uoz, voz の頻度分布表(下左表 : AF)か

ら,その期待確率を計算します(下左表 : E)。

AF 1200 1250 1300 1350 1400

E: s = .99 1200 1250 1300 1350 1400

boz 0 3 8 18 35

boz 0.000 0.039 0.302 0.200 0.259

uoz 3 8 3 11 6

uoz 0.215 0.302 0.039 0.097 0.019

voz 0 1 1 23 53

voz 0.000 0.001 0.001 0.282 0.439

Sum 3 12 12 52 94

期待確率の表 (E)を見ると,uoz: 1200 の 3/3 (3 回の試行中 3 回の出現 )の

期待確率は .215 (21.5%)であり, 3/3 = 100%からはかなり遠いことがわかり

ます。uoz:1250 の 8/12 の期待確率 (.302)は,uoz:1200 の 3/3 の期待確率 (.215)

よりも大きくなります。分母が大きい voz:1400 の期待確率 .439 は相対頻度

53/94=.564 にかなり近づきます。

■中世スペイン語古文献の平均語数の期待確率

先に見た中世スペイン語古文献の平均語数 (Av)について,その期待確率

(E, s=.99)を計算します。このとき,平均語数は小数点を含む連続数なので

二項分布確率ではなく,正規分布確率を使用します。

Av. 1200 1250 1300 1350 1400 1450

E 1200 1250 1300 1350 1400 1450

C 53.8 196.4 168.0 150.3 177.7 337.5

C .159 .388 .258 .174 .174 .335

E 205.8 213.8 206.4 465.7 466.7 395.5

E .574 .421 .315 .520 .446 .391

J 5.2 29.4 24.9 50.6 46.6 43.9

J .018 .063 .042 .061 .048 .047

M 2.7 13.2 15.6 53.3 27.8 43.6

M .010 .030 .027 .064 .030 .047

P 104.4 76.8 270.9 198.4 357.8 224.6

P .299 .157 .410 .227 .344 .225

Sum 371.9 529.5 685.8 918.3 1076.6 1045.0

13 For … Next を使って連続的に探索すると場合によって多大な時間がかかります。

Page 47: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

46

:

Av. : (E, s=.99)

平均値 (Av)と期待確率 (E, s=.99)のグラフを見ると教会文書 (E)が平均値

では上昇傾向を示し,期待確率では下降傾向を示しています。また平均値

で上昇傾向を示している王室文書 (C)は,期待確率ではとくに上昇傾向が見

えません。平均値はそれぞれの文書の種類の中だけで計算され,一方,期

待確率は年代ごとの全体の中での確率を求めているので,このように傾向

が一致しないことがあります。

5.7.3. 確率頻度

たとえば 10 回の試行の中で 3 回出現する事象が m:100 回中平均で何回

起こることなのかを 0.99 の有意率で考えます。そこで,先に出現数 (x),試

行数 (n),有意率 (s)から求めた期待確率 (e)を使って,その期待確率での試行

数を mにしたときの出現数の平均値を求めます。この平均値を「確率頻度」

(Probabilistic Frequency: PF)と呼びます。

PF = e * m

上の期待確率 e は先の関数 BinE(x, n, s)で求めます。よって

PF(x, n, m, s) = e * m = BinE(x, n, s) * m

PF(3, 10, 100, 0.99) = 4.751

この確率頻度を使った行列全体の得点を「確率頻度得点」 (Probabilistic

Frequency Score: PFS)と呼びます。下左表はそれぞれの年代の文書で見つか

った語形の絶対頻度 (AF)と列和 (Sum)を示し,下右表 (PFS:100)はその二項確

率得点 (BPS)を示します。 [uoz:1200]の相対頻度は 3/3 * 100 = 100 となりま

すが,その確率頻度は 21.5 となって確率的な見地から数値を比較できるよ

うになりました(→後述「各種頻度の問題点」)。

0.0

100.0

200.0

300.0

400.0

500.0

1200 1250 1300 1350 1400 1450

E

C

P

J

M0.000

0.100

0.200

0.300

0.400

0.500

0.600

0.700

1200 1250 1300 1350 1400 1450

E

C

P

J

M

Page 48: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

47

AF 1200 1250 1300 1350 1400

BPS:100 1200 1250 1300 1350 1400

boz 0 3 8 18 35

boz .0 3.9 30.2 20.0 25.9

uoz 3 8 3 11 6 uoz 21.5 30.2 3.9 9.7 1.9

voz 0 1 1 23 53 voz .0 .1 .1 28.2 43.9

Sum 3 12 12 52 94

下左表は絶対頻度と全語数を示し,下右表はその二項確率得点 (PFS)を示

します 14。このときの有意率 (s)は乗数 (m)の規模に合わせて

s = 1 - 1 / m = 1 - 1 / 100000 = 0.99999

を用います。

AF 1200 1250 1300 1350 1400

BPS:10^5 1200 1250 1300 1350 1400

boz 0 3 8 18 35

boz .0 .1 2.4 8.0 15.8

uoz 3 8 3 11 6

uoz .5 2.8 .1 3.1 .5

voz 0 1 1 23 53

voz .0 .0 .0 12.2 28.6

words 7736 36052 40957 64999 96059

ここで [uoz:1200]の 10万語あたりの正規化頻度は 3 / 7736 * 100000 = 38.8

となり,かなり高い数値になりますが確率頻度は 5.6 となりました(乗数

m=100000)。正規化頻度は 7739 回の中で 3 回出現する語が 10 万語の中で

出現する回数を単純な比例式で算出していますが,その実際的な「正しさ」

を保証するものはありません。たとえば 10回中 3回成功したからといって,

100 回中 30 回成功することを予想することができないからです。確率的な

見地からは確率頻度のほうが信頼できます(→後述「各種頻度の問題点」)。

最後に相対頻度 (RF)・正規化頻度 (NF)・確率頻度 (PF)の式を比較します。

RF = x / s * m s: 和

NF = x / wl * m wl: 語数または文字数

PF = e * m e: 期待確率

(x:出現数 , m:乗数 )

統一的に見ればどれも確率 * 乗数 = 平均値となります。しかし相対頻

度 (RF)と正規化頻度 (NF)では乗数 mを掛ける被乗数が単純に全体の中であ

る事象が起きた割合にしているのに対し,確率頻度 (PF)では被乗数が期待

確率 (e)であることが異なります。

●プログラム

次の合成関数 PF では,期待確率 e を返す BinE に乗数 m を掛けて確率頻 14 二項確率頻度は本来「頻度」の一種なので本来ならば整数でよいのですが,正確を期して小数点以下 1 位までを示します。

Page 49: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

48

度を求めます。

Function PF(x, n, m, s) '確率頻度 (x 出現数 ,n 試行数 ,m 乗数 ,s 有意率 )

PF = BinE(x, n, s) * m

End Function

先に示した打者と実験の例についての確率頻度はそれぞれ次のようにな

ります 15。

事象/有意率 有意率 95% 有意率 99%

a. 10打席 3 安打の打者の 100 打席の予想安打数 8.7 4.7

b. 100 打席 28安打の打者の 100 打席の予想安打数 20.7 18.1

このように,予想の有意率を緩めて低くすれば (95%),それぞれの予想値

は楽観的に比較的高くなります。逆に予想の有意率を厳しくして高くすれ

ば (99%),予想値は厳密に低く抑えられます。なお,この予想安打数は一定

の有意率で計算された期待確率に厳密に変化がないとしてそれを 100 打席

にして計算した平均値です。

NUMEROS.xlsm では次のように最終行(または最終列)に試行回数 n とし

て和(または全語数,全文字数,全人口など)の行を用意します。

M A B C D E

h1 10 19 14 7 12

h2 11 7 10 0 1

h3 0 0 1 12 1

h4 0 1 2 3 3

Sm 21 27 27 22 17

この場合「縦軸」を選択し A で乗数を指定します。

15 それぞれ次の関数を用いました。 a = (95%) BinomF(3,10,100,0.95), (99%) BinomF(3,10,100,0.99) b = (95%) BinomF(28,100,100,0.95), (99%) BinomF(28,100,100,0.99)

Page 50: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

49

実行結果:

PFS A B C D E

h1 22.6 46.3 28.9 11.6 39.7

h2 26.4 9.3 16.9 .0 .1

h3 .0 .0 .0 28.8 .1

h4 .0 .0 .6 2.1 2.7

●二項検定

私たちは言語データ分析である頻度が統計的に有意に大きな値であるか

否かを判断しなければならないときがあります。たとえば,ある年代の文

書に voz という言葉が voz または uoz で書かれる語形を数えて,それぞれ

7 語と 3 語が見つかったとき「 voz が有意に多数である」と言えるでしょう

か?確かに voz が全体の半数以上になりますが,このぐらいの差ならば偶

然でも起こり得るかもしれません。そこで統計的に有意に多数であるのか

をテスト(検定)する方法を先の有意率 (Significance: S)を応用して説明し

ます。ここでは簡単な「二項検定」 (binomial test)の方法を使います。

はじめに次のような「P 値」(P-value: p)と呼ばれる確率を確認します。P

値 (p)は先の有意率 (Significance:S)の 1 の補数です。

p = 1 - s (p: P 値 , s: 有意率 )

x s(x, 10, 0.5) p(x, 10, 0.5)

0 0.000 1.000

1 0.001 0.999

2 0.011 0.989

Page 51: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

50

3 0.055 0.945

4 0.172 0.828

5 0.377 0.623

6 0.623 0.377

7 0.828 0.172

8 0.945 0.055

9 0.989 0.011

10 0.999 0.001

上の有意率 (s)を使えば,期待確率 (e)=0.5 の事象が 10 の試行回数 (n)の中

で 7 回起こることの有意率が 0.828 (82.8%)であることになります。一方,

統計的検定では直接「数値が有意に多数であるか」を考えるのではなく,

「数値が有意に多数でない」という「帰無仮説」 (null hypothesis)を設定し,

その帰無仮説が正しい確率 (p)はどの程度か,を問います。「帰無仮説」が

成立しにくいときに「有意に多数である」という「対立仮説」 (alternative

hypothesis)を採用します。ここでは x = 0, 1, 2, …, 7まで p値は下がり続け,

x = 7 のときに p = 0.172 になることがわかります。しかし x = 7 では 17.2%

も帰無仮説が正しいことの確率があるので帰無仮説を棄却できません。x =

7 は偶然に左右されるコイン投げのようなことでも 17.2%の確率で出現す

る数値だからです。

棄却する基準となる確率は「有意水準」 (significance level : α)と呼ばれ,

一般に緩い 95%または厳しい 99%が設定されています。有意水準を 95%に

設定すれば x = 9 で有意水準を超えます。有意水準を 99%に設定すれば x =

10 のときに初めて有意水準を超えます。

P値は出現数 x, 試行数 n, 期待確率 e, 有意水準 (α)によって変化します。

たとえば,全文書中 1%の確率で見出される言語現象が 200 文書で 7 回見

つかったとすれば,その P 値は次の計算から 0.04 となるので,統計的検定

(二項検定)によって有意に多数であると判定され,「有意に多数でない」

という帰無仮説を棄却して「有意に多数である」という「対立仮説」を採

ります。ここでは直後に示す関数 BinP(x, n, e) (x 出現数 ,n 試行数 ,e 期待確

率 )を使います 16。

0.04 = BinP(7, 200, 1/100)

このような帰無仮説の設定は「背理法」「帰謬法」(きびゅうほう proof by

contradiction, lat. reductio ad absurdum)の方法に類似しています。背理法で

は目的の仮説(対立仮説)を直接証明するのではなく,仮説が偽であると

16 検定の結果は「BinP(7, 200, 1/100) = 0.04 < α: 0.05」のように P 値 (p)と有意水準 (α)を共に示し,有意水準を下回るか否かを不等号 (<, >)で示すとよいでしょう。このとき BinP のプログラムを説明しなければなりません。または Excel 関数 BinomDist を用いれば次のようになります。 BinomDist(7-1, 200, 1/100, 1) = 0.04 < α: 0.05

Page 52: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

51

仮定して(帰無仮説),そこから矛盾を導くことにより帰無仮説が偽,つ

まり目的の仮説が真であると結論づける方法です。統計的検定では帰無仮

説の「偽である」ことの正しさを確率 P 値で問います。その確率 P 値があ

まりに低ければ,偽であること(帰無仮説)が間違えている可能性が高い

ので,これを退けて(棄却して)対立仮説を採用します。しかし,このこ

とは帰無仮説が間違えている,ということではなく,間違えている可能性

が高い,対立仮説が正しい可能性が高いと判断することになります。この

方法を「否定的検定」 (negative test)と呼びます。

先に見たように,P 値 (p)と有意率 (s)は 1 の補数の関係になるので,P 値

(p)の代わりに有意率 (s)を使って二項検定をするならば,「有意に多数であ

る」という仮説の正しさは,直接有意率 (s)を使って次のように計算できま

す。

BinS(7, 200, 1/100) = 0.996

この検定法を「肯定的検定」 (positive test)と呼びます。肯定的検定では

帰無仮説を設定せず,直接仮説が正しいことの確率を有意率 (s)で求めます。

あらかじめ肯定的検定における有意水準 (β)を 0.95 (95%),または 0.99

(99%)と設定しておき,この有意水準を超えたときに仮説を採用します。

BinS(7, 200, 1/100) = 0.996 > 0.99

このとき仮説が正しい確率は 99.6%になりますが,それでも「完全に正

しい」ということはありません。コインを 10 回投げて 10 回とも表が出る

ときの有意率は 0.9990234375 になりますが,それでも 1 (100%)にはなりませ

ん17。

帰無仮説を設定する否定的検定における 5%または 1%の有意水準 (α)や,

帰無仮説を設定しない肯定検定における 95%または 99%の有意水準 (β)は

ガイドラインにすぎません。たとえば有意水準 (α) = 0.10 (10%)や有意水準

(β) = 0.90 (90%)にすれば x = 8 であっても有意であると判定されます。し

かし合意による一定の基準がなければ,統計的な判断がすべて自由になり

恣意的なものになってしまいます。

●乗数 1 の確率頻度

確率頻度を求める PF(x, n, m, s) '確率頻度 (x 出現数 ,n 試行数 ,m 乗数 ,s 有

意率 )の乗数 m を 1 にすると,期待確率 e そのものが返されます。

PF(x, n, m, s) = BinE(x, n, s) * m 17 Excel ではあまりに 1 に近い小数は近似的に 1 となりますが,厳密に考えれば,わずかに 1 を下回る確率でなければなりません。たとえば,コインを 100 回投げて 100 回とも表が出る可能性を示す P値はゼロ (0)ではないからです。よって P 値の 1 の補数である有意率も 1 ではないはずです。

Page 53: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

52

次の実験の結果を見ると, c.10 回の中で 9 回成功した実験(実績成功率:

90%)よりも,d.100 回の中で 80 回成功した実験(実績成功率: 80%)のほうが,1

回の期待確率(予想成功率)が高いことがわかります。

事象/有意率 有意率.95 有意率.99

c. 10回の中で 9 回成功した実験の 1 回の予想成功率 .606 .496

d. 100 回の中で 80 回成功した実験の 1 回の予想成功率 .723 .691

このように試行回数 n が重要な変数になるので,たとえばある薬草の効

果を調べるために 10 回から 100 回まで試験的に使用してそれぞれが 90%

の割合で効果があった,と仮定して,それぞれの試験回数における期待確

率を見ることにします。

BinE(n*0.9, n, s) .95 .99

10 0.606 0.496

20 0.717 0.642

30 0.761 0.702

40 0.786 0.736

50 0.801 0.758

60 0.812 0.774

70 0.820 0.786

80 0.827 0.795

90 0.832 0.803

100 0.836 0.809

PF(10*0.9, 10, 0.95) = .606

上の表を見てわかることは,ある薬草の効用の期待確率が 90%である,

と言われても,その薬草の試験回数がわずかに 10 回であれば,その中で 9

回で効用があったとしても 0.95 の有意率で言えば,次の 1 回の薬草の効用

において成功するのは 60.6%の期待確率でしかないのです。さらに 99%の

有意率まで求めれば 49.6%になって,半分以下の予想成功率になってしま

います。期待確率は薬草の試験回数を増やすほど上昇しますが,100 回に

しても 90%に達しません。

期待確率を上げるには,さらに薬草の試験回数 n を上げることと,薬草

の効用の実績 x を上げることが考えられます。はじめに薬草の試験回数を

10, 100, 1000 のように増やしていくと,次の表とグラフが示すように期待

確率が 90%に近くなるのは少なくとも 1000 回の薬草の効用実績が必要に

なります。

BinE(n*0.9, n, s) 95% 99%

10 0.6058 0.4957

Page 54: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

53

100 0.8363 0.8087

1000 0.8830 0.8758

10000 0.8949 0.8928

100000 0.8984 0.8978

1000000 0.8995 0.8993

ここで n=100, 200, …, 1000 について期待確率の動きを見ると,はじめに

急上昇しますが,次第に上昇が緩慢になることがわかります。

BinE(n*0.9, n, s) 95% 99%

100 0.8363 0.8087

200 0.8580 0.8399

300 0.8668 0.8526

400 0.8718 0.8598

500 0.8751 0.8645

600 0.8775 0.8680

700 0.8794 0.8706

800 0.8808 0.8727

900 0.8820 0.8744

1000 0.8830 0.8758

.0

.1

.2

.3

.4

.5

.6

.7

.8

.9

1.0

10

10

0

10

00

10

00

0

10

00

00

10

00

00

0

BinE(n*0.9, n, s)

0.95

0.99

0.76

0.78

0.80

0.82

0.84

0.86

0.88

0.90

10

0

20

0

30

0

40

0

50

0

60

0

70

0

80

0

90

0

10

00

BinE(n*0.9, n, s)

0.95

0.99

Page 55: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

54

次に薬草の効用回数を 1000 回として,その成功数を 900, 910, …, 1000

回とすると,次の 1 回の薬草の効用の期待確率はそれぞれ次のようになり

ます。

BinE(x, 1000, s) 95% 99%

900 0.8830 0.8758

910 0.8937 0.8868

920 0.9044 0.8978

930 0.9153 0.9090

940 0.9262 0.9202

950 0.9371 0.9316

960 0.9482 0.9432

970 0.9595 0.9549

980 0.9711 0.9671

990 0.9831 0.9800

1000 0.9970 0.9954

上の表を見ると,1000 回の薬草の効用で 90%成功していれば,それ以上

の成功数は期待確率と直線的に相関することがわかります。

以上のことは薬草の各試験で効果あり・効果なしの出現がそれぞれ独立

していることを仮定しています。この仮定のもとに効果が未知の薬草を 10

回試用して 9 回に効果があったとしても,その期待確率が 90%であること

にはならず,期待確率は 49.5%に留まることになります(99%の有意率)。

一方,練習を積んだ運動選手が 10 回のテストで 9 回合格しても期待確率は

49.6%である,次のテストに合格する期待確率が 50%以下である,とは考

えられません。練習を積んだ運動選手は,効果が未知の薬草とは異なり,

それぞれのテストの合格率はほぼ一定しているはずだからです。

0.80

0.82

0.84

0.86

0.88

0.90

0.92

0.94

0.96

0.98

1.00

90

0

91

0

92

0

93

0

94

0

95

0

96

0

97

0

98

0

99

0

10

00

BinE(x, 1000, s)

0.95

0.99

Page 56: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

55

●期待確率・確率頻度の使用についての注意

言語調査において,ある地点で 5 人に質問し,その中の 4 人がある語形

を使用したとします。その地点の話者の総人口が 1000 人だとして,99%の

有意率でその語形を使用する人の数を推定すると

PF(4, 5, 1000, 0.99) = 222.1

となります。これは総人口のわずか 22.3%に過ぎないので腑に落ちない結

果です。さらに別の語形が 5 人中 5 人が使用したとします。同じように確

率頻度を計算すると

PF(5, 5, 1000, 0.99) = 398.1

このように全員が使用したとしても 99%の有意率で総人口の 39.8%だけ

が使用する,ということになります。たとえばキューバで 5 人の話者に聞

いて 5 人が全員「バス(交通機関)」を guagua と言う,と回答しても,そ

の言葉 guaguaの使用人口が総人口の 39.8%しか想定できないことになるの

で,やはり変だと思われるでしょう。

共同体の言語使用は言語の共通基盤(コード)に支えられています。よ

って一人の話者の言語使用は他者の言語使用と強く一致するはずです。あ

る人が「バス」を guagua と言えば,別の人もやはり「バス」を guagua と

言う可能性が非常に高いのです。一方,確率頻度はコインやサイコロを投

げることやカードを引くことで観察される二項確率の分布を使って数学的

に計算した結果です。たとえば最初に投げたコインが表であっても 2 度目

に投げたコインが表になる確率は 1/2 = 0.5 になり,2 つのコインの表と裏

の出現は独立して,たがいに関係がありません。

一方,現象のそれぞれの出現が,言語使用のように互いに独立していな

いと考えられるときには期待確率そのものを予測することには無理があり

ます。野球の打者のそれぞれの打席も完全に独立ではなく,1 回目の安打

が 2 回目の安打の確率に影響することはよくあることです。そのようなと

きには期待確率や確率頻度は「独立した試行であると仮定して」という条

件をつけて参考にする程度に留めるべきでしょう。

一方,総数が異なるデータ間で,競合する語形の頻度そのものを評価す

るときではなく,頻度を比較するときには確率頻度が役立ちます。たとえ

それぞれの語形の出現が独立でなくても,完全に同じ条件(出現数・試行

数・乗数・有意率)で確率頻度を比較することができるからです。

また,それぞれの試行が独立していなくても,得られた期待確率を検定

に使うことは可能です。先述の二項検定では,得られた期待確率が偶然で

も起こるとすれば,それはどのような確率になるのかを測り,その有意性

を検討するからです。

インターネットで好悪の結果を単純にパーセントにして順位を示してい

Page 57: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

56

るページがあります。そこでは,たとえば 10 人中 8 人が「好き」と答えた

アイテム (80%)が,100 人中 55 人が「好き」と答えたアイテム (55%)よりも

上位になっていることがあります。この 2 つのケースのそれぞれの期待確

率は

BinE(8, 10, 0.99) = 0.388

BinE(55, 100, 0.99) = 0.429

よって 100 人中 55 人が「好き」と答えたアイテム (25%)のほうが期待確

率が高いのでランクが上になるべきでしょう。(しかし,ここでも「好き」

という答えが,現在のランクの成績によって左右される可能性があるので,

それぞれの回答は完全に独立しているわけではありません。)

■各種頻度の問題点:スペイン語の文字 <b>, <u>, <v>の歴史

(1) 絶対頻度

現代スペイン語の文字 b と v はどちらも同じ音素 /b/に対応し発音は同じ

です。これは歴史的に /v/→ /b/という音韻変化があったためです。たとえば

voz「声」という語は中世スペイン語 (1200-)の公証文書では uoz, voz, boz

という 3つの語形で書かれていました。これらの語形の語頭の u, v, bは voz

「声」に限らず,現代スペイン語の語頭に v があるさまざまな語で歴史的に

推移しますが,とくに b が摩擦音 (v)から閉鎖音 (b)に変化した徴候を示して

いるので注目されます。そこで中世に発行された公証文書中を調べてみる

と下左表 (AF)のような絶対頻度で出現しています。

AF 1200 1250 1300 1350 1400

uoz 3 8 3 11 6

voz 0 1 1 23 53

boz 0 3 8 18 35

Sum 3 12 12 52 94

このような絶対頻度では,それぞれの年代に発行された文書中の和 (Sum)

が異なるので年代間の比較ができません。

(2) 相対頻度

絶対頻度 (AF)の比較が不可能であることの問題を解決するために下右表

(相対得点 Relative Score: RS.100)のように,それぞれの年代の絶対頻度を

それぞれの年代の全数で割り 100 を掛けて列パーセントを計算しました。

Page 58: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

57

AF 1200 1250 1300 1350 1400

RS.100 1200 1250 1300 1350 1400

uoz 3 8 3 11 6

uoz 100.0 66.7 25.0 21.2 6.4

voz 0 1 1 23 53

voz 0.0 8.3 8.3 44.2 56.4

boz 0 3 8 18 35

boz 0.0 25.0 66.7 34.6 37.2

Sum 3 12 12 52 94

これで 1200 - 1400 年代を通じて uoz の割合が次第に減少したこと, voz

の割合が次第に増加したこと,そして boz の割合が 1300 年代をピークにし

て増加・減少したことが確認できるでしょう。

ここで uoz:1200 と uoz:1250 の絶対頻度を見るとそれぞれ 3, 8 であるの

に対し,相対頻度は 100 と 66.7 となって大きく逆転しています。しかし単

純に相対頻度を比較して「 uoz は 1200 年代から 1250 年代になって 33.3 ポ

イント減少した」と判断することはできません。 1200 と 1250 の総和が大

きく異なるからです。また boz:1300 は 66.7%よりも voz:1400 (56.4%)のほ

うが数量的に重要であると思われます。なぜならわずか 12 個の中の 8 個よ

りも大量の 94 個の中の 53 個のほうが重要な値だと考えられるからです。

uoz: 1200 が 100%であるとしても,全部で 3 個だけのことなのでその頻度

をあまり信頼できません。

(3) 正規化頻度

言語データ分析では,それぞれのグループの単語や文字の全数を基盤に

した正規化頻度 (Normalized Frequency: NF)が使われます。たとえば 1200 年

代の文書には全部で 7736 語検出されたので, uoz の 10 万語あたりの正規

化頻度は 3 / 7736 * 100000≒38.8 になります。このようにしてすべてのケ

ースの正規化頻度を求めたものが下右表の正規化頻度得点 (NF)です。

AF 1200 1250 1300 1350 1400

NF. 1200 1250 1300 1350 1400

uoz 3 8 3 11 6

uoz 38.8 22.2 7.3 16.9 6.2

voz 0 1 1 23 53

voz 0.0 2.8 2.4 35.4 55.2

boz 0 3 8 18 35

boz 0.0 8.3 19.5 27.7 36.4

words 7736 36052 40957 64999 96059

しかし,この正規化頻度でも先の相対頻度と同様の問題が生じます。た

とえば uoz:1200 の 38.8 は boz:1400 の 36.4 よりも大きいことから「 boz:1400

は uoz:1200 のレベルに達していない」と判断することはできません。7736

語の中に占める 3 語を,96059 語の中に占める 35 語と簡単に比較すること

は,比較の基盤である語数が大きく異なるので (7736, 96059),できないか

らです。

相対頻度も正規化頻度も分母が異なるときに比較するための頻度です 18。

18 分母が等しいときや非常に近いときならば絶対頻度を使えばよいはずです。

Page 59: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

58

しかし分母が大きく異なるとき,そして一方がとくに小さいときに問題が

あるのでは,そもそもその用途に疑問が生じます。そこで,分母の違いを

考慮して比較するための方法を考えます。

■確率頻度の頑健性:スペイン語の縮約形 del と al

ラテン語から派生した各言語では前置詞と定冠詞が多く縮約します。そ

の中でスペイン語のケースは比較的少なく前置詞 de, a + elの縮約によって

del, al だけが形成され,ほかの結合では分離形 (de la, a la, en el など )が使

われます。スペイン語の歴史研究では「 de el, a el が高頻度で用いられたた

めに縮約し del, al となった」と説明されています。しかし古文献資料

CODEAを探しても次の表のように当初 (1200年代 )から接合形の del(o)ばか

りであって分離形の de el はほとんど見られません(少数の de el は de la

などの類推による例外的な表記であって,分離して発音されたのではない

でしょう)。一方,他の性・数では接合形 delos, dela, delas と分離形 de los,

de la, de las が多数見つかりました。

語形 /年代 . 1200 1300 1400 1500 1600 1700

de el 6 2 0 19 51 16

del 1920 1829 2247 2858 1358 426

de la 309 110 145 370 451 171

dela 957 992 1303 1590 427 171

よって歴史的に見れば de el > del, a el > al というような「高頻度使用に

よ る 縮約 」 とい うプ ロセ ス はなか っ たと 思 いま す。 Menéndez Pidal

(1926-1980: 331)が言うように la, los, las という語形の形成条件が前置詞と

の接合であったならば,そして,とくに de との接合を考えるならば,当然

la, los, las という語形が生まれた時以前に dela, delos, delas が存在していた

はずだからです。当然 del, al の形成も同時期であったと推定してよいでし

ょう (de+elo > delo > del; elo > el; a+el > alo > al)。

このような一般的な傾向の概略を探るためには上の表のような絶対頻度

でも可能です。しかし実は各年代の歴史資料の全語数は次のように異なり

ます。

年代 1200 1300 1400 1500 1600 1700

語数 224,708 230,383 261,564 287,380 125,366 52,938

そこで先の絶対頻度表と上の語数表を参照して確率得点を計算すると次

のようになります (乗数 : 100,000)。

PF 1200 1300 1400 1500 1600 1700

de el .8 .1 .0 3.6 28.6 15.5

Page 60: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

59

del 809.9 751.5 817.6 951.9 1016.4 717.1

de la 120.0 37.8 45.3 113.7 321.6 268.4

dela 394.6 399.5 466.7 521.6 303.5 268.4

この確率頻度から見ると,さらに de el という分離形がとくに 1500 年代

に例外的であったことがわかります (10 万語あたり 3.6)。そして de el とい

う分離形が後年代 (1600, 1700)に増えていることは, de el > del という「高

頻度使用による縮約」というプロセスの反証になります。「高頻度使用に

よる縮約」があったのならば,分離形の頻度は早期により多くなければな

らないからです。

さて,この確率頻度によるデータ分析は次の正規化頻度 (NF)でも基本的に

変わりません。それは 1600 年代,とくに 1700 年代を除けばベースとなる

語数に大きな違いがないためです。

NF 1200 1300 1400 1500 1600 1700

de el 2.7 .9 .0 6.6 40.7 30.2

del 854.4 793.9 859.1 994.5 1083.2 804.7

de la 137.5 47.7 55.4 128.7 359.7 323.0

dela 425.9 430.6 498.2 553.3 340.6 323.0

確率頻度 PF 正規化頻度 NF

正規化頻度 (NF)と確率頻度 (PF)を比べると 1600 年代の de el の頻度では

NF が PF よりかなり大きくなり,1700 年では 2 倍近くになっています。し

かし先の一般的傾向の観察はほぼ同じです。よって,このように正規化頻

度(そして相対頻度)の割り算のベースに大きな違いがなければ,または

全体の割り算のベースが十分に大きければ,正規化頻度(そして相対頻度)

を使用しても大きな問題は生じません。一方,確率頻度はベースの差を確

率で修正しているので,正規化頻度(そして相対頻度)の割り算のベース

に対応する試行数 (n)に大きな差があっても,そしてもちろん大きな差がな

くても,問題は生じません。よって確率頻度は割り算のベースに対応する

試行数 (n)に大きな差があるときの特殊なケースにも有効な「頑健な」

(robust)頻度です。

*Menéndez Pidal, R. 1926-1980. Orígenes del español. Madrid. Espasa-Calpe./

0

200

400

600

800

1000

1200

120013001400150016001700

de e l

del

de la

dela

0

200

400

600

800

1000

1200

120013001400150016001700

de e l

del

de la

dela

Page 61: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

60

CODEA (Corpus de Documentos Españoles Anteriores a 1800 ):

http://corpuscodea.es/

確率得点 [2017/4/1]

5.8. 有意得点

5.8.1. 二項分布有意得点

行列の成分が比較的少ない頻度を示すとき,その成分の数値が「偶然か

もしれない」「あまり意味がない(有意でない)」(accidental, not significant)

と思われることがあります。そこで二項分布累積確率を使って行列の成分

の有意性をチェックします。次のデータ (S1)とその行和 (Sh)を使って説明

します。

S1 v1 v2 v3 v4 v5 横軸 Sh

h1 10 19 14 7 12

h1 62

h2 11 7 10 0 1

h2 29

h3 0 0 1 12 1

h3 14

h4 0 1 2 3 3

h4 9

たとえば (h1:v1=10)の有意性 (siginificance)を,二項分布累積確率を返す

Excel 関数 BINOMDIST(x, n, p, 1)を使って計算します。二項分布累積確率

は生起回数 (x)・全試行回数 (n)・確率 (p)によって決まります(→「確率」)。

この累積生起確率を集めた得点を「有意得点」 (Binomial Significant Score:

BSS)と呼びます。

上左表の列数は 5 列なので,それぞれのセルの期待確率 (e)は一律に 1/5

(20%)であると考えられます 19。 (h1:v1)と (h1:v2)の累積生起確率 (aop)は

BSSr(h1:v1) = BINOMDIST(10, 62, 1/5, 1) = . 280

BSSr(h1:v2) = BINOMDIST(19, 62, 1/5, 1) = .984

上の第 1 式は,期待確率 (ep)が 1/5 (20%)のとき, (h1:v1)=10 未満の頻度

(x)が 62 回 (n)の中で生起する確率 (aop)が .180 (18%)であることを示してい

ます。この確率 (aop)は 5%以上かつ 95%以下なので有意性がありません(→

後述「二項分布累積確率による有意性判定」)。一方,第 2 式の (h1:v2)の

頻度 19 の累積生起確率 (aop)は .969 (96.9%)であり,これは 95%を超えるの

でかなり有意性があると言えます。プログラムで行列成分全体の有意得点

を計算した結果が下左表です。

BSSr v1 v2 v3 v4 v5

BSSc v1 v2 v3 v4 v5

19 たとえば,行和が 15 であれば各セルに期待される値(期待値・平均)は 15 にこの期待確率 1/5 を掛けた値 3 になります。

Page 62: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

61

h1 .280 .984 .753 .053 .525

h1 .994 1.000 .999 .838 1.000

h2 .993 .790 .980 .002 .013

h2 .998 .643 .947 .002 .050

h3 .044 .044 .198 1.000 .198

h3 .002 .000 .004 .999 .050

h4 .134 .436 .738 .914 .914

h4 .002 .004 .021 .162 .353

同様に縦の列和と期待確率 (1/4: 25%)を使って有意得点を計算した結果

が上右表です(列有意得点:BSSc)。

下表の全有意得点 (SSa)の計算では,行列全体の総和 (=114)を試行回数 (n)

とし,それぞれのセルの値(頻度)を生起回数 (x)とし,1 / (P * N)を期待

確率 (ep)としています。つまり,セル全体に同じ確率 (1 / セルの個数 )を想

定し,それを期待確率として累積生起確率 (aop)を求めます。たとえば

SSa(S1:h1:v1)は

BSSa(S1:h1:v1) = BINOMDIST(10, 114, 1 / (5 * 4), 1) = .940

BSSa v1 v2 v3 v4 v5

h1 .972 1.000 .999 .789 .995

h2 .988 .789 .972 .003 .020

h3 .003 .003 .020 .995 .020

h4 .003 .020 .072 .173 .173

●有意度の大きな得点

有意得点の出力行列の視認性を高めるために,95%以上の累積生起確率

をアステリスク (*)でマークし, 99%以上の有意得点(=累積生起確率)を

シャープ (#)でマークします。

BSSr v1 v2 v3 v4 v5

BSSc v1 v2 v3 v4 v5

h1 .280 *.984 .753 .053 .525

h1 #.994 #1.000 #.999 .838 #1.000

h2 #.993 .790 *.980 .002 .013

h2 #.998 .643 .947 .002 .050

h3 .044 .044 .198 #1.000 .198

h3 .002 .000 .004 #.999 .050

h4 .134 .436 .738 .914 .914

h4 .002 .004 .021 .162 .353

たとえばデータ行列 (S1)の h1 では v2 (=19)だけが有意であり (*.984), h

2:v1 はきわめて有意です (#.993)。データ行列 (S1)の h4 (0, 1, 2, 3, 3)はどれ

もほとんど有意ではないのでマークがつきません。

●二項分布による比率の検定

統計学で扱われる「二項分布による比率の検定」では,たとえば次のよ

うな問題が設定されています(市原 1990: 118)。

コインを 8 回投げて表がでた回数は 1 回だけであった。このようなこ

Page 63: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

62

とは十分ありうるか。

この問題では二項分布の下側を検定するので,表が 1 回もでない確率

(x=0)と表が 1 回でる確率 (x=1)とを足しあげます。

P (x = 0, 1) = BINOMDIST(x, n, p, 1) = BINOMDIST(2, 8, 0.5, 1) = .035

このセクションで扱った有意得点は,このような下側の累積確率を示し

ます。一方,たとえば「コインを 8 回投げて表がでた回数が 7 回でたとい

うようなことは十分ありうるか」という検定をするときは,二項分布の上

側を見ます。この確率 P(x = 7, 8)を計算するには,

P (x = 7, 8) = 1 - BINOMDIST(x-1, n, p, 1)

= 1 - BINOMDIST(7-1, 8, 0.5, 1) = .035

上の式の中の関数の第 1 引数が x ではなく, x-1 にする理由は,求める

確率が上側なので,直接それを求めることができないため,その下側 (0 か

ら x-1 まで )の全確率の和を全体 ( 1.000 ) から引いて求めるためです。この

上側確率は「その回数が有意である」と判断したとき,それが実際には間

違えている可能性(危険率 Risk:偶然に起こりうる確率)を示します。「安

全率」 (Security)は危険率の逆数です。

安全率 (Security)+危険率 (Risk) = 1.000

ここで取り上げた頻度表などの有意性を検定するときは,一般にピアソ

ンのカイ二乗検定やフィッシャーの精密検定などが使われますが,それら

は数値の分布全体をまとめて,その有意性を問題にしています。私たちの

有意得点は,表の分布全体をまとめて見るのではなく,表のそれぞれのセ

ルの数値の有意性を問題にしています。たとえば次の D1 と D2 はどちらも

カイ二乗検定の結果は同じになります。

D1: Y (+) Y (-) Sh D2: Y (+) Y (-) Sh

X (+) a: 25 b: 12 37 X (+) a: 20 b: 12 32

X (-) c: 15 d: 20 35 X (-) c: 15 d: 25 40

Sv 40 32 N: 72 Sv 35 37 N: 72

χ2 = 4.448, *p = .035 < .05

しかし,もし X が原因(教育法)であり,Y が結果(成績向上者)を示

すようなデータであれば,私たちの関心は «a» (+, +)のほうが«d» (-, -)より

も大きいはずです。

また,安全率と危険率の第 2 引数を頻度分布の横和 (Sh),縦和 (Sv),総

Page 64: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

63

和 (N)で区別します 20。

安全率 = BINOMDIST(x-1, n, e, 1)

危険率 = 1 - BINOMDIST(x-1, n, 1)

HS(D1) Y (+) Y (-)

VS(D1) Y (+) Y (-)

TS(D1) Y (+) Y (-)

X (+) a: *.976 b: .010

X (+) a: .923 b: .055

X (+) a: *.958 b: .034

X (-) c: .155 d: .750

X (-) c: .040 d: .892

X (-) c: .171 d: .665

横安全率 (HS), 縦安全率 (VS), 全安全率 (TS)

この表を見ると,先の D1 のカイ二乗 (χ2)の有意性は横安全率,または全

安全率の «a»の値が強く働いたためであることがわかります。

参考:市原清志 1990『バイオサイエンスの統計学』東京:南江堂

■中世スペイン語の文字<u>, <b>, <v>

下左表は,中世スペイン語の古文書の資料体から得られた頻度分布表で

す (AF)。下右表はその安全率 (S)を示します。

AF 1200 1250 1300 1350 1400

S 1200 1250 1300 1350 1400

uoz 3 8 3 11 6

uoz *.963 *.981 .181 .019 .000

boz 0 3 8 18 35

boz .000 .181 *.981 .526 .758

voz 0 1 1 23 53

voz .000 .008 .008 .934 #1.000

Sm 3 12 12 52 94

ここでは次のように縦和を使って安全率を計算してあります。

S(3, 3, 1/3) = .963 (96.3%)

S(8, 12, 1/3) = .981 (98.1%)

統計的検定に使われる危険率 (p)は,次のように計算されます。

p = 1 - S(3, 3, 1/3) = 1 - .963 = .037 (3.7%)

p = 1 - S(8, 12, 1/3) = 1 - .981 = .019 (1.9%)

次の表と図で安全率 (Security)と危険率 (Risk)の関係を確認しましょう :

x Probability Ac. probability

0 0.008 0.008

1 0.046 0.054

20 HS[ij] = S(x[ij], Sh[i], 1/2) VS[ij] = S(x[ij], Sv[j], 1/2) TS[ij] = S(x[ij], N, 1/4)

Page 65: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

64

2 0.127 0.181

3 0.212 0.393

4 0.238 0.632

5 0.191 0.822

6 0.111 0.934

7 0.048 0.981

8 0.015 0.996

9 0.003 0.999

10 0.000 1.000

11 0.000 1.000

12 0.000 1.000

5.8.2. 正規分布有意得点

有意得点は二項分布を使うために,入力データは頻度などの非負整数行

列でなければなりません。しかし,言語研究ではさまざまな現象を扱う際,

1000 語率(1000 語あたりの相対頻度)や 100 万語率( 100 万語あたりの相

対頻度)を扱うことがあります。そのようなデータは非負値ですが,整数

ではなく小数になります。

小数の非負行列での有意性をチェックするために,正規分布で二項分布

に近似させます。正規分布累積確率を得るには Excel関数 NORMDIST(x, av,

sd, 1)を使います。そこで,次の二項確率分布の平均 (av)と標準偏差 (sd)の

式を用います( n:データ数, p:確率→「確率」)。

av = n * p

sd = [n * p * (1 - p)]1 /2

NSS NORMDIST(x+0.5, av, sd, 1)

上の式で求められた平均と標準偏差を使って,NORMDIST が返す累積正

規分布確率で構成する得点を「正規有意得点」 (Normal Significant Score:

NSS)と呼びます。

NSS(x) = NORMDIST(x+0.5, av, sd, 1)

次の表は,S1 のデータの第 1 列の和 (S),平均 (M),標準偏差 (SD),正規

有意得点 (NSS)を示します 21。

S1 v1 v2 v3 v4 v5 横軸 S M SD NSS(v1)

h1 10 19 14 7 12

h1 62.000 12.400 3.150 0.273

h2 11 7 10 0 1

h2 29.000 5.800 2.154 0.996

21 SD = [S * 1/5 * (1 - 1/5)]1 /2

Page 66: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

65

h3 0 0 1 12 1

h3 14.000 2.800 1.497 0.062

h4 0 1 2 3 3

h4 9.000 1.800 1.200 0.139

次は,同じデータ (S1)の二項分布有意得点と正規分布有意得点を示しま

す。両者はかなり近似することがわかります。

BSSr v1 v2 v3 v4 v5

NSSr v1 v2 v3 v4 v5

h1 .280 *.984 .753 .053 .525

h1 .273 *.988 .748 .060 .513

h2 #.993 .790 *.980 .002 .013

h2 #.996 .785 *.985 .007 .023

h3 .044 .044 .198 #1.000 .198

h3 .062 .062 .193 #1.000 .193

h4 .134 .436 .738 .914 .914

h4 .139 .401 .720 .922 .922

データの規模を 10 倍にします (S2)。

S2 v1 v2 v3 v4 v5

h1 100 190 140 70 120

h2 110 70 100 0 10

h3 0 0 10 120 10

h4 0 10 20 30 30

S2 v1 v2 v3 v4 v5

NSSr v1 v2 v3 v4 v5

h1 .008 #1.000 .950 .000 .366

h1 .009 #1.000 *.951 .000 .363

h2 #1.000 *.964 #1.000 .000 .000

h2 #1.000 *.967 #1.000 .000 .000

h3 .000 .000 .000 #1.000 .000

h3 .000 .000 .000 #1.000 .000

h4 .000 .019 .750 #.999 #.999

h4 .000 .024 .745 #1.000 #1.000

データの規模を 100 倍にします (S3)。

S3 v1 v2 v3 v4 v5

h1 1000 1900 1400 700 1200

h2 1100 700 1000 0 100

h3 0 0 100 1200 100

h4 0 100 200 300 300

BSSr v1 v2 v3 v4 v5

NSSr v1 v2 v3 v4 v5

h1 .000 #1.000 #1.000 .000 .105

h1 .000 #1.000 #1.000 .000 .105

h2 #1.000 #1.000 #1.000 .000 .000

h2 #1.000 #1.000 #1.000 .000 .000

h3 .000 .000 .000 #1.000 .000

h3 .000 .000 .000 #1.000 .000

h4 .000 .000 *.955 #1.000 #1.000

h4 .000 .000 *.956 #1.000 #1.000

正規有意得点は二項分布と同じ平均と標準偏差を使って出力した正規分

布累積確率なので,和 (n)が大きくなるにつれて正規分布が二項分布に近似

Page 67: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

66

していきます。よって和が十分に大きければ正規有意得点を代用してもか

まいません。逆に和が小さいデータでは二項分布有意得点を使用すべきで

す。

■接触言語の子音文字 (1)

ラテンアメリカの先住民言語 Aymara (Bolivia), Guarani (Paraguay),

Mextec (Mexico)は文字体系の中にスペイン語特有の文字エニェ (ñ)を取り

入れて使用しています。この文字の使用頻度を調べるために次の『世界人

権宣言』 1 条の各言語の文字表記を利用します 22。

AYMARA: Taqpach jaqejh khuskat uñjatatäpjhewa munañapansa,

lurañapansa, amuyasiñapansa, ukatwa jilani sullkanípjhaspas ukham

uñjasipjhañapawa.

GUARANÍ: Mayma yvypóra ou ko yvy ári iñapyty'yre ha eteîcha

tecoruvicharendá ha acatúape jeguerekópe; ha ikatu rupi oikuaa añetéva ha

añete'yva, iporâva ha ivaíva, tekotevê pehenguéicha oiko oñondiveku éra.

MIXTEC: Taka ma ñayi nguiakoi ñayivi ñatu na ja'a tnu'u ja kusa'a

ndeva'ña-i, su'uva kajito va'aña-i, yuka ku ja jiniñu'u ja kukototna-i.

どの頻度も小さいため,有意得点が 95%を超える数値は 5 個, 99%を超

える数値は 11 個しかありません 23。

C1 Aymara Guaraní Mixteco

SiSMc A G M

b 0 0 0

b .033 .021 .117

c 1 5 0

c .148 .826 .117

d 0 2 1

d .033 .268 .374

f 0 0 0

f .033 .021 .117

g 0 2 1

g .033 .268 .374

h 7 9 0

h *.982 #.996 .117

j 8 1 6

j #.994 .105 #.995

k 5 7 8

k .884 *.966 #1.000

l 4 0 0

l .760 .021 .117

m 3 2 1

m .571 .268 .374

n 6 3 6

n *.951 .477 #.995

ñ 6 4 6

ñ *.951 .676 #.995

p 9 7 0

p #.998 *.966 .117

q 2 0 0

q .346 .021 .117

22 資料は Omniglot by Simon Ager: http://www.omniglot.com (2015/11/13) 23 ここでは高頻度に注目するため。上側の有意度が高い数値だけをマークしました。

Page 68: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

67

r 1 9 0

r .148 #.996 .117

s 9 0 2

s #.998 .021 .650

t 5 9 6

t .884 #.996 #.995

v 0 10 4

v .033 #.999 .943

w 3 0 0

w .571 .021 .117

y 1 9 3

y .148 #.996 .844

z 0 0 0

z .033 .021 .117

そこでさらに大きなデータ(『世界人権宣言』の全文)の子音文字の頻

度 (C2),有意得点 (SSMc),逸脱得点 (DSMc)を調べました。

C2 A G M

SiSMc A G M

b 0 253 2

b .000 #1.000 .000

c 141 26 94

c .000 .000 .017

d 0 271 99

d .000 #1.000 .053

f 1 65 0

f .000 .000 .000

g 0 482 19

g .000 #1.000 .000

h 369 214 61

h #1.000 #.999 .000

j 330 0 155

j #1.000 .000 #1.000

k 492 42 420

k #1.000 .000 #1.000

l 104 512 37

l .000 #1.000 .000

m 269 217 82

m #1.000 #1.000 .000

n 474 693 519

n #1.000 #1.000 #1.000

ñ 182 92 231 ñ .111 .000 #1.000

p 358 1 1

p #1.000 .000 .000

q 232 0 1

q #.991 .000 .000

r 236 381 35

r #.996 #1.000 .000

s 394 199 137

s #1.000 *.978 *.976

t 479 205 387

t #1.000 #.993 #1.000

v 0 0 96

v .000 .000 .028

w 183 79 0

w .126 .000 .000

x 0 0 23

x .000 .000 .000

y 140 77 158

y .000 .000 #1.000

z 0 0 1

z .000 .000 .000

その結果,有意得点が 99%を超える数値は 25 個にまで増えました 24。

24 アイマラ語 (Aymara, Bolivia), グアラニ語 (Guarani, Paraguay), ミステコ

語 (Mixteco, Mexico). 資料は United Nations Human Rights のサイト:

http://www.ohchr.org/EN/Pages/WelcomePage.aspx (2015/11/13)

http://www.ohchr.org/EN/UDHR/Pages/SearchByLang.aspx

Page 69: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

68

5.9. 期待得点

ここで提案する期待得点 (Expectation Score: ES)の計算では,次に示す期

待値 (Expected Frequency: EF)を使います 25。期待値はそれぞれのセルの値が

横の和と縦の和から見て,平均に分布しているとすればどのような値とし

て期待されるかを示すものです。「期待される」というよりも「予想され

る」 (expected)と考えたほうがわかりやすいかも知れません。

実測値 v1 v2 v3 v4 v5 和 Shn1

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

和 Sv1p 21 27 27 22 17 総和 St 114

予想される値「期待値」は横和 Sh と縦和 Sv から計算されます。たとえ

ば, d1 の横和 Sh は 62 です。一方, d1 がある v1 の縦和は 21 です。総和

St は 114 ですから, d1:v1 は,横和の 62 のうち,21 / 114 の割合で出てく

ると予想されます。つまり,期待値は 62×(21 / 114) ≒ 11.42 となります。

EFn p = (Srn 1 Sc1 p) / St

EF v1 v2 v3 v4 v5

d1 11.42 14.68 14.68 11.96 9.25

d2 5.34 6.87 6.87 5.60 4.32

d3 2.58 3.32 3.32 2.70 2.09

d4 1.66 2.13 2.13 1.74 1.34

実測値 (Xnp)と期待値 (EFn p)の差 (difference: d),比 (ratio: r),差比 (difference

ratio: dr)で比較したものを比較期待得点 (Comparative Expectation Score:

CES)とよぶことにします。それぞれを次の式で導きます。

CESdn p = Xn p – EFnp

CESrn p = Xn p / EFn p

CESdrn p = (Xn p – EFn p) / EFnp

25 「期待値」 (EF)は一般に「期待度数」とよばれることが多いのですが,ここでは「実測値」と「期待値」を対等に比較する,という意図から両者

に「値」という訳語を使います。この訳語「期待値」も使われています。

「期待値得点」と,以下で扱う得点 (Score)は使われていません。

Page 70: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

69

CESd v1 v2 v3 v4 v5

CESr v1 v2 v3 v4 v5

d1 -1.42 4.32 -0.68 -4.96 2.75

d1 0.88 1.29 0.95 0.59 1.30

d2 5.66 0.13 3.13 -5.60 -3.32

d2 2.06 1.02 1.46 0.00 0.23

d3 -2.58 -3.32 -2.32 9.30 -1.09

d3 0.00 0.00 0.30 4.44 0.48

d4 -1.66 -1.13 -0.13 1.26 1.66

d4 0.00 0.47 0.94 1.73 2.24

CESdr v1 v2 v3 v4 v5

d1 -0.12 0.29 -0.05 -0.41 0.30

d2 1.06 0.02 0.46 -1.00 -0.77

d3 -1.00 -1.00 -0.70 3.44 -0.52

d4 -1.00 -0.53 -0.06 0.73 1.24

比較期待得点は全体の期待値と比較するので,軸のオプション(縦軸,

横軸,両軸,全体)はありません。

●特化係数

下のようなクロス集計表のそれぞれのセルの数値を全体の数値と比較す

る方法として「特化係数」 (specialization coefficient)が使われます。次の表

(D)は渡辺・神田 (2008:172)で想定されたデータ例です。 800 人に,現内閣

を支持するか,しないかを問い,男性と女性の内訳を示しています。

D 支持 不支持 S

男性 230 250 480

女性 120 200 320

T 350 450 800

下左表 (Rr)はそれぞれのセルを横和 (S)で割った比率を示します。そして,

下右表 (Spr)は,それぞれの比率を全体の比率 (T)で割った値です。これが特

化係数となります。

Spr(男性:支持 ) = 比率 (男性:支持 ) / 比率 (比率 ) = .479 / .438 = 1.095

Rr 支持 不支持 S

Spr 支持 不支持 S

男性 0.479 0.521 1.000 男性 1.095 0.926 1.000

女性 0.375 0.625 1.000 女性 0.857 1.111 1.000

T 0.438 0.563 1.000

T 1.000 1.000 1.000

このように特化係数はそれぞれの比率を全体の比率と比較します。それ

ぞれの比率が全体の比率より大であれば 1 以上になり,それが小であれば

1 以下になります。上右表を見ると,とくに女性:支持の特化係数が小さ

いので,この表内では女性固有の特徴であると考えられます。

Page 71: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

70

同様にしてそれぞれの比率と全体の比率を縦和から求めても,次のよう

に同じ結果になります(渡辺・神田 2008:175)。

Rc 支持 不支持 S

Spc 支持 不支持 S

男性 0.657 0.556 0.600 男性 1.095 0.926 1.000

女性 0.343 0.444 0.400 女性 0.857 1.111 1.000

T 1.000 1.000 1.000

T 1.000 1.000 1.000

その理由は次の計算から明らかです。

Spr[ij] = (X[ij] / S[i]) / (T[j] / N) = (X[ij] * N) / (S[i] * T[j])

Spc[ij] = (X[ij] / T[j]) / (S[i] / N) = (X[ij] * N) / (S[i] * T[j])

よって,Spr[ij] = Spc[ij]

ここで X[ij]はデータ,S[i]は横和,T[j]は縦和,N は総和を示します。

上の式を見ると,特化係数は比較期待得点 (比 : CESr)と同じになることが

わかります。

CESr[ij] = X[ij] / E[ij] = X[ij] / (S[i]*T[j]/N) = (X[ij] * N) / (S[i] * T[j])

さて,あらためてデータ行列 (D)と特化係数 (Spr, Spc)を比べると,デー

タ行列では男性の支持数 (230)が男性の不支持数 (250)より小さいのに,特化

係数では逆にそれが大きくなっています (1.095, 0,026)。また,データ行列

の最大値は男性:不支持の 250 ですが,特化係数の最大値は女性:不支持

の 1.111 になっています。データ最大値の男性:不支持の特化係数は 1 以

下です。このように特化係数はデータ行列の大小関係が反映されていない

ことがあります。これは特化係数は全体の比率 (S, T)を考慮に入れて計算す

るためです。データ行列の大小関係を反映させるには,次のような「セル

比率 (C)」(渡辺・神田 2008:178)を使うとよいでしょう。

C[ij] = D[ij] / N

C 支持 不支持 S

男性 0.288 0.313 0.600

女性 0.150 0.250 0.400

T 0.438 0.563 1.000

参考:渡辺美智子・神田智弘 2008『実践ワークショップ Excel 徹底活用統

計データ分析』 (改訂新版 )東京:秀和システム

Page 72: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

71

5.10. 逸脱得点

行列のそれぞれのセルの値がどれほど特異な逸脱度をもつのかを示す得

点を逸脱得点 (Divergent Score: DS)と呼びます。

S1 v1 v2 v3 v4 v5 横軸 平均値(av) 標準偏差(sd)

h1 10 19 14 7 12

h1 12.400 4.030

h2 11 7 10 0 1

h2 5.800 4.534

h3 0 0 1 12 1

h3 2.800 4.622

h4 0 1 2 3 3

h4 1.800 1.166

逸脱得点 (DS)は正規分布累積確率を返す Excel 関数 NORMDIST(x, av, sd,

1)を使って求めます(→確率)。セルの頻度に対応する正規分布累積確率

が非常に低いか,または非常に高いとき,その頻度が「普通ではない」「逸

脱度が高い」と考えます。上表の実測値を使って,たとえば (d1:v1)の行逸

脱得点 DSr(d1:v1)を求めるには

DSr(d1:v1) = NORMDIST(x, av, sd, 1)

= NORMDIST(x, 12.400, 4.030, 1) = .276

全体の計算結果は下左表の行逸脱得点 (DSr)です。

DSr v1 v2 v3 v4 v5

DSc v1 v2 v3 v4 v5

h1 .276 .949 .654 .090 .460

h1 .817 .947 .908 .631 .956

h2 .874 .604 .823 .100 .145

h2 .863 .513 .725 .111 .237

h3 .272 .272 .348 .977 .348

h3 .159 .186 .146 .926 .237

h4 .061 .246 .568 .848 .848

h4 .159 .224 .192 .289 .392

上右表は列逸脱得点 (DSc)です。列逸脱得点の計算では,それぞれの列の

平均と標準偏差を使って正規分布累積確率を計算します。

値 v1 v2 v3 v4 v5

平均値 5.250 6.750 6.750 5.500 4.250

標準偏差 5.262 7.562 5.449 4.500 4.548

両逸脱得点 (DSb)は行逸脱得点 (DSr)と列逸脱得点 (DSc)の幾何平均とし

ます。

DSb(d1:v1) = (DSr * DSc)1 /2 = (.276 * .817)1 /2 = .475

全確率得点 (DSa)の確率は行列全体の平均と標準偏差を使って正規分布

累積確率を計算します。

DSb v1 v2 v3 v4 v5

DSa v1 v2 v3 v4 v5

Page 73: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

72

h1 .475 .948 .771 .238 .663

h1 .776 .991 .929 .591 .867

h2 .868 .557 .772 .105 .185

h2 .826 .591 .776 .157 .203

h3 .208 .225 .225 .951 .288

h3 .157 .157 .203 .867 .203

h4 .099 .235 .330 .495 .576

h4 .157 .203 .257 .317 .317

●逸脱度の大きな得点

確率得点のそれぞれのセルを見れば,その正常性・異常性がわかります

が,得点の行数・列数が多くなるとそれを視認することが困難になります。

そこで確率が 5% (.05)以下と 95%(.95)以上の確率を「逸脱度が高い」と見

なしてアステリスク (*)をつけてマークします。さらに,確率が 1% (.01)以

下と 99%(.99)以上の確率を「とくに逸脱度が高い」と見なしてシャープ (#)

をつけてマークします。

DSMr v1 v2 v3 v4 v5

DSMc v1 v2 v3 v4 v5

h1 .276 .949 .654 .090 .460

h1 .817 .947 .908 .631 *.956

h2 .874 .604 .823 .100 .145

h2 .863 .513 .725 .111 .237

h3 .272 .272 .348 *.977 .348

h3 .159 .186 .146 .926 .237

h4 .061 .246 .568 .848 .848

h4 .159 .224 .192 .289 .392

DSMa v1 v2 v3 v4 v5

h1 .776 #.991 .929 .591 .867

h2 .826 .591 .776 .157 .203

h3 .157 .157 .203 .867 .203

h4 .157 .203 .257 .317 .317

5.11. 順位得点

(1) 昇順位得点

昇順位得点 (Ascending Rank Score: ARS)は最小値を 1 番とした昇順の順

位を示します。

実測値 v1 v2 v3 v4 v5

d1 10 19 14 7 12

d2 11 7 10 0 1

d3 0 0 1 12 1

d4 0 1 2 3 3

Page 74: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

73

ARSr. v1 v2 v3 v4 v5

ARSc. v1 v2 v3 v4 v5

d1 2 5 4 1 3

d1 3 4 4 3 4

d2 5 3 4 1 2

d2 4 3 3 1 1

d3 1 1 3 5 3

d3 1 1 1 4 1

d4 1 2 3 4 4

d4 1 2 2 2 3

ARSa v1 v2 v3 v4 v5

d1 14 20 19 12 17

d2 16 12 14 1 5

d3 1 1 5 17 5

d4 1 5 9 10 10

(2) 降順位得点

降順位得点 (Descending Rank Score: DRS)によって横,縦,全体の範囲で

最大値を 1 番とした降順の順位をつけます。

実測値 v1 v2 v3 v4 v5

d1 10 19 14 7 12

d2 11 7 10 0 1

d3 0 0 1 12 1

d4 0 1 2 3 3

DRSr v1 v2 v3 v4 v5

DRSc v1 v2 v3 v4 v5

d1 4 1 2 5 3

d1 2 1 1 2 1

d2 1 3 2 5 4

d2 1 2 2 4 3

d3 4 4 2 1 2

d3 3 4 4 1 3

d4 5 4 3 1 1

d4 3 3 3 3 2

DRSa v1 v2 v3 v4 v5

d1 6 1 2 8 3

d2 5 8 6 17 13

d3 17 17 13 3 13

d4 17 13 12 10 10

(3) 平均順位得点

たとえば {1, 4, 4, 4, 10}という頻度の昇順位得点は {1, 2, 2, 2, 5}となりま

す 26。このように,同順位 (2)が続くとき,2, 3, 4 の平均 (=3)を求めて,その

26 これは Excel 関数 RANK の方法です。このようなランクは競技や試験などの同点者に対して一律に有利な順位を与えるときに使われます。

Page 75: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

74

順位とする方法を「平均順位得点」 (Mean Rank Score: MRS)とよびます。

この場合の平均順位得点は {1, 3, 3, 3, 5}となります。

ここで a 番目から b 番目の平均順位 (m)は

m = (a + b) / 2

となります 27。上の場合は a = 2, b = 4 なので m = (2 + 4) / 2 = 3。この平均

順位得点のほうが同順位の数値をより現実的に表現していることは,同順

位が多い場合を見るとわかります。たとえば,{1, 4, 4, 4, 4, 4, 10}の順位得

点 {1, 2, 2, 2, 2, 2, 7}よりも平均順位得点 {1, 4, 4, 4, 4, 4, 7}の数値のほうが

正確です 28: (2+6)/2 = 4。順位得点を用いた相関係数や検定では,この平均

順位得点が使われます。平均順位得点にも「昇平均順位得点」 (Ascending

Mean Rank Score: AMRS)と「降平均順位得点」(Descending Mean Rank Score:

DMRS)があります。

■接触言語の子音文字 (2)

先に見たように(→確率得点),ラテンアメリカの先住民言語 Aymara

(Bolivia), Gyuarani (Paraguay), Mextec (Mexico)は文字体系の中にスペイン

語特有の文字エニェ (ñ)を取り入れています。それぞれの言語の子音文字の

中で文字エニェ (ñ)が占める位置を調べるときの 1つの方法として以下のよ

うな降順位得点があります 29。

C Aymara Garifuna Guarani Mazateco Mixteco Otomí Quechua Zapoteco

b 17 6 14 13 17 17 18 4

27 統計学の本では「 a 番目から始まる n 個の同順位 r」の式 r = (a - 1) + (n + 1) / 2 が示されていますが, n = b - a + 1 になるので( b は最後の番), r = (a - 1) + (b - a + 1 + 1) / 2 = (2a - 2 + b + a + 2) / 2 = (a + b) / 2 となります。 a と b を使う式のほうが簡単で r の数値の意味を直ちに理解できます。 28 このように平均順位得点を使えば,この例の 7 位の者が 2-6 位の者が一律に 2 位として扱われることへの不公平感(自分が不利になるわけではない,にもかかわらず,他者が有利になることへの不満)がなくなるはずで

す。 29 アイマラ語 (Aymara, Bolivia), ガリフナ語 (Galifuna, Honduras), グアラニ

語 (Guarani, Paraguay), マサテコ語 (Mazateco, Mexico), ミステコ語 (Mixteco,

Mexico), オトミ語 (Otomí, Mexico), ケチュア語 (Quechua, Peru), サポテコ

語 (Zapoteco, Mexico). 資料は United Nations Human Rights

http://www.ohchr.org/EN/Pages/WelcomePage.aspx (2015/11/13)

このサイトでは数種の Quechua 語が記録されていますが,ここではペルー

の Cusco のバリアントを使いました。

Page 76: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

75

c 13 16 8 11 10 12 9 14

d 17 5 11 8 8 5 16 5

f 16 14 18 15 21 11 19 20

g 17 3 12 6 16 9 17 11

h 5 8 2 12 12 7 10 15

j 7 18 13 2 6 4 13 16

k 1 15 7 3 2 3 5 2

l 15 2 15 17 13 19 8 9

m 8 7 6 9 11 8 11 8

n 3 1 9 1 1 1 1 1

ñ 12 11 16 16 4 14 15 18

p 6 17 3 19 18 15 4 13

q 10 18 20 19 18 20 2 20

r 9 4 1 14 14 6 12 9

s 4 10 17 7 7 18 3 6

t 2 9 4 4 3 2 7 3

v 17 18 5 18 9 20 21 19

w 11 12 20 19 21 20 14 20

x 17 18 20 5 15 16 22 7

y 14 13 10 10 5 10 6 12

z 17 18 19 19 18 12 19 16

文字エニェ (ñ)は,どの言語でも比較的低い頻度順位を示しますが,メキ

シコの Mixteco 語では非常に高い順位 (n, k, t につづく 4 位 )になっています。

その語内の出現位置を調べると語頭位置 (#ñ&)での頻度が高いことがわかり

ます(184)。文字エニェ (ñ)を使う接触言語の特徴として,語頭位置 (#ñ&)に硬

口蓋鼻音 [ɲ]が現れることがあげられます。例: ña (Otomí), ña-i (Mixteco),

ñambohasa (Guarani). これは文字エニェ (ñ)を生成したスペイン語(語中に限

る)にはなかった特徴です。

Lengua #ñ& &ñ& &ñ# Total

Aymara 6 160 9 175

Garifuna 14 76

90

Guarani 16 60

76

Mazateco

8

8

Mixteco 184 44 2 230

Otomí 28 38

66

Quechua (Cuzco) 31 19

50

Zapoteco 3

3

Total 282 405 11 698

Page 77: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

76

5.12. 連関得点

後述する各種の連関係数 (Coefficient of Association)を応用して,行と列

の連関性を示す得点を連関得点 (Association Score: AS)とよびます。連関得

点の計算には An p , Bn p , Cn p , Dnpという行列が必要です。An pは行と列がどち

らも選択されている個数 (+/+)と見なします。これは入力行列 Xnpと同じで

す。Bn pは行が選択され列が選択されていない個数を示し (+/-),Cnpは逆に,

行が選択されず列が選択されていない個数を示します (-/+)。そして,Dnp

は行も列も選択されていない個数を示します (-/-)。

実測値 v1 v2 v3 v4 v5 和 Sh

d1 10 19 14 7 12 62

d2 11 7 10 0 1 29

d3 0 0 1 12 1 14

d4 0 1 2 3 3 9

和 Sv 21 27 27 22 17 T: 114

たとえば, d1:v1 の 10 を, d1(+):v1(+)の回数 (A:+/+)とみなします。

d1(+):v1(–)の回数 (B:+/–)は,横和 (Sh) – X (10) = 62 – 10 = 52 になります。

また, d1(–):v1(+)の回数 (C:–/+)は,縦和 (Sv) – 10 = 21 – 10 = 11 です。そし

て d1(–):v1(–)の回数 (D:–/–)は,総和 (T)から A+B+C を引けば求めることが

できます (D=114 – (10+52+11) = 41)。

実測値 v1 v2 v3 v4 v5

d1 A:10 B:52

d2

C:11 D:41 d3

d4

ほかの成分についても同様に A, B, C, D の値が求められます。たとえば,

d2:v2 については,

実測値 v1 v2 v3 v4 v5

d1 D:10 C:19 D:33

d2 B:11 A:7 B:11

d3 D:0 C:1 D:22

d4

そこで,次の行列を用意します。

An p = Xnp

Bn p = Shn 1 – Xnp

Page 78: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

77

Cn p = Svp – Xn p

Dn p = S − An p – Bnp − Cn p

Anp v1 v2 v3 v4 v5

Bnp v1 v2 v3 v4 v5

d1 10 19 14 7 12

d1 52 43 48 55 50

d2 11 7 10 0 1

d2 18 22 19 29 28

d3 0 0 1 12 1

d3 14 14 13 2 13

d4 0 1 2 3 3

d4 9 8 7 6 6

Cnp v1 v2 v3 v4 v5

Dnp v1 v2 v3 v4 v5

d1 11 8 13 15 5

d1 41 44 39 37 47

d2 10 20 17 22 16

d2 75 65 68 63 69

d3 21 27 26 10 16

d3 79 73 74 90 84

d4 21 26 25 19 14

d4 84 79 80 86 91

この A, B, C, D という行列を用いて,それぞれのセルに該当する連関係

数を求め,これを連関係数得点 (Association Score: AS)とよぶことにします。

たとえば,次は単純一致係数 (Simple matching coefficient)を使った単純一致

係数得点 (Simple matching score: AS.Sm)を示します。S.m.s.は D 値を重視す

るため,全体に数値が高くなる傾向があります。

AS.Sm = (An p + Dn p) / (An p+ Bn p + Cn p + Dn p)

AS.Sm v1 v2 v3 v4 v5

d1 .447 .553 .465 .386 .518

d2 .754 .632 .684 .553 .614

d3 .693 .640 .658 .895 .746

d4 .737 .702 .719 .781 .825

次は Jaccard 係数得点 (AS.J)と Jaccard-2 係数得点 (AS.J2)です。

AS.J = An p / (An p + Bnp + Cn p)

AS.J2 = An p*2 / (An p*2 + Bn p + Cnp)

AS.J v1 v2 v3 v4 v5

AS.J2 v1 v2 v3 v4 v5

d1 .137 .271 .187 .091 .179

d1 .241 .427 .315 .167 .304

d2 .282 .143 .217 .000 .022

d2 .440 .250 .357 .000 .043

d3 .000 .000 .025 .500 .033

d3 .000 .000 .049 .667 .065

d4 .000 .029 .059 .107 .130

d4 .000 .056 .111 .194 .231

次は Russel & Rao 係数得点 (RR)と Russel & Rao-3 係数得点 (RR3)です。

Page 79: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

78

AS.RR = An p / (An p + Bnp + Cn p + Dnp)

AS.RR3 = An p*3 / (An p*3 + Bn p + Cnp + Dn p)

AS.RR v1 v2 v3 v4 v5

AS.RR3 v1 v2 v3 v4 v5

d1 .088 .167 .123 .061 .105

d1 .224 .375 .296 .164 .261

d2 .096 .061 .088 .000 .009

d2 .243 .164 .224 .000 .026

d3 .000 .000 .009 .105 .009

d3 .000 .000 .026 .261 .026

d4 .000 .009 .018 .026 .026

d4 .000 .026 .051 .075 .075

次は Hamann 係数得点 (AS.H)と Yule 係数得点 (AS.Y).です。

AS.H = [(An p + Dnp) – (Bn p + Cnp)] / [(An p + Dnp) + (Bnp + Cn p)]

AS.Y = [(An p * Dn p) – (Bnp * Cnp)] / [(An p * Dn p) + (Bn p * Cn p)]

AS.H v1 v2 v3 v4 v5

AS.Y. v1 v2 v3 v4 v5

d1 -.105 .105 -.070 -.228 .035

d1 -.165 .417 -.067 -.522 .386

d2 .509 .263 .368 .105 .228

d2 .642 .017 .356 -1.000 -.733

d3 .386 .281 .316 .789 .491

d3 -1.000 -1.000 -.641 .964 -.425

d4 .474 .404 .439 .561 .649

d4 -1.000 -.449 -.045 .387 .529

次は Phi 係数得点 (AS.Ph)と Ochiai 係数得点 (AS.O)です。

AS.Ph = [(An p * Dn p) – (Bn p * Cn p)]

/ [(An p + Bn p)*(Cn p+Dn p)*(An p+Cn p)*(Bn p+Dn p)]1 /2

AS.O = Sn p / [(An p + Bn p)*(An p+Cn p)]1 /2

AS.Ph. v1 v2 v3 v4 v5

AS.O v1 v2 v3 v4 v5

d1 -.065 .179 -.028 -.222 .136

d1 .277 .464 .342 .190 .370

d2 .294 .006 .148 -.286 -.188

d2 .446 .250 .357 .000 .045

d3 -.178 -.208 -.146 .630 -.082

d3 .000 .000 .051 .684 .065

d4 -.139 -.087 -.010 .104 .151

d4 .000 .064 .128 .213 .243

次は Ueda.ac 係数得点 (AS.U.ac)です。

AS.U.ac = [An p * 2 – (Bnp + Cnp)] / [An p * 2 + (Bn p + Cnp)]

AS.U.ac v1 v2 v3 v4 v5

d1 -.518 -.146 -.371 -.667 -.392

d2 -.120 -.500 -.286 -1.000 -.913

d3 -1.000 -1.000 -.902 .333 -.871

d4 -1.000 -.889 -.778 -.613 -.538

Ueda 係数得点 (AS.U.ac)は,ほとんどの得点が負になっています。これは

Page 80: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

79

ふつう分子の 2Aよりも B+Cが多いからです。ここで,とくに d3:v4の値 .333

に注目すると,この数値は反例 (B, C)がありながらも,d3 と v4 の間に一定

の関係があることがわかります。それぞれの連関係数の特徴については後

述します(→「相関」「連関係数」)。

5.13. 平滑得点

次の表 (Y)は横に等間隔で連続する系列で(たとえば時系列),数値 D

を記録した例です。このように数値の上下振動がある推移を移動しながら

平均化した得点を「平滑得点」(Smooth Score)と呼びます。そのために「反

復移動平均」(Recursive Moving Average: RMA)と呼ぶ方法を使います 30。「移

動平均値」(moving average)は,それぞれの数値とその前と後ろにそれぞれ

k 個の数値の平均値ですが,反復移動平均では k を 1 に設定して, 直前・

直後に連続する両側の数値の平均値を使います。これは「 3 項平均値」

(three-term average)と呼ばれます。 v1 は直前にデータがないので,直前デ

ータとして該当データを代入して平均値を計算します。最後の v15 は直後

にデータがないので,直後のデータととして該当データを使って平均値を

計算します。たとえば RMA.1 の最初の数値 26.7 は直前の値がないので

(29+29+22)/3で求めます。次の 35.3は直前と直後の値を使って (29+22+55)/3

です。その次は (22+55+15)/3 = 30.7 になります。以下同様に 3 つの数値の

平均を計算し,右端の 6.7 は当該データを繰り返した 3 つの数値の平均で

求めます( (20+0+0)/3)。

このように元の数値 (D)にあるある振動が,RMA.1 の 3 項平均値によっ

て「ならされて」平滑化します。しかし,それでも RMA.1 の各項にはまだ

少し振動が残っているようです。そこで次の RMA.2 では,今求めた RMA.1

について同じ計算をします。たとえば, (26.7+26.7+35.3)/2 = 30.4; (25.5

+35.3+30.7)/3 = 30.5; (35.3+30.7+32.3)/3 = 32.8。そして,RMA.3 は RMA.2

について同じ計算をします。以下同様の反復計算によって次第に数値の並

びに振動が減り平準化の程度が高くなります。

Y v1 v2 v3 v4 v5 v6 v7 v8 v9 v1 0 v1 1 v1 2 v1 3 v1 4 v1 5

D 29 22 55 15 27 45 3 5 9 1 3 17 5 20 0

RMA.1 26.7 35.3 30.7 32.3 29 25 17.7 5.7 5 4.3 7 8.3 14 8.3 6.7

RMA.2 30.3 30.9 32.8 30.7 28.8 23.9 16.1 9.4 5.0 5.4 6.6 9.8 10.2 9.7 5.0

RMA.3 30.1 31.3 31.4 30.7 27.8 22.9 16.5 10.2 6.6 5.7 7.3 8.9 9.9 8.3 4.9

次のグラフを見ると,データ (D)の振動が移動平均値を 1 回計算した

RMA.1 でかなり平滑化されています 31。さらに反復計算を 2 回実行した

30 佐竹元一郎(編) (2004)『経済の統計的分析』(中央経済社) p. 74-91を参照しました。 31 Excel で折れ線グラフの線を滑らかにするには,グラフ上の折れ線を右

Page 81: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

80

RMA.2 では平滑化の効果が顕著です。RMA.3 は RMA.2 とほとんど差があ

りません。それでも平滑化を続けることは可能ですが,あまり続けすぎる

と平滑線は単調な線になります。平滑曲線はデータの平均的な推移を示す

ので,平均であることと推移を示すこと,という背反する性質を共にバラ

ンスよく示すようにしなければなりません。単調な平滑線は平均であるこ

とだけが強調されて推移の情報が犠牲にされています。

移動平均はデータの両側の数値を含んだ平均値を使うので,反復数が少

ないときデータの値と逆向きになることがあります。このグラフでは赤線

で示した RCA.1の v2が本来ならば下向きになるはずですが上向きになり,

逆に上向きのはずの v3 がやや下向きになっています。この反転現象はデー

タの解釈をミスリードする可能性があるので(たとえば「 v2 の時点でデー

タの数値が上がる」というような解釈),プログラムの反復数を 3 回に設

定しました。

このように反復移動平均は個々のデータの変動よりも,むしろ全体的な

推移の傾向を見るために使います。とくに連続した時系列データの分析の

ために有用です。そして,歴史資料などを扱う際,完全な資料がないため

特定の年代のデータに欠損値があったり,大きな外れ値があったりすると

きに移動平均値が役立ちます。

●行列全体の反復移動平均

反復移動平均を行列全体で計算するには 32,当該のセルとそれに連続す

る上下左右のデータの平均値を,すべてのセルについて求めます。たとえ

ば下左表の h2:v2 の移動平均値は (7+19+0+11+10)/5 = 9.4 です。上下左右に

データのないセルについては,当該セルの値を補充して平均値を計算しま

クリックし,「データ系列の書式設定」→「線のスタイル」→「スムージ

ング」にチェックを入れて「閉じる」をクリックします。 32 データ行列の行と列は,たとえば学年 (h)と外国語試験の点数 (v)のように,それぞれ等間隔で推移するものでなければなりません。

0

10

20

30

40

50

60

v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15

D

RMA.1

RMA.2

RMA.3

Page 82: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

81

す。以下に反復数が 1 回 (RMA.1),2 回 (RMA.1),3 回 (RMA.3)のそれぞれ

の移動平均の計算結果とグラフを示します。次第にスムーズな推移になり

ます。

S1 v1 v2 v3 v4 v5

RMA.1 v1 v2 v3 v4 v5

h1 10 19 14 7 12

h1 12.0 13.8 12.8 8.0 12.0

h2 11 7 10 0 1

h2 7.8 9.4 6.4 6.0 1.0

h3 0 0 1 12 1

h3 2.2 1.8 5.0 3.4 1.0

h4 0 1 2 3 3

h4 .0 1.0 2.0 3.0 3.0

RMA.2 v1 v2 v3 v4 v5

RMA.3 v1 v2 v3 v4 v5

h1 10.7 13.4 11.0 8.5 12.0

h1 10.5 12.4 11.0 8.1 12.0

h2 8.5 7.8 7.9 5.4 1.0

h2 8.1 8.3 7.2 6.2 1.0

h3 2.4 3.8 3.7 4.5 1.0

h3 3.1 3.8 4.6 3.9 1.0

h4 .0 1.0 2.0 3.0 3.0

h4 .0 1.0 2.0 3.0 3.0

●移動平均

芝他 (1984:9)は「時系列データから偶然誤差による変動を除き,時間 t j

(j=1, …, n)に関する滑らかなトレンドを得るための方法」として,次の「移

動平均」 (moving average: m i)の式を提示しています。

m i = 12𝑘+1 ∑ 𝑥𝑗𝑖+𝑘𝑖−𝑘 (i = k+1, k+2, …, n - k)

ここで,k は 1, 2, ... , n/2 の中の任意の整数,n はデータ数です。よって,

h1

h2

h3

h4

.00

5.00

10.00

15.00

20.00

v1v2

v3v4

v5

h1

h2

h3

h4 h1

h2

h3

h4

.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

v1v2

v3v4

v5

h1

h2

h3

h4

h1

h2

h3

h4

.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

v1v2

v3v4

v5

h1

h2

h3

h4 h1

h2

h3

h4

.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

v1v2

v3v4

v5

h1

h2

h3

h4

Page 83: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

82

それぞれの i について, i-k から i+k までの和を 2k+1 で割って平均値を求

めます(和を 2kではなく 2k+1で割る理由は x jの値も含めているからです)。

なお,Excel で計算する移動平均 m i(Excel)は次の式のように x jと先行す

る k 個のデータの平均値を使っています。

m.Excel i = 1𝑘+1 ∑ 𝑥𝑗𝑖𝑖−𝑘 (i = k+1, k+2, …, n - k)

次は Excel の「2 区間移動平均」のグラフです 33。移動平均値なので x 軸

の 1 は計算から除外され,グラフ線は x 軸の 2 から開始します。

このように,芝他 (1984:9)の移動平均ではデータ全体の両端の値がなく,

Excel の移動平均では左端の値がないため,反復計算には向いていません 34。

また,とくに x 軸の値が少ないデータを扱うとき両端または左端が欠けて

いると,その解釈ができなくなり,大きな情報を失います 35。そこで反復

移動平均法では両端または左端であってもそこで使えるデータを考慮する,

という方針で平均値の計算に組み込みました。

●反復移動平均の構成

移動平均の計算では k = 1, 2, ...として変化させて平滑化しますが, k = 1

で固定する移動平均の計算では,反復計算によって数値の推移を平滑にし

ます。この理由は広い範囲のデータを使うのではなく,当該のデータの直

前・直後に連続するデータの情報を重視するためです。このことを確かめ

るために,反復数 (R)が増加するにつれて中央付近の移動平均 x{C}の計算

33 グラフで「散布図」→「平滑線とマーカー」を選択し,平滑線を選択し右クリック「近似曲線の追加」から「移動平均」を選択し,「区間」 (k)を2 とします。 34 反復のたびに両端または左端の値が失われてデータの規模が小さくなります。 35 とくに区間 (k)の値を大きくすると欠損部が拡大していきます。

0

10

20

30

40

50

60

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

D

D

2 区間移動平均 (D)

Page 84: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

83

に組み込まれるデータと,その重み(係数)を見ましょう。

反復数 (R) = 1 の中央移動平均 m{C:1 }iは

m{C:1 }i = (x i -1 + x i + x i+1) / 3

反復数 (R) = 2 の中央移動平均 m{C:2 }iは

m{C:2 }i = (x{C:1 }

i-1 + x{C:1 }i + x{C:1 }

i+1) / 3

= [(x i -2 + x i -1 + x i) / 3

+ (x i -1 + x i + x i+1) / 3

+ (x i + x i+1 + x i+2) / 3 ] / 3

= (x i -2 + 2x i -1 + 3x i + 2x i+1 + x i+2) / 9

反復数 (R) = 3 の中央移動平均 m{C:3 }iは

m{C:3 }i = (x{C:2 }

i-1 + x{C:2 }i + x{C:2 }

i+1) / 3

= [(x i -3 + 2x i -2 + 3x i -1 + 2x i + x i+1) / 9

+ (x i -2 + 2x i -1 + 3x i + 2x i+1 + x i+2) / 9

+ (x i -1 + 2x i + 3x i+1 + 2x i+2 + x i+3) / 9] / 3

= (x i -3 + 3x i -2 + 6x i -1 + 7x i + 6x i+1 + 3x i+2 + x i+3) / 27

このように反復数 (R)が増えるにつれて,移動平均の計算に組み込まれる

データが数が増加します。そしてそれぞれのデータに加重される係数(重

み)は中心が最大で,中心から離れるにつれて減少しますが,その現象の

仕方が直線的ではなく急降下していくことがわかりました 36。このことは,

左端の移動平均 (i = 1)でも,右端の移動平均 (i = n)でも同様です。左端の移

動平均 x{L}について見ます。

反復数 (R) = 1 の左端移動平均 m{L:1 }iは

x{L:1 }i = (x i + x i + x i+1) / 3

反復数 (R) = 2 の左端移動平均 m{L:2 }iは

m{L:2 }i = (x{L:1 }

i + x{L:1 }i + x{L:1 }

i+1) / 3

= [(x i + x i + x i) / 3

+ (x i + x i + x i+1) / 3

+ (x i + x i+1 + x i+2) / 3 ] / 3

= (6x i + 2x i+1 + x i+2) / 9

36 移動平均の分母はそれぞれの係数(重み)の和になります。

Page 85: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

84

反復数 (R) = 3 の左端移動平均 m{L:3 }iは

m{L:3 }i = (x{L:2 }

i + x{L:2 }i + x{L:2 }

i+1) / 3

= [(6x i + 2x i+1 + x i+2) / 9

+ (6x i + 2x i+1 + x i+2) / 9

+ (6x i+1 + 2x i+2 + x i+3) / 9] / 3

= (12x i + 10x i+1 + 4x i+2 + x i+3) / 27

同様にして右端移動平均 x{R:3 }iは

m{R:3 }i = (x i -3 + 4x i -2 + 10x i -1 + 12x i) / 27

いずれにしても,当該データ xi に最大の重みを加重し,遠ざかるにつれ

て加重量は急降下します 37。

このことは両端から 2 番目と 3 番目のデータについても同様です。プロ

グラムでは両端の左右に両端のデータを加えたデータで統一して反復数

(R) = 3 の中央移動平均を計算します。

5.14. 階級得点

実測値を一定の大きさの階級に分けて,階級ごとの度数を計算したもの

37 なお,左端や右端の移動平均値として,

m'{L :1 }i = (x i + x i+1) / 2

m'{R :1 }i = (x i -1 + x i) / 2

の式を使うと,反復数を増やすと次のように,当該の両端データの優先

的加重がなされません。

反復数 (R) = 2 の左端移動平均は

m'{L:2 }i = (x'{L:1 }

i + x '{L:1 }i+1) / 2

= [((x i + x i+1) / 2

+ (x i+1 + x i+2) / 2 ] / 2

= (x i + 2x i+1 + x i+2) / 4

反復数 (R) = 3 の左端移動平均は

m'{L:3 }i = (x'{L:2 }

i+ x '{L :2 }i+1) / 2

= [(x i + 2x i+1 + x i+2) / 4

+ (x i+1 + 2x i+2 + x i+3) / 4] / 2

= (x i + 3x i+1 + 3x i+2 + x i+3) / 8

Page 86: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

85

を階級得点 (Class Score)とよびます。はじめに横軸による階級得点の例を

見ます (階級幅を 10 とします )。

D v1 v2 v3

Cl 20 ~ 30 ~ 40 ~ 50 ~ 60 ~ 70 ~ 80 ~ 90 ~ 100 ~

d1 45 48 66

d1 2 1

d2 56 59 54

d2

3

d3 58 51 78

d3

2

1

d4 77 72 20

d4 1

2

d5 43 44 32

d5 1 2

d6 58 34 90

d6 1

1

1

d7 50 53 100

d7 2 1

たとえば, d1 行 {45, 48, 66}の成分は,それぞれ 40, 40, 60 の階級に入る

ので,40 の階級の度数が 2 になり,60 の階級の度数が 1 になります。上右

表全体を見ると,どの階級で比較的頻度が高いのかを観察することができ

ます。

次は同じデータで,縦軸による階級得点の表です。

Cl v1 v2 v3

20 ~ 1

30 ~ 1 1

40 ~ 2 2

50 ~ 4 3 1

60 ~

1

70 ~ 1 1 1

80 ~

90 ~

1

100 ~ 1

今度は, v1, v2, v3 のそれぞれの列の階級の分布の様子がわかります。

最後に見るのは次の,両軸による階級得点です。

v1/v2 30 ~ 40 ~ 50 ~ 60 ~ 70 ~

40 ~ 2

50 ~ 1

3

60 ~

70 ~ 1

このように,縦軸の v1 と v2 の階級を縦と横の両軸に置いて,それぞれ

の階級がクロスする位置に該当する度数を入れます。この表は一般に「相

関表」とよばれています。

Page 87: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

86

5.15. 補充得点

(1) 隣接値による欠損値補充

データ行列に欠測値があるとき,隣接の値を参照することが可能である

と判断したときに使用します。これはとくに集中化されたデータ行列で有

効です(→「集中」)。隣接値の平均値を使ってデータ行列(下左表)の

欠測値を補充します(下右表)。

P2 v-1 v-2 v-3 v-4

P2 v-1 v-2 v-3 v-4

d-1 1 1 2

d-1 1 1 2 1

d-2 2 3 4

d-2 2 2 3 4

d-3 1 3 2

d-3 1 3 2 1

d-4 3 2 4

d-4 3 2 2 4

d-5 2 3 2 4

d-5 2 3 2 4

欠測値のある欠測値を含めてセルの上下左右の値の平均値で補充します。

上下左右のセルに値があれば,4 つの値を足して 5 で割りますが,行列の

端に位置するセルの場合は隣接する値の数 +1 で割ります。結果は他のセル

を揃えるために四捨五入して整数部だけを出力します。補充は 1 回だけで

なく可能な限り繰り返します。隣接値として列,行,両軸の選択ができま

す。

(2) 期待値による欠損値補充

期待値(→ 3.7)を使ってデータ行列の欠測値を補充します。次の例では

「 3.活動」の「 a.効果」の値 48 を x とします。これを期待値で補充すると,

47.52 という近似値を得ます。

項目 a.効果 b.楽しい 項目 a.効果 b.楽しい

1.文法解説 86 29

1.文法解説 86.00 29.00

2.ビデオ 53 78

2.ビデオ 53.00 78.00

3.活動 x 53

3.活動 47.52 53.00

4.映画 43 96

4.映画 43.00 96.00

*この例では,次の期待値の式から x を直接求めることができます。

En p[期待値 ]=Sn [横和 ] * Tp [縦和 ]/T [総和 ]

x = (86 + 53 + x + 43)(x + 53) / (86 + 53 + x + 43 + 29 + 78 + 53 + 96)

x = (182 + x) (53 + x) / (438 + x)

438x + x2 = 9646 + 235x + x 2

203x = 9646

Page 88: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

87

x = 47.52

複数の欠測値があるときは,このような簡単な計算ができないので,プロ

グラムで収束するまで繰り返します。

5.16. 対数得点

言語単位の出現頻度には非常に大きな差異が観察されることがあります。

出現頻度に桁違いに大きな差異があるときには,対数の底を 10 にして,そ

の桁数を比較することが有効です。また,桁の違いほど大きくなければ,

対数の底を 2 にすることも考えられます。

次はスペイン語テキスト中の文字の頻度を対数(底:2)に変換した表で

す。左表にはゼロ, 2, 3 などという非常に少ない頻度の文字と e, a, o など

の高頻度の文字 (3068, 2928, 2060)がありますが,それらを対数変換をする

と比較しやすい数値に変わりました。

Form 1_Madrid Log(2) 1_Madrid

a 2925

a 11.5

b 326 b 8.3

c 834

c 9.7

d 978 d 9.9

e 3068

e 11.6

f 117 f 6.9

g 298

g 8.2

h 299 h 8.2

i 1143

i 10.2

j 124 j 7.0

k 3

k 1.6

l 1153 l 10.2

m 748

m 9.5

n 1438 n 10.5

o 2060

o 11.0

p 641 p 9.3

q 335

q 8.4

r 1452 r 10.5

s 1853

s 10.9

t 1053 t 10.0

u 989

u 9.9

v 301 v 8.2

w 0

w .0

Page 89: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

88

x 17 x 4.1

y 367

y 8.5

z 71 z 6.1

á 125

á 7.0

é 152 é 7.2

í 217

í 7.8

ñ 57 ñ 5.8

ó 112

ó 6.8

ú 35 ú 5.1

ü 2

ü 1.0

5.17. 名義行列

下左表のような名義を成分とする行列を名義行列 (Nominal Matrix)と呼び

ます。 Lt.Oc.のように名義の出現を示す名義行列を名義出現行列 (Nominal

Occurrence Matrix)と呼び,Lt.Fq.のように名義ごとの頻度を示す名義行列

を名義頻度行列 (Nominal Frequency Matrix)と呼び,Lt.Dt.のように,カテ

ゴリー (d1, d2, …, dn)ごとの分布を示す名義行列を名義分布行列 (Nominal

Distribution Matrix)と呼びます。これらを用いて,後述するさまざまな分析

をします。

Lt.Oc. v1 v2 v3 v4

Lt.Oc. > Lt.Dt. v1 v2 v3 v4

d1 A A,B B C

d1:A v v

d2 B,D B,C,D C D

d1:B v v

d3 A,B C B C

d1:C

v

d4 C C,D C A

d2:B v v

d5 B C B,C B,C,D

d2:D v v

v

d2:C v v

Lt.Oc. > Lt.Fq. v1 v2 v3 v4

d3:A v

A 2 1 1

d3:B v

v

B 3 2 3 1

d3:C v

v

C 1 4 3 3

d4:C v v v

D 1 2 2

d4:D v

d4:A

v

d5:B v

v v

d5:C v v v

d5:D v

●質的データ

量的データを質的データに変換したり,質的データの表示形式を変えた

Page 90: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

89

りするための操作です。

(1) データの 50 以上の数値 (A)を 1 に変換します。 50 未満を 0 とします。

項目 a.効果 b.楽しい 項目 a.効果 b.楽しい

1.文法解説 86 29

1.文法解説 1 0

2.ビデオ 53 78

2.ビデオ 1 1

3.活動 48 53

3.活動 0 1

4.映画 43 96

4.映画 0 1

(2) 上右表の 1/0 を v/(空白 )に変換します(下左)。また, v/(空白 )を 1/0

に戻します(下右)。

項目 a.効果 b.楽しい 項目 a.効果 b.楽しい

1.文法解説 v

1.文法解説 1 0

2.ビデオ v v

2.ビデオ 1 1

3.活動

v

3.活動 0 1

4.映画

v

4.映画 0 1

5.17.1. 名義行列の数量化

下左表 (D1)は名義尺度の行列です。このそれぞれの名義尺度を列内のパ

ーセントで数値化します。たとえば,x1 列の A は 2 個あるので,2/5 = .4 *

100 = 40 となります。プログラムは,それぞれの名義の相対頻度を計算し

て下右表 (Qr)を出力します。この方法を名義尺度の割合による数量化

(Quantification of nominal scale by ratio)と呼びます。

D1 x1 x2 x3

Qr x1 x2 x3

d1 A D K

d1 40 60 80

d2 A D K

d2 40 60 80

d3 B D K

d3 60 60 80

d4 B E L

d4 60 40 20

d5 B E K

d5 60 40 80

下左表 (D2)では説明変数 x1, x2, x3 が名義尺度であり,最終列 (目的変

数: y)が数量です。この名義尺度説明変数を,最終列の該当する初出値に

よって数量化します 38。

38 これを全体の平均値だけにすると {x3: K, L, L, L, K}の全部の成分が 7 になるので,これらを初期値 K:5, L:6 で差異化します。

Page 91: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

90

D2 x1 x2 x3 y

Qf x1 x2 x3 Y

d1 A D K 5

d1 5 5 5 5

d2 A D L 6

d2 5 5 5 6

d3 B D L 7

d3 7 5 5 7

d4 B E K 8

d4 7 8 8 8

d5 B E K 9

d5 7 8 5 9

たとえば,x1:A は d1:5, d2:6 にあるので,A に初出の d1:5 を割り当てま

す。d2:A についても同様です。d3:B は d3:7, d4:8, d5:9 の中から初出の d3:7

を割り当てます。プログラムはこの計算をすべてのセルについて実行し上

右表 (Q)を出力します。この方法を名 義尺度の 初出値に よる数 量化

(Quantification of nominal scale by first value)と呼びます。

下左表 (D3)の名義尺度を,それぞれに対応する最終列の値の平均値に変

えます。たとえば,x1:A は最終列 (y)の d1:5 と d2:6 の平均値を割り当てま

す。 x2:A も同じです。B は d3, d4, d5 にあるので,7, 8, 9 の平均値 8 を割

り当てます。この方法を名義尺度の平均による数量化 (Quantification of

nominal scale by mean)と呼びます。

D3 x1 x2 x3 y

Q.m x1 x2 x3 y

d1 A D K 5

d1 5.50 6.00 6.75 5

d2 A D K 6

d2 5.50 6.00 6.75 6

d3 B D K 7

d3 8.00 6.00 6.75 7

d4 B E L 8

d4 8.00 8.50 8.00 8

d5 B E K 9

d5 8.00 8.50 6.75 9

下左表 (D3)では説明変数 x1, x2, x3 も最終列 (目的変数: y)も名義尺度で

す。ここでは,最終行のそれぞれの成分 {y: X, X, Y, Y, Z}に,連続番号を

割り当てて {y: 1, 1, 2, 2, 3}とします。次に,名義尺度説明変数 x1, x2, x3

を,先と同じように,たとえば最終列の平均によって数量化します (出力:

N)。この方法を名義尺度の名義尺度による数量化 (Quantification of nominal

scale by nominal scale)と呼びます。

D3 x1 x2 x3 y

N x1 x2 x3 y

d1 A D K X

d1 1.00 1.33 1.75 1

d2 A D L X

d2 1.00 1.33 1.75 1

d3 B D L Y

d3 2.33 1.33 1.75 2

d4 B E K Y

d4 2.33 2.50 2.00 2

d5 B E K Z

d5 2.33 2.50 1.75 3

下左表 (D)のデータと一致する表頭を列を独立させて作り,該当するセル

を 1 とし,それ以外のセルを 0 とします。この方法をダミーによる数量化

(Quantification by dummy)と呼びます。

Page 92: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

91

D x1 x2 x3

Qd A B D E K L

d1 A D K

d1 1 0 1 0 1 0

d2 A D K

d2 1 0 1 0 1 0

d3 B D K

d3 0 1 1 0 1 0

d4 B E L

d4 0 1 0 1 0 1

d5 B E K

d5 0 1 0 1 1 0

下左表 (D)の縦に探索して異なるデータに連番をつける方法を連番による

数量化 (Quantification by sequencial number)と呼びます。

D x1 x2 x3

S x1 x2 x3

d1 A D K

d1 1 1 1

d2 A D K

d2 1 1 1

d3 B D K

d3 2 1 1

d4 B E L

d4 2 2 2

d5 B E K

d5 2 2 1

下左表の表頭 (A, E, L)と一致するセルを 1 とし,それ以外のセルを 0 と

します。この方法を表頭による数量化 (Quantification by top title)と呼びます。

D4 A E L

Qt A E L

d1 A D K

d1 1 0 0

d2 A D K

d2 1 0 0

d3 B D K

d3 0 0 0

d4 B E L

d4 0 1 1

d5 B E K

d5 0 1 0

■年代による言語形式の数量化

名義尺度を数量化するときは,数量化の基準値を選択する理由・根拠が

なければなりません。ここでは,名義が数値を得る理由として歴史的言語

形式の年代を考えます。次の下左表 (D)は N 列に nn, <n>n, n<n>, ny, ñ など

の古スペイン語バリアント,Form列が具体的な形式,P列が文書の発行地,

T 列が文書類(国事尚書・裁判記録 J・教会文書 E・私文書 P),Y 列が発

行年代を示します。

D N Form P T Y

D N Y

d1 ny adanyo Zaragoza P 1369

d1 1443.7 1369.0

d2 n<n> an<n>o Zaragoza E 1356

d2 1387.6 1356.0

d3 n<n> an<n>o Burgos J 1521

d3 1387.6 1521.0

d4 n<n> dan<n>o Jaén P 1521

d4 1387.6 1521.0

d5 nn dannaia Burgos P 1096

d5 1260.3 1096.0

Page 93: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

92

d1:ny は 1369 年に発行された文書で見つかったバリアントですが,この

ny は他の年代の文書にも存在するので,ny がある全文書の年代の平均値を

求め ny の平均年代とします。名義尺度数量化の結果 (上右表 ),ny は 1369.0

という平均年代が与えられました。

上表の N だけの平均年代を求め,発行地 (P)・文書類 (T)の平均年代を求

めませんでした。その理由は,発行地 (P)や文書類 (T)が発行年代 (Y)と関連

しないためです。たとえば d1:Zaragoza は 1369 年に発行された文書を示し

ていますが,Zaragoza 発行の文書は ny の有無に拘わらず広範囲の年代に分

布します。文書類 (T)と年代 (Y)についても同じで,その年代分布はさらに

広範囲です。発行地 (P)と文書類 (T)が参照すべき数値は発行年 (Y)ではなく,

先に数量化された言語バリアント (N)の値です。なぜなら,たとえば

d1:Zaragoza の平均年代が言語バリアント (N)の年代の線上で占める位置を

問題にしているからです。プログラムは次を出力します。

D Form Y P T N

d8016 adanyo 1369 1333.2 1368.3 1387.6

d7674 an<n>o 1356 1393.6 1397.3 1387.6

d13183 an<n>o 1521 1333.2 1426.5 1387.6

d13185 dan<n>o 1521 1333.2 1397.3 1387.6

d102 dannaia 1096 1330.8 1368.3 1260.3

P(Zaragoza)は 1333.2 という数値になりました。よって,このデータの中

の言語形式 (N)について見るならば,Zaragoza は 14 世紀前半に中心(平均)

をもつ発行地である,と考えられます。文書類 T(P)は,対応する N の値が

さらに小さくなったため 14 世紀後半 (1368.3)が中心になりました。

このようにして,すべての名義尺度が数量化することによって,後述の

重回帰分析や主成分分析などの多変量解析にかけることができます。

5.17.2. 数値尺度の名義化

下右表 (N1)は下左表 (X)の列平均 (Am)を基準にして名義化した行列です。

名義 (-): if X < Am

たとえば X(1, 1) = 10 は,列平均 (5.25)を超えているので v1:+とします 39。

39 この表を後述する主成分名義分析で使うため,各セルに表頭 (v1, …, v5)を付加します。

Page 94: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

93

X v1 v2 v3 v4 v5

N1 v1 v2 v3 v4 v5

d1 10 19 14 7 12

d1 v1:+ v2:+ v3:+ v4:+ v5:+

d2 11 7 10 0 1

d2 v1:+ v2:+ v3:+

d3 0 0 1 12 1

d3 v4:+

d4 0 1 2 3 3

d4

上右表 (N2)をダミー変数にすると下右表 (D1)になります。

X v1 v2 v3 v4 v5

D1 v1:+ v2:+ v3:+ v4:+ v5:+

d1 10 19 14 7 12

d1 1 1 1 1 1

d2 11 7 10 0 1

d2 1 1 1 0 0

d3 0 0 1 12 1

d3 0 0 0 1 0

d4 0 1 2 3 3

d4 0 0 0 0 0

同様にして,次の基準によって名義を +と -の 2 つにします。

名義 (-): if X < Am

名義 (+): if X >= Am

N2 v1:+ v1:- v2:+ v2:- v3:+ v3:- v4:+ v4:- v5:+ v5:-

d1 1 0 1 0 1 0 1 0 1 0

d2 1 0 1 0 1 0 0 1 0 1

d3 0 1 0 1 0 1 1 0 0 1

d4 0 1 0 1 0 1 0 1 0 1

さらに,次のように,列の平均 (AmC)と標準偏差 (SdC)を基準にして 3 段

階 (-:$:+)に分けて名義化をします。

名義 (-): if X <= Am - Sd / 2

名義 ($): if X > Am - Sd / 2 and X < Am + Sd / 2

名義 (+): if X >= Am - Sd / 2

N3 v1:+ v1:- v2:+ v2:$ v2:- v3:+ v3:- v4:+ v4:$ v4:- v5:+ v5:$ v5:-

d1 1 0 1 0 0 1 0 0 1 0 1 0 0

d2 1 0 0 1 0 1 0 0 0 1 0 0 1

d3 0 1 0 0 1 0 1 1 0 0 0 0 1

d4 0 1 0 0 1 0 1 0 0 1 0 1 0

4 段階 (-:$:+)の名義化の基準は

名義 (=): if X <= Am - Sd

名義 (-): if X < Am and X > Am - Sd

名義 (+): if X >= Am and X < Am + Sd

Page 95: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

94

名義 (#): if X >= Am + Sd

5 段階 (=:-:$:+:#)の名義化の基準は

名義 (=): if X <= Am - Sd

名義 (-): if X <= Am and X > Am - Sd

名義 ($): if X > Am - Sd / 2 and X < Am + Sd / 2

名義 (+): if X >= Am and X < Am + Sd

名義 (#): if X >= Am + Sd

この方法を数値尺度の名義化 (Nominalization of numeric scale)とよびま

す。

●個体と属性のダミー化

下左の頻度行列 (X)のそれぞれのセルの行と列の情報を,すべて縦列に並

べて,ダミー変数にすると下右のようになります (D(X))。

X v1 v2 v3

D(X) h1 h2 h3 h4 v1 v2 v3

h1 5 2 1

c.1 1 0 0 0 1 0 0

h2 1 3 3

c.2 1 0 0 0 1 0 0

h3 0 1 2

c.3 1 0 0 0 1 0 0

h4 1 2 1

c.4 1 0 0 0 1 0 0

c.5 1 0 0 0 1 0 0

c.6 1 0 0 0 0 1 0

c.7 1 0 0 0 0 1 0

c.8 1 0 0 0 0 0 1

c.9 0 1 0 0 1 0 0

c.10 0 1 0 0 0 1 0

c.11 0 1 0 0 0 1 0

c.12 0 1 0 0 0 1 0

c.13 0 1 0 0 0 0 1

c.14 0 1 0 0 0 0 1

c.15 0 1 0 0 0 0 1

c.16 0 0 1 0 0 1 0

c.17 0 0 1 0 0 0 1

c.18 0 0 1 0 0 0 1

c.19 0 0 0 1 1 0 0

c.20 0 0 0 1 0 1 0

c.21 0 0 0 1 0 1 0

c.22 0 0 0 1 0 0 1

Page 96: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

95

このように,個体と属性を同列に扱ってダミー化することによって,多

変量解析の応用範囲が広まります(→「分析」「多変量解析」)。たとえ

ば次の 3 つの相関行列を比べてみましょう。(→「関係」「相関行列」)

Cor(X) v1 v2 v3

Cor(Xt) h1 h2 h3 h4

v1 1.000 .184 -.510

h1 1.000 -.971 -.961 -.277

v2 .184 1.000 .426

h2 -.971 1.000 .866 .500

v3 -.510 .426 1.000

h3 -.961 .866 1.000 .000

h4 -.277 .500 .000 1.000

Cor(D(X).) h1 h2 h3 h4 v1 v2 v3

h1 1.000 -.516 -.300 -.356 .498 -.179 -.314

h2 -.516 1.000 -.271 -.322 -.257 .092 .162

h3 -.300 -.271 1.000 -.187 -.271 -.025 .297

h4 -.356 -.322 -.187 1.000 -.069 .134 -.069

v1 .498 -.257 -.271 -.069 1.000 -.516 -.467

v2 -.179 .092 -.025 .134 -.516 1.000 -.516

v3 -.314 .162 .297 -.069 -.467 -.516 1.000

X の変数間 (v1, v2, v3)の相関行列 Cor(X)と,それを転置した Xt による個

体間の相関行列 Cor(Xt)を,D(X)の相関行列 Cor(D(X))と比べると,頻度行

列 (X, Xt)に見られた相関係数の高い値が,D(X)の相関行列 Cor(D(X))ではす

べてマイナスになっています。これは,頻度行列をダミー化した行列で,すべ

ての行で個体間と属性間の関係が排他的になるためです。つまり,共に 1 にな

ることはありません。しかし,このダミー変数の相関行列で個体と属性の間に

ある関係が明らかになります。ここで h1:v1 の値(.498)に注目すると,この高い

数値は元のデータの際立った頻度(5)と矛盾しません。

上の D(X)行列を主成分分析にかけると次の Biplot 図が出力されます。

Page 97: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

96

これを見ると h1 と v1 は近くに位置しますが, h3 と v4 はベクトルの向

きはほとんど同じですが,値が異なっていることがわかります。たしかに

属性の Biplot では個体との関係を知るためにはその方向性を見ることが重

要ですが,この場合,元の頻度データ (X)の個体が D.C.A.で属性(縦列)

の一部になっているので,元の個体と属性は,すべて Biplot の属性になり

ます。よって元の個体も属性も Biplot の矢印の方向と長さを持つので,方

向だけでなく位置も考慮に入れるべきでしょう。

ダミー変数行列の行数は元の行列の頻度の総和になるので,総和が大き

くなると巨大なダミー変数行列になります。しかし,たとえば X を 2 倍に

した Y は確かにダミー変数行列の行数が 2 倍になりますが,それぞれのダ

ミー変数の相関行列 Cor(D(X))と Cor(D(Y))は同じになります。よって,総

和が大きな行列はそのパーセントの整数部だけにした規模に変換すれば

(下の Z),ダミー変数行列の行数は 100 以下に限られるので問題はありま

BIPLOT

-2

2

-1.6

1.6

-1.2

1.2

-0.8

0.8

-0.4

0.4

0

0

0.4

-0.4

0.8

-0.8

1.2

-1.2

1.6

-1.6

2 -2

(0,0)

h1 h2

h3

h4

v1

v2

v3

c.1 c.2 c.3 c.4 c.5

c.6 c.7

c.8

c.9

c.10 c.11 c.12

c.13 c.14 c.15

c.16

c.17 c.18

c.19

c.20 c.21

c.22

Page 98: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

97

せん 40。

X v1 v2 v3

Y v1 v2 v3

Z v1 v2 v3

h1 5 2 1

h1 10 4 2

h1 22 9 4

h2 1 3 3

h2 2 6 6

h2 4 13 13

h3 0 1 2

h3 0 2 4

h3 0 4 9

h4 1 2 1

h4 2 4 2

h4 4 9 4

興味深いことに,ダミー変数行列の個体部分 (H)を転置して,変数部分 (V)

を右積すると,元の頻度行列 (Xnp)になります。よって元の行列 X はダミ

ー化することによって行列 H と行列 V に「分解」されることになります 41。

このことは,たとえば h1*v1 の積和を求めると 5 になることで簡単に確か

められます。

HnpT Vnq = Xpq

H h1 h2 h3 h4

V v1 v2 v3

c.1 1 0 0 0

c.1 1 0 0

c.2 1 0 0 0

c.2 1 0 0

c.3 1 0 0 0

c.3 1 0 0

c.4 1 0 0 0

c.4 1 0 0

c.5 1 0 0 0

c.5 1 0 0

c.6 1 0 0 0

c.6 0 1 0

c.7 1 0 0 0

c.7 0 1 0

c.8 1 0 0 0

c.8 0 0 1

c.9 0 1 0 0

c.9 1 0 0

c.10 0 1 0 0

c.10 0 1 0

c.11 0 1 0 0

c.11 0 1 0

c.12 0 1 0 0

c.12 0 1 0

c.13 0 1 0 0

c.13 0 0 1

c.14 0 1 0 0

c.14 0 0 1

c.15 0 1 0 0

c.15 0 0 1

c.16 0 0 1 0

c.16 0 1 0

c.17 0 0 1 0

c.17 0 0 1

c.18 0 0 1 0

c.18 0 0 1

c.19 0 0 0 1

c.19 1 0 0

c.20 0 0 0 1

c.20 0 1 0

40 この場合元の行列 (X)の規模が小さいので,Z はかえって大きくなりましたが,実際ではそれぞれの頻度が 100 以上の行列などを想定します。 41 朝野熙彦 (2000)『入門多変量解析の実際』講談社サイエンティフィックp.123.

Page 99: 5. 得点 - lecture.ecc.u-tokyo.ac.jpcueda/gengo/4-numeros/...d4 .000 .050 .063 .031 .106 .250 和Sv 21 27 27 22 17 T:114 和Sv .200 .200 .200 .200 .200 1.000 このように横和Sh

98

c.21 0 0 0 1

c.21 0 1 0

c.22 0 0 0 1

c.22 0 0 1