32
統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成 【操作紹介】手作業によるヒストグラムの作成 【操作紹介】ピボットテーブルによる度数分布表の作成 【参 考】参考サイト紹介 【応用事例】 はずれ値に左右されない回帰式(ロバストな回帰式)の作成例 【応用事例】統計学等の麻雀研究への応用例 1 ――「実力」の存在証明と偶然性について 【応用事例】統計学等の麻雀研究への応用例 2 ――統計データの補完と成績要因の分析

統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

1

統計学関係補足資料

とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

【操作紹介】手作業によるヒストグラムの作成

【操作紹介】ピボットテーブルによる度数分布表の作成

【参 考】参考サイト紹介

【応用事例】はずれ値に左右されない回帰式(ロバストな回帰式)の作成例

【応用事例】統計学等の麻雀研究への応用例 1

――「実力」の存在証明と偶然性について

【応用事例】統計学等の麻雀研究への応用例 2 ――統計データの補完と成績要因の分析

Page 2: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

2

分析ツールによる度数分布表・ヒストグラムの作成

エクセル上に、作成したい階級を列挙する(左図)。あらかじめ、対象となるデータ範囲について、

min(データ範囲)や max(データ範囲)を用いて、最小値~最大値を調べておくと良い。ただし、最大

値が属する階級よりも 1 つ上の階級まで取ること。 次に、度数分布表・ヒストグラムを作成したい範囲のデータを選択する(図右側、合計点の部分)。

Page 3: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

3

データ→データ分析→ヒストグラム を選択する。なお、データ分析ツールが入っていない場合は、オプションのアドインで「分析ツール」

をあらかじめ導入しておく必要がある。

入力範囲には個別のデータが入っているので、データ区間として、先に作成した階級部分を入力す

る。ボタンを押して範囲選択すると便利である。 その後、ラベルやパレート図、グラフ作成等、必要なチェックを入れて「OK」を押す(後から消

すことは簡単なので、全体的にチェックを入れておいて問題ない)。

Page 4: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

4

デフォルトでは、頻度順に並んだヒストグラムが作成される(D~F セルのデータ)。しかしここで

必要なのは、通常のヒストグラム(A~C セルのデータ)なので、グラフ上をクリックし、データの

参照先を変更する必要がある。 なお、この表の A2~B18 までが、いわゆる通常言うところの「度数分布表」である。ただし、各々

のラベルは「当該値までの階級」を表しているので注意(「70」の部分は、実際には 60~70 未満の

点数がカウントされている)。

Page 5: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

5

図の中央あたりで右クリックし、「データの選択」を選択する(図の中で、クリックする場所によ

ってメニューが変化するので注意する。例えば項目軸上で右クリックした場合、項目軸に関する変更

が可能である)。

頻度を選択して「編集」し、必要な情報を入力し、データを B 列にあわせる。

Page 6: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

6

累積も同様。 また、グラフの項目軸ラベルも正しく A 列に直すこと(編集して A 列を選択)。

図形を適宜拡大すると、ヒストグラム(の土台)が作成できる。

Page 7: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

7

各軸部分を右クリックして軸の書式設定を行い、グラフを調整する。

例えば第二軸(右側の軸)は累積度数(%)であり、最小 0、最大 1 であるから固定する。 他にも、グラフの端に飛び値があってカットする場合や、補助線を追加する場合はこのウインドウ

で行う。

Page 8: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

8

また、グラフの要素を右クリックすると、データ系列の色や形式を変更できる。

適宜色等を変更するほか、ヒストグラムは要素間の感覚を空けないのが通例であるため、必ず要素

間の間隔は 0 とする。

その他、見栄えを整えればヒストグラムが完成する。

Page 9: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

9

手作業によるヒストグラムの作成 もちろん、エクセルのグラフ作成機能を使い、少し工夫すれば、「分析ツール」を使わなくとも同

等のグラフを作成することが可能である(このような使い方ができるようになることが望ましい)。

例えば上のようなデータがある場合、

区間を定め、関数を利用することによってヒストグラムを描くことができる。

Page 10: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

10

それぞれの関数はヘルプ等を参照。 いくつかの関数を組み合わせて、望む数をカウントして算出しているだけであり、プログラミング

の簡単版のようなものだ(※IF 関数、Mid 関数、四則演算など、考え方も似ている)。FREQUENCY関数を使えば、もう少し楽に度数を調べることもできるが、基本関数を応用する訓練も重要である。 必要な情報が揃ったら、図(縦棒)の「挿入」によって、度数の棒グラフを作成する。その後、棒

グラフを右クリックして「データの選択」を選び、データの追加で累積(%)のデータを入れる。こ

の段階では左側の軸と同じ単位系の棒グラフができてしまうので、右クリックして「データ系列の書

式設定」内で「第 2 軸」に合わせたうえで、再び右クリック後「系列グラフの種類の変更」で線に変

えた。見栄え等を整えれば(グラフの間隔を 0 にする、累積度数(%)を 0~1 に連結する等)、ヒス

トグラムが完成する。 なお、エクセルを効率的に扱うためには、式や関数の使い方についても覚えておく必要がある。 例えば、SUM 関数は、SUM(J2:J5)等とすると、J2 から J5 までの合計値を返す関数である。 上の例では、これを用いて累積度数を求めているが、「J$2」と$を加えることによって、後に示す

「セル内容のコピー」を行う場合に、$を付けた部分を不変にできる(常に J 列の 2 行目から、当該

行までを合計するようにできる)。同様に、列側を固定したい場合は$J2 のように表記し、両方を固

定したい場合は$J$2 と書く。

式を特定のセルに記述したら、当該セルをクリックし、右下部分をドラッグすることで、同じ関数

を「ずらしながら」コピーすることができる。

Page 11: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

11

ピボットテーブルによる度数分布表の作成

「挿入→ピボットテーブル」を選択する。

データ範囲を選択する。

合計点を表側にドラッグする。

Page 12: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

12

続けて、合計点を表体にドラッグする。

この状態では、表側に点数が並び、表体部分には各点数の合計値といった無意味なデータとなるた

め、右下の「値」の欄で、値フィールドを合計値から個数に変更する。

Page 13: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

13

次に、表側のグループ化を行う。合計点欄で右クリックし、「グループ化」を選択。

度数分布表の使う階級を入力する。この例では 60~240 までを、階級幅 10 で分布させている。

度数分布表ができる。

Page 14: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

14

データに飛びがある場合はグラフ作成の際に注意が必要だが、データが更新された場合にも簡単に

更新できること、数値データでない場合でも度数分布表が作成できること、層別(男女別、年齢別)

表示が容易であること等から、ピボットテーブルは非常に有効である。

Page 15: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

15

参考サイト紹介 以下は一例であり、他にも有用なサイトが数多く存在する。 「ハンバーガーショップで学ぶたのしい統計学」(早稲田大学人間科学部 向後千春研究室) http://kogolab.jp/elearn/hamburger/ 「高校数学の基本問題」 ・・・ 統計学関係もわかりやすく解説 http://www.geisya.or.jp/~mwm48961/koukou/index_m.htm 「Excel を使った多変量解析」 http://gucchi24.hp.infoseek.co.jp/index.htm 「Excel における回帰分析(最小二乗法)の手順と出力」 http://keijisaito.info/pdf/excel_ols.pdf

Page 16: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

16

はずれ値に左右されない回帰式(ロバストな回帰式)の作成例

サンプル Y X1 X2

1 5.52 1.13 3

2 5.79 1.97 2

3 5.81 2.5 1

4 8.65 4.1 0

5 7.94 4.6 -1

6 10.10 6 -2

7 10.59 7.01 -3

8 12.20 8.3 -4

9 11.90 8.5 -5

10 14.73 25 -35

11 16.23 11.5 -7

12 16.10 11.9 -8

13 16.94 12.8 -9

14 17.30 13.9 -10

15 19.46 15.4 -11

16 51.00 17 -12

17 20.45 16.6 -13

18 23.05 17.9 -12.5

19 5.64 6.7 -8

20 19.86 16.6 -13

21 5.26 4.6 -3.5

22 8.90 7.6 -5.8 上のデータは、サンプルサンプル 16 を除いて、Y = 2.00×X1 + 1.00×X2 + ε として作成し

た仮想データである。サンプル 10 ははずれ値ではないが、説明変数の値が他のサンプルよりも飛び

ぬけた値であり、相関係数に強い影響を与える(中央図)。また、サンプル 16 は意図的に設置した異

常値であり、直接的に予測式の傾きに影響を与える(右図)。

LMedS 基準(値)として、 2minLMedS imedε=

を考える。以下のとおり、「LMedS 回帰」を定義する。 LMedS 回帰:全サンプル M 個のうちから F 個のサンプルを抽出する可能な全ての組み合わせにお

いて最小二乗法による回帰式を作成し、当該回帰式を全サンプルに当てはめた場合の

残差平方の中央値を求め、残差平方の中央値が充分に小さい組み合わせとなる回帰式

を求める。ただし、実際には次元数が大きくなると指数関数的に組み合わせは増加す

るため、M、F がある程度以上の大きさでは最適解を求めることが計算時間的に困難

である。その場合、ランダムサンプリングを充分な回数繰り返す等によって、準最適

解を求める方法も LMedS 回帰とみなす。 通常の最小二乗法によって求める回帰式は、各変数の係数又は予測値の双方が、極端なデータ又は

はずれ値に敏感に反応するのに対して、LMedS 回帰により求める回帰式は、 ・ 変数間の相関に対してはずれ値となるサンプルが存在しても、当該サンプルの効果を除外した場

合の回帰式を含む多数の回帰式を作成し、最終的な予測力を比較することが可能である ・ 最終的な予測力を判定する際には、残差平方和ではなく全サンプルに対する LMedS 基準値に基

Page 17: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

17

づくため、大幅に予測式の傾きに影響を与えるサンプルの影響を緩和することが可能である と期待できる。

エクセル VBA を用いて LMedS 回帰を実装する例を後に示す。

回帰式は以下のとおりとなった。

通常の回帰式 : Y = -3.660 + 2.85 × X1 + 1.52 × X2 LMedS 回帰式: Y = -0.238 + 2.04 × X1 + 1.03 × X2

LMedS 基準値が他より明らかに小さな値となった「有効な」37 個の回帰式(「有効な」37 個の回

帰式の LMedS 基準値の最大値は 0.169、「無効な」38 個目の回帰式の LMedS 基準値は 3.131、LMedS基準値の全体平均は 5.685)において、X1の係数は平均 2.00、標準偏差 0.04、X2の係数は平均 1.00、標準偏差 0.04 であった。実測値の生成に用いた式が Y = 2.00×X1 + 1.00×X2 + εであることを

鑑みると、LMedS 回帰式が、はずれ値を除いたサンプルに関する各係数値の適切な推定に成功して

いることがわかる。 特定の重回帰モデルによっては充分に説明できないと考えられるサンプルが複数存在し、かつ当該

サンプルの存在が、「本来」説明可能なはずのサンプルに関する予測に悪影響を与える恐れがあると

想定される場合には、LMedS 回帰が一定の効果を発揮する一例である。 なお、LMedS 回帰において、ランダムサンプリングを行う際のサンプル数と繰返し処理回数の関

係に関しては、「少なくとも 1 回以上ははずれ値をサンプルに持たない組み合わせを持つ確率が

99.9%を超える回数のランダムサンプリングを行う」という条件で決定する。ランダムに選ぶデータ

数を F、はずれ値の割合をε、ランダムサンプリングを行う回数を q と書くとき、少なくとも1回の

サンプリングにはずれ値が含まれない確率は、簡単に、 qFP })1(1{1 ε−−−=

Page 18: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

18

と表せる。これを用いてサンプリング回数等を決定する。 上記のように、サンプルを取り除きながら重回帰分析を連続して行う VBA プログラムの実装例を

示す。 '500 回の重回帰分析を行う

For h = 1 To 500

'元データから作業用シートにデータをコピー

Sheets("元データシート").Select

Cells.Select

Selection.Copy

Sheets("作業用シート").Select

Cells.Select

Selection.PasteSpecial Paste:=xlPasteValues, Operation:=xlNone, SkipBlanks _

:=False, Transpose:=False

'400 サンプルから、300 サンプルをランダムに削除する

For t = 1 To 300

r = Int(Rnd() * (400 - t + 1) + 1)

Rows(r + 1).Select

Selection.Delete Shift:=xlUp

Next

'エクセル VBA の重回帰分析を実行する

Application.Run "ATPVBAEN.XLA!Regress", Range(目的変数の範囲), Range(説明変数の範囲), _

False, True, , "", True, True, False, False, , False

'結果を結果シートにコピーする

Cells.Select

Selection.Copy

Sheets("結果シート").Select

Cells.Select

Selection.PasteSpecial Paste:=xlPasteValues, Operation:=xlNone, SkipBlanks _

:=False, Transpose:=False

'結果シートに出力された各偏回帰係数等をコピーする

決定係数 = Range(決定係数の保存されているセル).Value

Range(偏回帰係数の保存されているセル).Select

Selection.Copy

Sheets("元データシート").Select

Range(係数を貼り付けるセル).Select

Selection.PasteSpecial Paste:=xlPasteAll, Operation:=xlNone, SkipBlanks:= _

False, Transpose:=True

'エクセルのシート上で、全サンプルを対象とした残差平方の中央値を計算する

(エクセルシート上での QUARTILE 関数を用いた計算)

Page 19: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

19

'1回ごとの結果を出力する

Cells(h 番目の偏回帰係数出力先のセル).Select

Selection.PasteSpecial Paste:=xlPasteAll, Operation:=xlNone, SkipBlanks:= _

False, Transpose:=True

Cells(h 番目の残差平方の中央値出力先のセル) = 残差平方の中央値

Cells(h 番目の決定係数出力先のセル) = 決定係数

Next

なお、ロバストな回帰式の作成手法は多数研究されており、この方法が特段優れているというわけ

ではないので注意すること。あくまでもデータ分析を行う際の一例である。

Page 20: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

20

統計学等の麻雀研究への応用例 1――「実力」の存在証明と偶然性について (過去に研究を行った資料からの抜粋。ジニ係数等、統計指標をあえて利用して説明している) 麻雀は4人で行われ、1試合ごとに1位~4位のいずれかの結果を残すゲームである。通常、ある

程度の試合数での平均順位をもって「成績」とみなされる。将棋や囲碁と異なり、「麻雀プロ」が大

会等においてアマチュアに敗北することは既に日常茶飯事であり、上級者とされるプレイヤーが覚え

たての初心者に負けることも少なくないため、麻雀には実力などほとんど存在せず、運を競うゲーム

でしかないとする見方も根強い。ここでは、麻雀の成績が偶然の結果生じるものではないことを示す。 成績は、1位又は2位を取る(1位又は2位を取ることを、「上位獲得」と呼ぶ。以下同じ。)確率

の大小と強く関係している。成績の良さの指標(z 得点表記)は、上位獲得率のみによって 94.6%説

明される(5%有意)。図 1-1 に、実際に打ったプレイヤー(標本)400 名の、上位獲得率の分配に関

するローレンツ曲線を示す。ジニ係数は 0.0350 であった。 図1-1 麻雀における上位獲得率のローレ

   ンツ曲線 (ジニ係数:0.0350)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

この格差は、一見すると非常に小さい。仮に、ある種の完全に機会平等なゲーム(サイコロを振り、

合計数の大小を競うようなゲーム)をプレイした場合でも、最終的な成績には格差が必然的に生ずる

であろう。このような偶然に基づく格差を排除しても、麻雀の成績分布に格差が存在することを示さ

なければならない。そこで、麻雀の上位獲得率の全体格差を、次の式の形に分解することを考える。 Gr = Gp + Ga ……(式1)

ただし、 Gr:全体の格差のジニ係数(0.0350)

Gp:偶然性のみに起因する格差のジニ係数

Ga:偶然性以外に起因する格差のジニ係数 標本となった 400 名のプレイヤーの上位獲得率の格差 Gr から、Gp 分を取り除いた格差、すなわ

ち Ga を調べるために、仮に上位獲得率の格差が Gr=Gp と表されるとした場合の Gp を計算する。

この仮定のもとでは、1名のプレイヤーの成績は、50%の確率で上位獲得するベルヌーイ試行と等価

となるため、m 試合での上位獲得率は二項分布(m,0.5)に従うモデルとみなすことができる。m=

609(標本における試合数の中央値 608.5 から導出)とし、400 名の m 試合での上位獲得率の Gp を、

乱数を用いたコンピュータシミュレーションによって 10000 回計測した。シミュレーションによると、

Gp の分布は、平均 0.0227786、分散(0.0008427)2となった。図 1-2 に示すとおり、目視によれば、

Gp の分布は同パラメータにおける正規分布とおおよそ一致している。本稿ではこれを正規分布に従

う変量とみなして議論を進める。

Page 21: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

21

Gp の分布が明らかになったことにより、実際の上位獲得率の全体格差から、偶然性に起因する格

差を除外したローレンツ曲線(以後、「Ga の曲線」と呼ぶ)を描きなおすことが可能となる。具体的

には、400 名の上位獲得率分配のローレンツ曲線(以後、「Gr の曲線」と呼ぶ)上の各点(400 個の

点)を(x(i),y(i))(i=1,2,…,400)と書くとき、各 x(i)に一致する x 座標における、偶然性のみに起因

して生ずると期待される上位獲得率分配のローレンツ曲線(以後、「Gp の曲線」と呼ぶ)上の y 座標

と直線 y=x との x 軸に対する垂直成分の距離(理論値)を、y(i)に加算することで、成績全体の格差

から、偶然性のみに起因する格差の影響を除外することができる。イメージを図 1-3 に示す。また、

当該操作によって求めた、麻雀における Ga のローレンツ曲線及びジニ係数を、図 1-4 に示す。

図1-4 麻雀における上位獲得率の補正ロー

レンツ曲線(ジニ係数:0.0122)

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Ga の曲線は、Gp の曲線分を除いたことにより、Gr の曲線に比べてさらに均等分配の直線に接近

する。Gr=0.0350(実測値)、Gp=0.0228(理論値)、Ga=0.0122(実測値及び理論値に基づく計算

値)であるから、 Gr = Gp + Ga (式1の再掲)

図1-2 偶然性のみに起因して生ずる成績格差(ジニ係数)の分布(実験値での400名の成績は、二項分布(609,0.5)に従う)

0

200

400

600

800

1000

1200

0.02

04

0.02

08

0.02

12

0.02

16

0.02

20

0.02

24

0.02

28

0.02

32

0.02

36

0.02

40

0.02

44

0.02

48

0.02

52

0.02

56

0.02

60

ジニ係数

度数

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%度数累積割合(正規分布近似値)累積割合(実験値)

正規分布は、

平均:0.022786

標準偏差:0.0008427

(人)

図1-3 麻雀における上位獲得率のローレンツ曲線

(Ga相当分への変換。Gaジニ係数:0.0122)

0.46

0.465

0.47

0.475

0.48

0.485

0.49

0.495

0.5

0.505

0.51

0.4925 0.4975 0.5025 0.5075

y = x

Grの曲線

(成績全体格差)

Gaの曲線(偶然性の影響を

  排除した格差)

偶然格差Gp

Page 22: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

22

が実データにおいて成立していることを確認できる。 Gp が、正規分布 N(0.0227786,(0.0008427)2)の実現値であるという帰無仮説を立て、有意水準

5%で以下の仮説検定を行う。 帰無仮説 H0:Gr は正規分布 N(0.0227786,(0.0008427)2)の実現値である 対立仮説 H1:Gr は正規分布 N(0.0227786,(0.0008427)2)の実現値ではない

検定統計量: σ

μσ

μ −=

−=

0350.0Grz

ここで検定統計量を計算すると、

025.049.410.0008427

0.02277860.0350 zz >=−

=

であるから、H0を棄却し、Gr は正規分布 N(0.0227786,(0.0008427)2)の実現値ではないといえる。

麻雀の上位獲得率の分配が、偶然性以外の要素によって決定されることが統計的に示された。 Gp/Ga=1.869 となっている点は興味深い。609 試合程度の結果で生ずる上位獲得率の分配にお

けるジニ係数表示の格差は、実力によって生じている格差を内包しているとはいえ、偶然性による影

響の方が実力による影響よりも大きいのである。

図1-5 プレイヤーの実力分布及び正規分布近似 (正規分布近似は平均2.491位、標準偏差0.0705位)

0

200

400

600

800

1000

1200

1400

1600

2.7

9

2.7

6

2.7

3

2.7

2.6

7

2.6

4

2.6

1

2.5

8

2.5

5

2.5

2

2.4

9

2.4

6

2.4

3

2.4

2.3

7

2.3

4

2.3

1

2.2

8

2.2

5

2.2

2

平均順位

度数

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

実測値

正規分布近似値

累積度数(第2軸)

(位)

(人)

図 1-5 は、300 試合以上試合を行った全プレイヤーの、平均順位の度数分布グラフ及び正規分布近

似曲線である。ただし、グラフ上では両端の極端な部分は除去している。 麻雀は4名で行うため、本来は理論的に全プレイヤーの平均順位の期待値は 2.5 位となるはずであ

るが、実際の分布は異なることがわかる。この現象は、以下のように説明できる。 (1)300 試合前後の段階で、望むべき結果が出なかったプレイヤーが ID を作成しなおす (2)300 試合前後の段階で、望むべき結果が出なかったプレイヤーがゲームをやめる (3)成績が非常に悪い層は、「練習」のためにゲームを行っている これらのうち(1)及び(2)は、全体の平均順位をより良くする方向に作用する。 通常、300 試合前後をこなす間に、当該プレイヤーの実力は向上し、真の実力による平均順位は若

干改善されると期待される。そこで ID を作成しなおすと、成績が改善されたプレイヤーが1名誕生

することとなる。これが繰り返されると、全体の平均順位は徐々に上昇してゆく。また、平均順位の

改善が見られないプレイヤーほど、ゲームそのものから去る割合が高いと想像される。事実、成績上

位層においては理論値が実測値とほぼ一致しており(あるいは若干実測値の方が高い程度になってお

り)、本人にとって満足できる成績を収めたプレイヤーはそのままゲームを続行していることが伺え

Page 23: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

23

る。 一方で、(3)については平均順位を押し下げる方向に作用する。 成績の z 得点において+3σに達するプレイヤー数は、正規分布とほぼ一致しているにもかかわらず、

-3σに満たないプレイヤーは理論値よりも相当数多く存在する。通信回線を利用した麻雀は、そうで

ない麻雀と比較して「初心者」の参入が容易であり、いわば「練習の場」として利用されていること

が想像される。このような成績の分布の現象は、本データに用いたものの他にも、各種の通信対戦麻

雀以外において広く一般的に観察できるものである。 ところで、ある実力を持つプレイヤーが特定の試合数をこなした際に、実力分布からどの程度異な

った成績分布が残るかを調べる。理論的には、麻雀の1試合の結果(順位)がそれぞれ独立に、個別

のプレイヤーの実力分布(順位期待値μ、分散σ2)に従って定まると考えれば、試合数 n が充分に

大きい場合、中心極限定理により、n 試合の平均順位の分布は平均μ、分散σ2/n の正規分布に従う。 図 1-6 は、各順位を均等に取る(1位~4位を各々25%の確率で取得する)10000 名のプレイヤー

が、各々の試合数セットごとに平均順位の標準偏差を求める状況をシミュレーションし、実測値とし

て示したものである。あわせて、当該分布が平均 2.5、分散 1.252 の正規分布に従うと仮定した場合

の理論値も示した。参考実測値、参考理論値は、成績が均等でない場合であるが、後述する。 均等な順位を取るプレイヤーの 300試合10000サンプルの平均順位分布をAnderson-Darlingの正

規性検定で検定したところ、パスしなかった(p 値=0.001)。1000 試合 10000 サンプルとすると、p値 0.057 でパスした。同様に、1人あたりの試合数を 5 万試合、10 万試合とした場合においても、

正規性検定をパスした。 一方で、1位率 4%、2位率 16%、3位率 4%、4位率 76%という、ゲーム性から考えても、実

際のデータを観測しても実在し得ない極端な成績のプレイヤーの平均順位分布のシミュレーション

実測値と、当該成績分布が既知であるとした場合の正規分布近似値(平均 3.520、分散 0.810)を、

図中に参考としてプロットした。この場合でも、実測値と理論値との残差は小さく、実用上利用可能

な程度で正規分布近似に成功していると判断できる1。 このように、特定の実力を持つプレイヤーは、相当極端な成績分布を持っていても、充分な試合数

において正規分布に従う成績(平均順位)を残す。

1 ただし、「極端な成績」のプレイヤーは大量のサンプル、試合数においても標準偏差の分布が厳密には正規分布に厳密に従わなか

った。これは、平均順位は4位より悪化することがないため、分布の端が途切れてしまうことに起因するものと考えられる。

図● 成績が均等であるとした場合の試合数ごとの平均順位分布の標準偏差

0.025

0.03

0.035

0.04

0.045

0.05

0.055

0.06

0.065

0.07

300 400 500 600 700 800 900 1000

試合数

平均

順位

分布

の標

準偏

シミュレーション実測値正規分布理論値参考実測値参考理論値

0.00

平均順位分布の標準偏差 図 1-6 成績が均等であるとした場合の試合数ごとの

(試合)

Page 24: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

24

さて、300 試合以上打ったプレイヤーの実力の標準偏差が 0.0705 であったことを考えれば、均等

に順位を取得するプレイヤーの、300 試合段階での「偶然」による成績分布の標準偏差である 0.065という数字は、相当大きく感じられる。加えて、前節で述べたとおり、609 試合程度での上位獲得分

配のジニ係数表示では、偶然性の寄与が実力の寄与よりも大きかった。麻雀には実力が存在し、かつ

実力差は充分な試合数において明確に成績差として表れるものの、そのために必要な試合数は膨大で

あるといえる。一例を挙げる。実力に平均順位 0.1 位分の差のある、平均的な実力を持つ2名のプレ

イヤーがいるとしよう。各々独立に試合を行い、実際に 0.1 位以上の平均順位差を生じさせたとして

も、観測された平均順位の差から「両者に実力差はない」という帰無仮説を立て、有意水準 5%で検

定して「実力差がある」と結論付けるために必要な試合数は、下記概算によると約 960 試合にも及ぶ。

025.02

2

961.1 9611.061.9

, 225.1

ZZn

yxnZ

nn

yxZ

>>=>

×−

=

  において、  

 各々の平均順位 試合数    検定統計量    

Page 25: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

25

統計学等の麻雀研究への応用例 2――統計データの補完と成績要因の分析 人工知能学会誌(24 巻第 3号,2009 年)に、電気通信大学の伊藤毅志先生と共著で寄稿した原稿の

一部を掲載する。 1. はじめに

ゲーム情報学的に見ると,麻雀は四人不完全情報ゲームと位置づけられる.不完全情報ゲームは,将棋や囲碁のよ

うな完全情報ゲームに比べ,考慮すべき多くの要素があり,一般に非常に複雑であると言われる[作田 03]. しかし,幾つかの不完全情報ゲームでは,すでにかなり強いプログラムが作られるようになっている.カードゲー

ムのポーカーやブリッジなどは,古くから多くの研究がなされてきた.ブリッジの研究では,モンテカルロ法を用い

た先読みシミュレーション手法の成功などにより,マスターレベルのプログラムも現れている[上原 01].また,

Schaeffer らが開発している Polaris というポーカープログラムは,ここ数年人間のトップクラスと好勝負を演じるなど,

非常に強くなっている[HP]. しかし,麻雀を題材とした研究は極めて少ない.これには,幾つかの原因が考えられる. 第一に,研究対象自体の難しさが挙げられる.麻雀のプレイでは,他プレイヤーの手の内と牌山に隠された情報を

読んだ上で手作りをしていく必要があり,非常に複雑な駆け引き・判断を必要とする.その複雑さから,不完全情報

ゲームで予測される「Nash 均衡」自体をプレイヤーは理解していない.また,様々な迷信的格言や不確定な信念に基

づいてプレイするプレイヤーの存在は,問題の解決をさらに困難にしている. 第二に,麻雀というゲームの国内における社会的評価の低さがある.欧米におけるポーカーに比べ,麻雀は日本で

は単なるギャンブルや遊びと捉えられる傾向が強い.そのため,折角得られた研究成果も,充分に認められる可能性

は低い.かつて,将棋や囲碁の研究に対する国内での評価が低かったように,麻雀はゲームとしての印象が悪く,研

究対象として選ばれにくく,成果も不当に低く見積もられる傾向にある. このように,麻雀研究を取り巻く現状は厳しい.しかし,人工知能,認知科学的観点から,麻雀研究は,非常に有

意義なテーマを含んでいる.我々が日常生活で扱う問題は,一対一の関係だけでなく,複数の対人関係の中で,常に

相手の手の内が見えない不完全情報を推察する問題であることが多く,様々な交渉を行って情報処理を行っている.

こうした状況では,駆け引きや競争,予測や情報戦などの複雑な戦略を組み立てている.麻雀で得られる研究成果は,

人間の思考過程のメカニズムに重要な示唆を含んでいると考えられる. 麻雀のような,複雑な不完全情報ゲームの研究を行うひとつのカギとして,統計的なデータを分析する手法がある.

近年のインターネットの普及に伴い,ネット麻雀の場が提供されるようになった.その結果,膨大な牌譜(インター

ネットを介した麻雀等における,プレイ過程や結果の履歴.各ネット麻雀によって,内容,詳細さ,保存形式等は異

なる)が作り出されることとなった.これを丹念に統計的に解析することで,麻雀の新しい研究分野が開拓されつつ

ある[とつげき 04]. 本稿では,牌譜という膨大なプレイ履歴の統計処理に基づいて麻雀を解析した研究事例を示すことにより,今後の

麻雀研究の足がかりとなる知見を提供することを目的とする. ここでは,研究の具体例を 2 つ紹介する. 1 つは,打牌を選択する際の個別技術,すなわち比較的「戦術的」な要素に関する分析手法である.他家リーチの

待ちの形を判別する方法の 1 例を示す. もう 1 つは,麻雀全体の技術向上の方針,すなわち比較的「戦略的」な要素に関する分析である.麻雀の各技術の

うち,何がどの程度重要なのかを把握し,アルゴリズムの洗練の方向性を考察する方法の 1 例を示す.

2. 戦術要素の技術研究事例

他プレイヤーから「リーチ」という攻撃がかかった際に,当該攻撃が特定の待ちか否かを判断するという,個別具

体的な戦術要素に関する問題を考える.ここでは「字牌待ち」を判別する例を示す.

2.1 他家リーチの読みの基本構成 他家のリーチの待ちがどのような形であるかについては,麻雀に関する個別の知見から,以下の情報をもとに判断

することが有用であると考えた. (1)攻撃をかけたプレイヤーがそれまでに捨てた牌 (2)その他のプレイヤーがそれまでに捨てた牌 (3)自分が現在保有している牌 (4)ドラを表示する牌

Page 26: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

26

(1)は,攻撃を読むために主要な情報と考えられているものである.攻撃者が捨てた牌は「不要な牌」であると同時

に,ゲームの性質上「それに類する牌」も不要牌となることから,攻撃の種類や待ちの形を特定するために役立つ情

報となるからである.たとえば,特定の「色(トランプでのスーツにあたる)」を集める役を完成させるためには,通

常であれば切られるはずのない他の「色」の有用な牌が,序巡から連続的に切られていることが多い.逆に 1 回「ポ

ン」を行ったプレイヤーが,捨て牌の半分までに特定の色を 1 つでも捨てている場合,そうでない場合と比較して,

特定の色を集めている確率は 1/10 程度に低下することが統計的にわかっている. (2),(3)は,全体に残っている牌がどのような分布をしているかの情報となる.麻雀では同じ牌が 4 枚しかないため,

自分から 4 枚見えている牌は,他のプレイヤーが保有していないとわかる.具体的には,7 が 4 枚見えている場合に

は,他プレイヤーが「678」や「789」という形を揃えることが不可能になるため,6 及び 9 で「あがり」になる可能

性は(特別な場合を除いて)ない.同じく,7 が 3 枚既に捨てられている場合は,特殊な事情がない限り,「789 とい

う形を揃えようとしている」可能性は低いであろう.なぜならば,そのような形で揃える攻撃が成功する可能性は低

く,合理的なプレイヤーは,そうした攻撃をしないからである.逆に,7 を自分が 3 枚保有している場合には,相手

から見ると 7 は「3 枚残っているはずだ」と認識され,この論理は成り立たない. (1)から(3)までが,主として牌の組み合わせ数に関係する情報であるのに対して,(4)は,攻撃の得点も含んだ情報と

なる.麻雀では,「ドラ」と呼ばれる,いわゆるボーナス的な牌が 1 枚あることによって,攻撃の得点が 2 倍程度にな

る.最終的に得点の多寡を競う麻雀において,得点を 2 倍取得することは戦略上極めて有利に働くため,ドラの周辺

の牌は他に比べて一般には重要になり,当然ドラ自体も急所の牌となる.逆に,ドラを早い段階で切る理由があると

すれば,特殊な役を目指しているか,初めからドラが不要なほど「すばらしい手」が偶然入っている場合のみであろ

うと推察できる. 他の判断要素として,攻撃をかけた巡目,個々のプレイヤーとの得点差,他のプレイヤーの動向などが考えられる

が,今回は攻撃をかけた巡目以外の要因は無視した.実際の麻雀では,リーチによる攻撃の完成は,プレイヤーの意

思よりもむしろ偶然性に左右される場合が多く,攻撃準備が整えば直ちに攻撃に移ることが多いことが経験的に知ら

れているためである.つまり,リーチに関して言えば,戦術的な目標と最終的な攻撃の間に,偶然による断絶が入り

込む余地が非常に高いといえる.それに対して上述した要素は,偶然性に左右された結果を織り込んだ上での意思決

定に関する情報を提供するため,一般性が高い.なお,攻撃をかけた巡目については,「一般的なリーチ」を想定する

ため,9~14 巡目の間のみを対象とすることとしている.

2.2 字牌待ち読みフィルタの作成 「字牌待ちではない」ことを判別するために,以下の 7 種類の判断基準を作成した.

(1)字牌の一般的な危険性 各字牌の,場に見えている数と手にある数から,単純な統計に基づき危険度(振込みになる確率)を把握する.

各々の確率は比較的小さな値であることから,その和を字牌全体の近似的な危険度(振込む確率と対応する指標)

とし,当該指標が 0.25 を下回るかを判断する. (2)捨て牌に占める 3~7 の数牌の比率

攻撃者が捨てた牌のうち,3~7 の数牌の割合が 40%未満であるか否かを判断する. (3)序巡好牌切りが少ない

攻撃者が初めて 2~8 牌を切るまでに,それ以外の牌を 3 種類以上切ったか否かを判断する. (4)残り無スジが多いか

1-4,2-5,……,6-9 の 6 本,3 色分で合計 18 本のスジ(当たりになりやすい牌の組み合わせ)のうち,フリテン

(他のプレイヤーからあがることができない形)にならない本数が 13 本以上であるか否かを判断する. (5)シャンポン待ちが可能な字牌が少ないか(その 1)

リーチ時点で,場に 3 枚以上見えている字牌の種類を数え,7 種類中 5 種類以上出ているか否かを判断する. (6)シャンポン待ちが可能な字牌が少ないか(その 2)

リーチ時点で,場に 2 枚以上見えている字牌の数を数え,7 種類中 6 種類以上出ているか否かを判断する. (7)生牌字牌が少ないか

リーチ時点で,場に 1 枚も見えていない字牌(生牌字牌)の数を数え,7 種類中 0 種類か否かを判断する. ここでは,各々の判断要素を「フィルタ」と呼ぶ.

2.3 人間の読みの特徴の把握 牌譜から,「リーチ攻撃を受けた状況」を合計 90 状況取りだし(字牌待ちの状況を 38 含む),人間を対象に,待ち

が字牌であるか否かを読ませるテストを行った.被験者はプロを含む 45 名である(ただし,すべての設問で「字牌で

はない」と読んだ 1 名は統計の対象外とする).なお,回答の際に,「字牌である可能性は半々程度である」「10 回に 1回程度は字牌だろう」といったアナログな読み方も許可することとしている.その場合,それと同等の状況が充分に

大きな回数生じた場合に期待される正答率を,当該問題に対する正答率として加点している.

Page 27: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

27

図 1 人間が字牌を読む場合の正答率

図 2 字牌ではないという読みの正答率の正規確率

各サンプルが「字牌である」と判断した際の読みの正答率と,「字牌ではない」と判断した際の読みの正答率の関係

を図 1 に示す.各々の読みの正答率の間には,正の相関関係がある(相関係数 0.68). ところで,「字牌ではない」という読みの正答率については,図 2 に示すとおり,おおよそ正規分布に従う

(Anderson-Darling 検定での p 値は 0.051). 「字牌ではない」という読みの正答率は,平均 93.0%と一般に高く,変動係数(正答率の標準偏差÷正答率)も非

常に小さい(0.0033).これは,そもそもリーチの大半が字牌待ちではなく(7.19%),字牌待ちであっても当てづらい

こと,すなわち,「字牌ではない」という読みのほとんどが「普通は当たる」事情に起因している. 2.4 フィルタと人間との成績比較

2.2 で作成したフィルタは,牌譜を用いて,各々計 113,259 回のリーチ(うち,字牌待ちは 8,145 回)を読ませ,可

変パラメータを最適化したものである.すなわち,リーチがかかった状態のうち,対象となる局に対して,各々のフ

ィルタを独立に用いて「読み」を実施し,正答率が改善されるよう可変パラメータを調整した.この際の調整は,「字

Page 28: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

28

牌待ちである」という読みの精度を可能な限り高くするという基本方針に従っている.2.3 に示したとおり,「字牌待

ちではない」という読みは,人間の場合でも正答率が正規分布に従い,平均値が充分に大きく分散が充分に小さいた

め,さほど重要視する必要がないと考えられるためである. これらのフィルタを,図 3 に示す形で単純に直列に配置し,字牌待ちであるか否かを判断することとした.フィル

タを複数利用した場合の最適パラメータは,単一で利用する場合の最適パラメータと異なることが予想されるが,今

回の例では考慮していない. 図 3 フィルタによる判断のフローチャート 結果は図 4 のとおりとなった. コンピュータは,「字牌ではない」「字牌である」いずれの読みにおいても,45 名の参加者の大部分に勝利できた.

戦略上の要請に応じて,字牌待ちへの振込みを重点的に避けたり,ある程度の安全度を確保しつつ攻撃を続けたりす

るといったように,パラメータを調整して利用できる. 図 4 フィルタの成績とサンプル(人間)の成績

3. 戦略要素の研究事例

ここでは,成績の良さを,麻雀の各局での点数収支から予測し,技術向上のために必要な対応を考える. なお,3.1 及び 3.2 では,「セガネットワーク対戦麻雀『MJ4』」の 300 試合以上打ったプレイヤーの無作為抽出 400

名分の個票データを用い,3.3 では全体データとして,同 300 試合以上打った全プレイヤー26,251 名の成績階級別平均

Page 29: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

29

データを用いる.

3.1 実測値からの推計値の作成 麻雀では,各プレイヤーの視点で見た場合,各局ごとに以下のいずれかの原因により,収入又は支出が生ずる. ・収入

リーチ収入(Ar),・喰い収入(Ak),ダマ収入(Ad) ・支出(振込み)

リーチへ(Fr),喰いへ(Fk),ダマへ(Fd) ・支出(被ツモ)

他プレイヤーがツモ和了することによる支出(T) Ar 等として表記した収支事象について,各々の事象が起きる確率を P[Ar],起きた際に移動する点数を S[Ar],局あ

たりの収支点数期待値(P[Ar]×S[Ar])を E[Ar]等と表記することとする.麻雀では,各局ごとの収支の合計の多寡に

より,最終的な順位が決定される. 牌譜からこれらのパラメータを読み出すことが可能であって,個々のプレイヤーの充分なデータが存在すれば,重

回帰分析等の手法により,成績の予測式を作成することが可能と考えられる.ところが,牌譜の形式等によっては,

必ずしも全てのデータが手に入らない場合もある.たとえば,「セガネットワーク対戦麻雀『MJ4』」のサーバに残さ

れるデータ(牌譜)には,先の 7 パラメータのうち, ・E[Ar],E[Ak],E[Ad] ・E[Fr]+E[Fk]+E[Fd] (振込み失点の合計値)

の 4 パラメータしか記録されていない.ただし,以下を含むいくつかのパラメータは,別途存在する. ・リーチでの上がり確率 P[Ar] ・リーチでの上がり時得点 S[Ar] ・喰いでの上がり確率 P[Ak] ・喰いでの上がり時得点 S[Ak] ・ダマでの上がり確率 P[Ad] ・ダマでの上がり時得点 S[Ad] ・他プレイヤーのリーチに対する振込み率 P[Fr] ・他プレイヤーの喰いに対する振込み率 P[Fk] ・他プレイヤーのダマに対する振込み率 P[Fd] このように,一部のデータが存在しない牌譜からであっても,妥当な推計値を作成することによって,分析を進め

ることが可能である.実際に入手した,300 試合以上打ったプレイヤー400 名(ランダムサンプリング)のデータに基

づき,各推計値を求めた. 各振込みによる支出の推計値は,以下のように求めた. 支出(振込み)時の点数は,各々の攻撃成功時の収入点数平均と強く正に相関することが明らかであるから,全プ

レイヤーの攻撃成功時の得点平均と,適切な係数α,β,γを用いて,

は、全サンプル平均 ただし、

][][

][][

][][

S

AkSFkS

AdSFdS

ArSFrS

 

×=

×=

×=

γ

β

α

と書ける. 各サンプルについて,E[Fr]+E[Fk]+E[Fd]及び P[Fr],P[Fk],P[Fd]は実測値が存在することから,それらと S[Fr],

S[Fd],S[Fk]との関係を,誤差項εを含めて以下の式で表現できる.

ε + S[Fk]× P[Fk]+ S[Fd]× P[Fd] + S[Fr]× P[Fr]

=E[Fk]+E[Fd]+E[Fr]

上式において,支出合計の誤差平方和が最小になるようなα,β,γを求める.なお,麻雀のルール上自明な,以

下の条件を課す. α<γ,0≦α≦1,0≦β≦1,γ≒1 実際に計算した結果,

Page 30: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

30

α=β=0.905,γ=1.000 において,εの平方和は最小となった.S の推計値及び P の実測値が求められたことから,各サンプルの各出期待値 Eの推計値が導出可能となった. 次に,被ツモによる失点については,以下のように求めた. 収支が 4 人の間でゼロサムになるというゲームの特性から考えて,全プレイヤーの収入点数合計は,全プレイヤー

の支出(振込み)点数合計と,全プレイヤーの支出(被ツモ)点数合計の和に等しい.つまり, 収入合計点数 =

支出(振込み)合計点数 + 支出(被ツモ)合計点数

となる. 個々のプレイヤーにとって,収入,支出(振込み),支出(被ツモ)は各々排反事象であるから,支出(被ツモ)が

生ずる確率 p は,収入又は支出(振込み)が生じない確率にほぼ比例すると予想され, p ∝ 1-収入確率-支出(振込み)確率

なる式が成立すると推測される. 全プレイヤーの収入合計点数から支出(振込み)合計点数を引いた点数を,上述の関係に従って各プレイヤーに配

分することで,各プレイヤーの局あたり支出(被ツモ)期待値の推計値とした. 最後に,リーチの収入期待値について,麻雀の一般的なルールである「リーチ攻撃をする権利を得る対価として一

時的に支払う,1000 点の支出」を加味し,以下の補正を行った. S[Ar’]=S[Ar]-(1-P[Rs])×(1-P[A])×1000

P[Rs]:リーチ攻撃時の攻撃成功率 P[A]:局あたりの攻撃成功率

これは,リーチに成功しなかった場合に,次の局で 1000 点を取り戻せない影響について,ルールに則った形でシン

プルに補正したものである.以後,Ar’を単に Ar と書く.

3.2 推計値の妥当性の確認と重回帰式の作成 以上で,基本となる推計値が導出された.そこで,成績の良さ(平均順位表示)を標準化得点で表して 1000 倍した

値を目的変数,推計の結果得られた 7 パラメータを説明変数として,重回帰式を作成した. 重回帰式は以下のとおりである. 成績(標準化得点×1000)=

4.134E[Ar]+4.764E[Ak]+5.097E[Ad] -5.901E[Fr]-6.953E[Fk]-3.672E[Fd]-4.987E[T]

重回帰式は 5%有意であり,自由度調整済み決定係数は 0.864,残差の標準偏差は 368.6 であった.また,上式では

定数項が 0 であることを容認できたが,7 つのうち,いずれの 1 変数を除外した場合も,定数項は 0 にならなかった

(有意水準 5%).この事実から,上述のようにして求める各推計値が,ある程度妥当であるとわかる. 回帰式を簡潔にするために,ゲームの性質上,技術的な制御が困難であり,回帰式から除いても決定係数の低下が

少ない「ダマに支出(振込み)」及び「支出(被ツモ)」を除去したものを「主要 5 変数」として,当該 5 変数で再度

重回帰式を作成すると,以下のとおりとなる. 成績(標準化得点×1000)=

-4451+5.197E[Ar]+6.413E[Ak]+6.465E[Ad] -4.431E[Fr]-4.027E[Fk]

重回帰式は 5%有意,決定係数は 0.849,残差の標準偏差は 391.4 であり,定数項及び係数は 5%有意となる. ここで得られた 5 変数での重回帰式による,成績の予測値と実測値の関係を図 5 に示す.

Page 31: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

31

図 5 重回帰式による成績指標の予測値と実測値 図中に破線で示しているとおり,実測値上位の層,すなわち「麻雀の上位プレイヤー層」においては,若干の系統

的な残差が存在する.予測される成績よりも,実測された成績が高くなっており,局あたりの点数収支に還元されな

い「ゲーム全体での,成績向上のための戦略」の巧拙によるものであると考えられる.たとえば,成績上位層は,勝

利がほぼ確定している状況から無謀に攻めて,リスクを負ったりはしない.この種の,局あたりの点数収支に還元で

きない技術要素については,本来別途検討する必要があるが,ここでは取り上げない.

3.3 パラメータの上昇と実力の向上 3.2 で導いた重回帰式における 5 パラメータについて, 300 試合以上打った全プレイヤー26,251 名の成績階級別平

均値を図 6 に示す.左から右に向かうにつれて,実力が向上してゆく際のパラメータ推移を見ることができる. 原理的には,攻撃による収入や振込みによる支出は,個別のプレイヤー視点で,1 局において独立に生ずる事象で

ある.ゆえに,机上の計算では,特定の事象が起きる確率が増加すれば,別の事象が起きる確率は減少する. 図 6 成績の変化と各指標の変化(4 項移動平均) ところが,図 6 によると,成績の向上とともに,各々の指標はいずれもほぼ単調に改善されている.つまり,1 つ

のパラメータを除くパラメータの値を一定に保ったまま,特定の固有パラメータのみを向上させることも,原理的に

Page 32: 統計学関係補足資料 - totutohoku.b23.coreserver.jptotutohoku.b23.coreserver.jp/hp/5_sub.pdf · 統計学関係補足資料 とつげき東北 【操作紹介】分析ツールによる度数分布表・ヒストグラムの作成

32

は可能であるように思われる(なお,一般に,E の改善要因の大部分は, P の改善による). アルゴリズムを洗練する際等に,2 で示したような個別具体的な技術の向上により,主要 5 変数のうちの 1 つを改

善できても,それによって「全体のバランス」が乱れて結果的に弱くなることがしばしばある.そこでバランスを整

えるための微調整(パラメータの調整)を行い,局所的な解を導くという作業を試行錯誤的に繰り返す場合が多いが,

各々の個別技術を「独立に」ある程度まで強化する方が合理的であると言えそうである. 重回帰式の各説明変数には相関があるため,単に偏回帰係数の大小を比較することは適切ではないが,ある種の方

針を提示することができる.たとえば,ダマに振込み(Fd)については,技術的な回避が困難であるだけでなく,7変数を用いた重回帰式において偏回帰係数が 0 でないとする帰無仮説を 1%有意水準では棄却できないこと,分散比

も比較的小さい(7.61)こと等から,相対的に重要ではないと推察され,アルゴリズムの洗練にあたっては最終調整

以外では重視すべきではない. このように,各パラメータからおおよその成績を予測し,重要性を比較することによって,個別技術の組み合わせ

で技術を向上させる際の効率化が期待できる. 4. おわりに

2 では,戦術的な要素に関して,牌譜を用いた比較的単純なフィルタを開発することによって,平均的な人間より

も高精度な読みが可能な仕組みを開発する一例を挙げた.また,3 では,成績の良さを,麻雀の各局での点数収支(推

計値を含む)から予測し,技術向上のために重要な要素についての示唆を得た. このように,複雑な要素が絡む麻雀も,プレイ履歴の統計を用いた研究によって,その性質が徐々に明らかになっ

てきている.

◇ 参考文献 ◇

[作田 03] 作田誠:不完全情報ゲーム研究の現状.情報処理, Vol.44, No.9, pp.916-920 (2003) [上原 01] 上原貴夫:コンピュータブリッジ,人工知能学会誌,Vol.16, No.3 pp.385-392 (2001). [HP] The University of Alberta Computer Poker Research Group, http://www.cs.ualberta.ca/~games/poker/ [とつげき 04] とつげき東北:科学する麻雀,講談社 (2004)

著 者 紹 介

とつげき東北(非会員) 2001 年,東北大学工学部通信工学科卒業 2002 年,北陸先端科学技術大学院大学情報科学研究科中途退学,国家公務員. 麻雀をライフワークとして研究.著書に「科学する麻雀」他.

伊藤毅志(会員) 1988 年,北海道大学文学部行動科学科卒業 1994 年,名古屋大学大学院工学研究科修了,工学博士.同年,電気通信大学情報工学科助手,2007 年より助教. 思考ゲームを題材とした認知科学的研究に従事.著書に「先を読む頭脳」他.