Click here to load reader

phskillup.world.coocan.jpphskillup.world.coocan.jp/.../Statistics/statistics.docx · Web view問題2対応のあるt検定2114 問題3対応のあるt検定3115 問題4対応のあるt検定4117

  • Upload
    others

  • View
    5

  • Download
    0

Embed Size (px)

Citation preview

独学.保健指導評価を行うための統計分析

保健事業支援会

理事長 運天勲

[email protected]

目次はじめに5エクセルへ分析ツールの導入7第1章 統計9要約値の種類13標本の数によるデータの分類15正規分布と中心極限定理19自由度22標準偏差と標準誤差23検定と推定27統計を使って結果を評価するときの基本的な考え方35帰無仮説の立て方37統計的検定の妥当性(統計的検定の行われる場面)40統計的検定の持つ意義41分布と仮説44分布の種類44正規分布44t分布44F分布47χ2分布47基本検定48「対応のある」「対応のない」表現48t検定49対応のある50対応のない521標本t検定55t検定を行うための条件56箱ひげ図(ボックスプロット)57χ2検定69対応のない場合72オッズ比78対応のある78片側検定か両側検定か。82F検定85相関係数の検定88相関係数から推定を行う前提92相関検定100演習1 基礎編109問題1対応のあるt検定1110問題2対応のあるt検定2114問題3対応のあるt検定3115問題4対応のあるt検定4117問題5対応のあるt検定5118問題6対応のあるt検定6119演習2 基礎編120問題7対応のないt検定1120問題8対応のないt検定2121問題9対応のないt検定3123問題10 χ2検定 対応のない1124問題11 χ2検定 対応のない2127問題12 χ2検定 対応のない3128問題13 χ2検定 対応のある1130ノンパラメトリック検定132ウィルコクスン符号順位和検定134マンホイットニー検定(U検定)139二項検定143フィッシャーの正確検定146ポアソン検定152演習3 基礎編153問題14 二項検定153問題15 フィッシャーの直接確率154演習4 実践応用編156問題16 事業所(担当者)評価156問題17 参加者推定158問題18 内容・人員構成の違うものの比較159問題19 等質化1161問題20 等質化2163問題21 等質化3164問題22165問題23169分散分析172分散分析の発想174一元配置181二元配置190繰り返しのない二元配置:データに対応がある場合190くり返しのある二元配置法(データに対応がある場合)194多重検定200ボンフェローニ(Bonferroni)型203サイダック(Sidak)の方法204ホルム(holm)の方法205ライアン(Ryan)の方法206テューキー法(Tukey法)209テューキー・クレイマー(Tukey-Kramer)法213ノンパラメトリックにおける多重検定215フリードマン(Friedman)検定215クラスカル・ウォリス(Kruskal Wallis)検定217χ2検定の拡張219マンテル・ヘンツェル法219拡張版220スピアマン順位相関係数223重回帰分析224数量:数量重回帰分析226数量化246数量化Ⅰ類246数量化Ⅱ類252アンケート分析の基礎255妥当性255信頼性256項目-総合点相関260S-P分析262保健指導評価編 行動変容評価269保健指導評価のための統計と近道270指導プログラム全体を評価する流れ272企画書作成の留意点272用語の使い方をハッキリさせる。272目的と目標の区別をハッキリさせる272目標は戦術である273保健指導評価のフレームワーク274評価のストーリーの構造275企画・計画書全体の構成278典型的なデータ不足例279評価のためのストーリー287保健指導による行動変容を評価する。290現状・理想を数値化する290統計的知識の必要性。294平均値回帰による影響の除去295ハイリスクアプローチへの評価296目標を数値で示す。297行動変容の4つのステップ297行動変容の評価を考える。300検査値が下がった304指導プログラムの流れ306正しい知識の普及⇒講話による指導を行う。307気づきと改善意欲⇒個別面談307適切な目標設定⇒行動変容プログラム308行動変容プログラム309セルフモニタリング法309ステップ・バイ・ステップ法310行動強化法311ピア・ラーニング法312生きがい連結法312行動変容の遷移判定315ステップアップ遷移317基準点を設けるときの注意319実行・継続⇒目標管理技術321目標管理321目標の基本的前提322目標の条件322企画書としてまとめる328報告書331付録・番外編スキルアップ考察345

はじめに

統計の勉強をしてきたけれど実践では使いこなせない。あるいは、テキストなどを見ると同じ事は出来るけど、指示がなければ踏み出せない。

このような方も多いのではないでしょうか。

このような方に共通している点は、

「仮説の立て方が分からない」または、「仮説が間違っている」

と言う点です。これを突き詰めていくと、統計の基本原理が分かっていない、そして分布という考え方が分かっていない。に突き当たります。

ここを理解することで、データを見たとき、あるいは評価するためにどの様なデータを集めればよいのかが見えてきて最初の1歩が踏み出せると思います。

ねらいとして、

①実際に自力で統計検定が出来、その解釈を正しく行える。

②業務上必要な統計知識を知る。

③アンケートの分析が出来る。

を主眼に置いています。更に各検定の組み立て方、組合せ方を通して実際の現場で使いこなせるように実践編として章を設けました。得に保健指導では行動変容が伴ってこそ本当に意味があると言われますが、行動変容という抽象的な事例を論理的に評価していく流れを中心に解説します。

最初は統計の基礎原理と分布から仮説の立て方に焦点を当てます。

実は統計が使いこなせるためになるには、ここを十分に理解しておく(理解と言うよりもむしろ、当然の事として知っておく)必要があります。

テキストを見たり、こちらからの指示があると使える人は多いのですが、一人だと、実際のデータを目の前にしてどう進めるか悩んでいたり、あるいは、実際に検定をかけたりするのですが、その解釈が間違っており、かけ離れた結論を出している。また、検定方法は正しいのですが、実際に求める結果と処理するデータがマッチせず結果を正しく解釈せず無理強いして結論を出している。

いろいろなケースが見られます。

分布と仮説の立て方をきちんと押さえると、統計の理解は容易くなる。このことはこれまで行ってきた研修で実証済。しかし、参考書や教科書には書かれていない部分ですので、自力で押さえるのには時間がかかります。なぜ書かれていないかと言えば、それは統計を教える人にとってあまりにも基本的なことなので、これくらいは知っているだろうと先入観で書き進めていくので、大切な部分ですが、抜け落ちてしまうのだろうと想像しています。しかし、この部分でつまずいている人がとても多いのが実態です。

統計検定に必要なソフトを導入する事はありません。エクセルには専用ツール(分析ツール)が用意されており、使い方さえ分かれば誰でも簡単に使うことが出来、分析に強力なツールになります。いろいろと問題も指摘されているものですが、なかなか重宝します。更に分析ツールにはない検定を行うために添付ツールを追加して皆さんが実際に困らないようにしました。

保健の領域ではアンケートデータを処理するということが多いのですが、これを分析するために重回帰分析を中心的に数量化による重回帰分析を取り上げています。

実際専用の統計ソフトを購入したい方も多くいられるかと思います。

学会や論文などで利用されているSPSS等は、基本部分だけで10数万円します。これだけでは何も出来ないので、普段は医療・保健・看護パッケージとして購入しますが、大体100万円近くします。購入された方々を見ると殆どが使い切れていないのが現状です。それもそのハズ、専用の統計ソフトは統計の専門家のためにあるもので、それを使いこなすにはそれなりの統計の知識が必要となります。専門知識があるという前提で作られているのです。

SPSS等の、基本部分というのはエクセルの専用ツール(分析ツール)とほぼ同じものです。これを基盤にいろいろな統計手法を組み合わせて分析を行っていくのが統計ソフトの使い方になります。

この、統計の知識を得るにはエクセルで手慣れておくことが必要です。

専用ツールが吐き出すコメントや指示、エラー内容など、統計の知識が無いと太刀打ちできません。また、殆どの統計ツールはエクセルと連動するように作られています。これは、統計を行う前にエクセルで精査し成型して下さいという前提があります。この部分まで担ってくれるソフトはありません。

ですから、専用の統計ソフトを購入する前に最低でもここに書かれている内容は理解できるようになっていなければ高い買い物になってしまいます。

付属で付いてくる「検定テンプレート」は保健で使われる7,8割の検定をカバーしていますが、普通の統計ソフトと異なる点は、各検定を行う際エクセルでの手順を示しています。これによりいろいろな検定がどの様な内容で計算されているか理解することが出来ますし、専用ソフトが裏でどの様な動きをしているのかも理解できるようになり、専用ツールが吐き出すコメントや指示、エラー内容などが理解出来るようになります。

エクセルへ分析ツールの導入

エクセルの分析ツールはアドインという形で提供されています。

分析ツールが導入されていると以下の図のように、「メニュー」の「データ」を開くと右端の「分析」欄に「データ分析」が出ています。

これが出ていない方はアドインから組み込む事になります。

アドインの組み込み方はエクセルのバージョンによって若干異なりますが、基本的には、メニューの「ファイル」→「オプション」から行います。

2007バージョンだけは別で、オフィスマーク   から行います。

「オプション」をクリックし、アドインを押すと、以下の画面が出てきます。

この時アドインのリストの中に「分析ツール」が無いとインストール時に組み込まれていないので、インストール時に使ったCD-ROM等を用意する必要があります。インストール時に「高速インストール」を指定するとアドインは組み込まれませんので、後から追加する必要が生じます。

下にある「管理」で、「Excelアドイン」を確認し、「設定」を押します。

「分析ツール」の欄にチェックを入れてください。これで完了です。

メニューの「データ」を開いて下さい。

「データ分析」が表示されていればOKです。

図ではVBAの部分にもチェックが入っていますが、VBAを使わない方は不要です。

第1章 統計

統計学とは、沢山のデータを要約し、中に含まれている情報を把握しやすくするための手段です。

例えば、日本人100人について体重を測定したデータがあるとします。 そうすると、当然、100個のデータがあるわけですが、これらのデータを眺めて、

「ウン、このデータに含まれている情報はこれである!」などといい切るためにはどうすればよいのでしょうか。

大概、情報を読み取りやすくするために、例えば「平均値(mean)」という値を求めます。 平均値はこれら100個のデータのほぼ真ん中を表す値であり、100個のデータを1つに要約した値です。 統計学では、このような要約値のことを「統計量」といいます。

正確には統計学では確率的に変動する個々のデータを「確率変数」といい、確率変数の関数として定義される値を「統計量」といいます。 普通、確率変数はxで、統計量はzで書かれるので、z=f(x) と表されます。 f(x)は連続関数とは限らず、離散関数の場合もあります。

今、100個のデータの平均値が60kgになったとします。 そうするとこの値から、「100個のデータは概ね60kgぐらいの値である」つまり、「100人の日本人の体重はだいたい60kgぐらいである」という情報を読み取ることができます。

「だいたい」という言葉に不満がありますね。そんなあやふやではイカンと言うことでしょう。

そんな時は、個々のデータが平均値からどの程度離れているのか、つまりデータがどのくらいばらついているのかを要約する値として、「標準偏差」いわゆる「SD(Standard Deviation)」を求めます。 今、標準偏差が10kgになったとします。 そうすると、

「100個のデータはほぼ60±10kgの値である」

つまり、「100人の日本人の体重はほぼ50~70kgである」

ということになります。まあここでも「ほぼ」が入りますが、先程よりはマシになってきた感じでしょうか。

このように、100個のデータを平均値と標準偏差という2つの値に要約することによって、データに含まれている情報が把握しやすくなりました。 100個が2個に集約されたのですから、情報の圧縮率(?) としてはなかなか大したものであるといえるでしょう。

このように統計学は、データを要約して、中に含まれている情報を把握しやすくするための手段です。ですが、「統計学なんて難しい!」と言う声も良く聞きますね。普通の人はたいてい数字や数式が苦手です。 そしてそこへもってきて、数式が大好きという多少変わった数学者達が、本当は至極簡単なことをやっているのにもかかわらず、業界用語を多用してわざと難しく表現して見せるものですから、すっかりその手管に乗せられてしまって、統計学とは難しいものだと思わされてしまっていることもあるでしょう。

数式を使わないで理解する統計の本なども出回っていますが、本当はこちらの方が難しいです。数式の概念を頭の中に描かせるものですから、理解不能になるのは目に見えています。

データと情報という言葉を使いましたが、データと情報は似ていますが、意味が少し異なります。 データ、情報、知識、知恵の関係を次のようなピラミッド型の階層構造にまとめたものをDIKWモデルといい、情報工学などで用いられています。 このモデルに従えば、「統計学はデータを情報に変換しやすくするための数学的な手段」ということになります。

ただこの節では、数式を云々しなくても、難しい数式の計算はエクセルがやってくれるので、数式の解説などは行いませんが、考え方や歴史的背景なども加えながら統計が身近に感じられるようにしていきたいと思います。

統計学が作られたのは、17世紀頃で、その後、確率論を取り入れ、19世紀末から20世紀初頭にかけてゴールトン(Francis Galton)、ピアソン(Karl Pearson)等によって体系的に整理されました。 この時代の統計学は、データを要約して調査対象の情報を数学的に記述することが中心でしたので、「記述統計学(descriptive statistics)」あるいは「古典統計学」と呼ばれています。

どんな学問でも、ある出来事がターニングポイントになって、それ以前と以後とでその学問の内容が大きく変貌してしまった場合、以前のものを「古典」と呼び、以後のものを「近代」と呼びます。

統計学では、そのターニングポイントは1925年にやってきました。 この年に、フィッシャー(Rinald Aylmer Fisher)が「研究者のための統計的方法」という本を発刊し、新しい統計学を提唱しました。 これによって、統計学は画期的な変革を遂げることになりました。

フィッシャーは、我々が行う実験や試験の対象となる集団は、非常に多くの例からなる、ある理想的な集団の標本にすぎないということに気付いたのです。 そしてさらに、実験や試験の対象となる集団について測定したデータと、理想的な集団について測定したデータでは、数学的な取り扱いを変える必要があるということを発見しました。

前例でいえば、100人の人達は日本人という集団の代表であって、決して日本人全体というわけではありません。 したがって平均値60kgや標準偏差10kgという値も、その100人の集団の要約値であって、日本人全体の要約値ではありません。

ところが我々が本当に知りたいのは、実は日本人全体の要約値の方なのです。 そうでなければ、日本人全体に当てはまるような普遍的な法則は発見できません。 この場合、日本人全体の集団のことを「母集団(population)」と呼び、100人の代表を「標本集団」と呼びます。 本当は母集団を調べたいのは山々なんですが、なにぶん相手がでかすぎて容易に調べられず、仕方なく手近な標本で我慢しているのです。

フィッシャーが考えた新しい統計学は、

「標本集団の要約値から母集団の要約値を確率的に推測し、それによって母集団の様子を記述する」

というものです。 この新しい統計学は、「推測統計学(inductive statistics)」または真中を省略して「推計学(stochastics)」あるいは「近代統計学」と呼ばれています。 そして現在では、単に「統計学」といえば「近代統計学」つまり「推測統計学」を指すことになっています。

標本集団の要約値から母集団の要約値を確率的に推測し・・と言うことですが、ではどの様にデータを要約し、どのように集団の様子を記述するのでしょうか?確率的に推測するというのはどの様なことでしょうか。

統計の教科書などを読むと、必ず○○分布とかいった分布図などにお目にかかりますね。正規分布図とか、t分布、二項分布・・事欠きません。

この分布というのは数式で表すことが出来ます。正規分布の難しい式をお目にかかった事もあるでしょう。この数式で表せるというのがミソで、何々がこの値の時○○分布ではこの値を取る。と言うことが正確に答えることが出来ます。そしてこの値を確率に置き換えることも数学では簡単に出来ます。

つまり、○○分布関数式を確率密度関数式に置き換えることも出来ます。

すると、○○分布では、この値をとる時はこういう確率である。と言うことが出来ますね。つまり、確率的に推測するというのは、○○分布という前提があると言うことです。その確率がどの様な分布に従って導かれたかで統計手法の名前が付いているのです。

この先t検定というのが出てきます。名前の通りt分布に従うものです。

ここで計算されるt値がt分布における値でそれを確率に変換したものがp値と呼ばれるものです。

このようなt値を取る確率はp値で表すことが出来ますね。

集団の要約値から母集団の要約値を確率的に推測するというのは、要約したデータがどの分布に従うのかを知り、その時の確率を出すと言うことです。

要約値の種類

統計の世界で用いられる要約値について解説します。

1)計量尺度、比例尺度、間隔尺度

身長、体重など最も一般的なもので、データが具体的な連続した数値で与えられ、数値と数値の間隔が等しいものです。 数値と数値の間隔が等しいという意味は、例えば1と2の間隔と2と3の間隔が同じく1であり、四則演算を行うことができるという意味です。

データは絶対0点があるかないかによって比例尺度と間隔尺度に細分されます。

比例尺度のデータはデータとデータの間に比例関係があり、比が意味を持つデータのことです。 例えば、病気になると値が10%増加する検査値があったとします。 つまり病気になる前の検査値が10の時は11になり、100の時は110になるわけです。 この時、病気になる前の検査値が0の時は病気になっても0のままであり、絶対0点があることになります。

それに対して間隔尺度のデータはデータとデータの間に比例関係がなく、比が意味を持たないデータのことです。 例えば、病気になると値が実測値で10増加する検査値があったとします。 つまり病気になる前の検査値が10の時は20になり、100の時は110になるわけです。 この時、病気になる前の検査値が0の時は10になり、絶対0点はないことになります。

医学・薬学分野でよく利用される統計手法は、どちらかといえばデータが間隔尺度であることを前提にしているものが多いようです。

2)順序尺度

体重を軽い順に40kg<42kg<50kg……と並べ、それに順番を1、2、3、……と付けた場合、この順番というデータは一見普通の計量値のようですが、数値と数値の間隔が同じではありません。 つまり1と2の間隔と2と3の間隔は同じではないですし、それは数量的な意味の1でもありません。 このため1+1=2という関係が成り立たず、通常の四則演算が行えないことになります。 このようなデータのことを順序尺度のデータと言います。

例えば実際の数値ではなく順位によって成績を評価する時はこのデータになります。 その場合、1位と2位の差が1時間でも1秒でも成績は同じという評価になります。 しかし実際には順位よりも数値の方が対象者の実力を反映するので、計量尺度のデータを無闇に順序尺度扱いするのは危険です。

しかし、このデータは考え方によっては次の順序分類尺度とみなすことができるので、統計学上はどちらも同じように扱います。

3)計数値

男10人・女15人というように、数える性質のデータです。 実験対象の属性をいくつかのカテゴリに分類して、各カテゴリに属する例数を数えます。 このデータもカテゴリ間に順序が付けられるかどうかで、さらに次のように分類されます。

4)順序分類尺度

重症・中等症・軽症・無症状といった疾患の重症度のように、カテゴリ間に実質科学的な順序が付けられるデータのことです。

このようなデータは軽症+中等症=重症というような四則演算が行えず、平均値や標準偏差を計算することができません。 そのためデータそのものではなく、データに順序を付けて、その順序を用いて色々な統計計算を行います。

順序尺度のデータは具体的な計量値に順番を付けたものか、もしくは潜在的な計量値を順序として表現したものです。 それに対してこの順序分類尺度のデータは、分類したカテゴリにたまたま順序が付けられたものであるという点に違いがありますが、実際にはどちらも全く同じ扱いをするので、両者の違いを気にかける必要はありません。

体重と標準体重による肥満度について、-10%未満を「ヤセ」、-10~+10%を「普通」、+10%以上を「肥満」とグレーディングすれば、医学的・保健的な意味で順序分類尺度のデータになります。

順序尺度や順序分類尺度のデータは必然的に整数になるので、整数しか存在しない離散データまたは不連続データは全て順序尺度であり、計量尺度は連続データしかあり得ないと誤解している人がいます。 しかし計量尺度と順序尺度の根本的な違いは、数字と数字の間隔が等間隔で四則演算が行えるかどうかという点であり、連続データか離散データかという点ではありません。 いくら離散データでも数字と数字の間隔が等間隔で四則演算が行えれば、それは計量尺度として扱うことができます。

また順序尺度または順序分類尺度のデータをそのまま計量尺度として扱ってしまっても大勢に影響はなく、それほど問題はありませんし、場合によっては計量尺度扱いした方が良いこともあります。 実際、心理学や社会学分野ではこのような順序分類尺度のデータが多いのですが、気楽に計量尺度として扱って合計したり平均値を計算したりしています。

5)名義尺度

有・無、男・女などのように、カテゴリ間に実質科学的な順序が付けられないデータのことです。

また順序が付けられても、2分類しかなければ実際上は名義尺度として扱います。 このデータは男+女=恋愛というような四則演算が行えず、平均値や標準偏差を計算できないだけでなく、データに順番を付けることさえできません。 このためデータの度数(例数)に注目し、それを用いて色々な統計計算を行います。

以上に説明したデータの尺度は1)→2)→3)→4)→5)の順に情報量が少なくなり、レベルが低いと表現されます。 例えば計量尺度のデータである体重を小さい順に並べて順番を付ければ順序尺度のデータになり、10kgごとにグレーディングすれば順番分類尺度のデータになり、さらに50kgを境界値として軽量級と重量級に2分類すれば名義尺度のデータになります。 しかしその反対に名義尺度のデータを順序尺度や計量尺度のデータにすることは、特別な場合を除いて不可能です。 これがレベルが高いとか低いとか言われるゆえんです。

標本の数によるデータの分類

データは標本集団の数と、データに対応があるかないかによっても分類することができます。 対応のあるデータというのは、同じ被験者から同時にまたは時期を変えて2つ以上のデータが得られた場合のように、お互いに共通の基盤があるデータのことです。 これに対して対応のないデータは、別々の薬を投与した別々の患者群のように、お互いに共通の基盤がないデータのことです。 統計学上は共通の基盤があるデータには相関関係があり、共通の基盤がないデータには相関関係がないつまり独立であると考えます。

1)1標本

1つの標本集団から得られた1種類のデータのことを標本と言います。

最も基本的なデータで、計量値の場合には基準値との比較検定や平均値の推定などを、計数値の場合には基準出現度数との比較検定や出現度数の推定などを行います。

2)2標本

標本以上では、データに対応があるかないかで扱いが異なります。

2-1)対応あり

1つの標本集団から同時に得られた2項目のデータについては、相関や回帰直線などを求めてデータ間の関係を要約したり、比や差を計算して1標本に還元したりします。 1つの標本集団の同一項目について、時期を変えて得られた2つのデータについては、差や比を計算して変化量や変化率に変換し1標本に還元して扱います。

差が良いかそれとも比が適当かについては原則として比例尺度は比に変換し、間隔尺度は差に変換すると理解しておいてください。

対応のある2標本データの要約をする時、前後の差を計算して変化量にしたり、差を前値で割って100をかけ、前値に対する変化率にしたりして、1標本データに還元して扱います。差や差のパーセントを計算するということがどういった意味を持っているのでしょうか。

差を計算して変化量に変換するのは、個々のデータの変化量を比較したり、変化量の平均値を求めて、全体としてどの程度変化したかを要約したりするためです。

しかしもし変化量が前値によって影響を受けるとすると、一体どういうことになるでしょうか?

例えば血圧は前値の大きな人ほどよく低下します。 そうすると同じように10mmHg低下したといっても、前値が180mmHgの時と140mmHgの時とでは意味が違います。 つまり同じ低下量なら、前値が低いほど実質的によく低下したと考えられるわけです。 また前値がバラバラの集団では、低下量を平均することも通常とは違った意味になります。 したがって変化量が正確な意味を持つのは、前値が変化量に影響を与えないデータつまり間隔尺度的な変化をするデータだけということになります。

では変化率についてはどうでしょうか? 変化率は前値に対する変化量の率を表すもの、すなわちもし前値が100だったら変化量はいくつになるかということを意味する値です。 つまり前値がバラバラでは比較しにくいから、無理矢理同じにしてしまおうという値なのです。 前値が同じになれば比較は簡単になり、一見、成程と納得しやすいでしょう。 しかしこれが変化率の思うツボで、その目論見が成功するには、前値が10の時1低下するなら100の時は10低下するという確証が必要です。

したがって変化率が正確な意味を持つのは、前値と変化量が比例するデータつまり比例尺度的な変化をするデータだけということになります。 後値を前値で割った比や、それに100をかけたパーセントについても原理的には変化率と全く同様です。

2-2)対応なし

2つの標本集団から得られた同一項目のデータのことで、2群の比較が主になります。 データが計量値の場合には平均値の差の検定や平均値の差の推定などを、計数値の場合には出現度数の比較検定や出現率の比較などを行います。

3)多標本

一般には多標本は2標本の拡張と考えられますが、統計手法上はむしろ2標本の方が多標本の特殊な場合であると考えた方が適しています。

3-1)対応あり

1つの標本集団から同時に得られた多項目のデータについては、重相関や重回帰分析などの多変量解析を適用します。 1つの標本集団の同一項目について時間を変えて得られた多時期のデータについては、実測値の平均値や初期値からの変化量の平均値などを求めて1標本に還元して扱うか、時系列解析を適用します。

3-2)対応なし

2つ以上の標本集団から得られた同一項目のデータのことで、多群の比較が主になります。 全ての標本をひっくるめて比較するには分散分析を、2標本ずつ取り出して比較するには多重比較を用います。

次のページにデータの尺度と標本の数および対応の有無でデータを分類し、どの様な統計手法が適応されるのか一覧としてまとめてあります。

しかし、大切なことは、検定手法を決定するのは要約値の種類であり、要約値の種類を決定する最も重要な要因は、データの分布状態に関する数学的な判断ではなく実質保健医療的な判断です。 したがってデータの分布状態だけで機械的に統計手法を選択するのではなく、あくまでも実質保健医療的な判断によって統計手法を選択するべきなのです。

なおグレイ色の検定は今回取り上げておりません。

データの尺度と標本の数および対応の有無でデータを分類し、統計手法と対応させて整理すると以下の表になります。

度\標本数

1標本

2標本

多標本

対応あり

対応なし

対応あり

対応なし

比例尺度または間隔尺度

1標本t検定

対応のあるt検定(1標本t検定)相関分析回帰分析

対応のないt検定(2標本t検定)

二元配置分散分析+多重比較多変量解析時系列解析

一元配置分散分析+多重比較

順序尺度または順序分類尺度

ウィルコクソン(Wilcoxon)の1標本検定

ウィルコクソン(Wilcoxon)の符号付き順位和検定(ウィルコクソンの1標本検定)スペアマン(Spearman)の順位相関係数

ウィルコクソン(Wilcoxon)の順位検定(ウィルコクソンの2標本検定、マン・ホイットニィ(Mann-Whitney)のU検定)

フリードマン(Friedman)の検定+多重比較拡張マンテル(Mantel)検定・一般化拡張マンテル検定

クリスカル・ウォーリス(Kruskal-Wallis)のH検定+多重比較田口の累積法

名義尺度

二項検定χ2検定(1×n)

符号検定マクネマー(McNemar)の検定コクラン・アーミテージ(Cochran-Armitage)の傾向検定

フィッシャー(Fisher)の直接確率計算法による検定χ2検定(2×n)マンテル・ヘンツェル(Mantel-Haenszel)の検定

コクラン(Cochran)のQ検定マンテル・ヘンツェル(Mantel-Haenszel)の検定+ブレスロー・デイ(Breslow-Day)の検定多変量解析生命表解析

佐藤の無相関検定χ2検定(m×n)

グレイ色の検定は今回取り上げておりません。

正規分布と中心極限定理

データを要約したい時は、まず始めにデータを見やすいようにグラフ化します。 それには横軸にデータの値を取り、縦軸にその数をプロットした「度数分布図」を用います。 一般的な度数分布図では、データの値をいくつかの区間に区切り、その区間の中に入るデータの数を柱状グラフとしてプロットします。 この図が度数分布図と呼ばれるわけは、データの数のことを数学では「度数」というからです。

先程の体重の例で見てみましょう。

体重測定のデータを度数分布図で表したところ、図1.1-Aのようになったとします。

データの数が多いと、図1.1-Aの度数分布はもっと滑らかなものになり、理想的には図1.1-Bのようなツリガネ形のグラフになります。 このような形の分布のことを、「正規分布(normal distribution)」といいます。

次に、度数分布図を眺めながら、データ内容を把握するのに最も適した要約値を検討します。 最初の要約値として、とりあえず平均値を求めてみましょう。 平均値は、次の式のように全部のデータを足し合わせて例数で割った値です。 体重測定の例では、この値が60kgになりましたね。

普通、平均値はmeanの頭文字をとって「m」と表記したり、データを表す記号xの上に横線を引き「 (エックスバー)」と表記したりします。

平均値の次は、データのばらつき具合を表す要約値である標準偏差を求めてみましょう。 統計学では「ばらつき」のことを「偏差(deviation)」と呼び、次のように定義します。

di=xi-m  (偏差とは、個々の値から平均値を引いたものと定義。)

ばらつきの要約値を求めるためには、この偏差の平均を計算すればよいのですが、いかんせん偏差には正負があり、合計すると0になってしまいます。

そこで、次のように偏差の平方を平均してから平方根をとります。

SS=Sxx=

V=

S=

SSのことを「平方和(Sum of Squares)」、Vのことを「分散(Variance)」といい、統計学上は分散Vがばらつきの要約値になります。

しかしながら、分散は平方された値のためその平方根をとって元のデータの単位に戻した値Sを「標準偏差」と呼んで、もっぱらこちらを利用しているのです。 体重測定の例では、この値が10kgになりました。

図1.1-Bに示したように、正規分布では、標準偏差は平均値から分布の変曲点までの距離になり、平均値±標準偏差の間に全データの約68%が、平均値±2標準偏差の間には全データの約95%が含まれます。 品質管理でいうところの「2σ(シグマ)法」は、この性質を利用しています。

変曲点とは、平面上の曲線で曲がる方向が変わる点のこと。ここでは、(図1.1-Bでは、)中央の平均値からみて、左右の変化率が最初に変わる点となりここを境に分布が変化していくと言う意味になります。

正規分布は例数、平均値、標準偏差によって分布の形が完全に決定するため、これら3つの値によって全部の情報を要約することができます。 そして現実のデータの統計量の大半は、近似的に正規分布をします。 このため普通はこれら3つの値によってデータを要約し、集団の様子を記述します。 つまり例数によって標本集団の規模を記述し、平均値によって集団の中心位置を記述し、標準偏差によって集団のばらつき具合を記述するわけです。

自然現象や社会現象を観察するときによく出てくるのが正規分布で、統計の基本となる分布であると良く言われます。

それは、正規分布においては、平均値と分散値だけで、その出現確率を算定することができるという便利な性質があるためで、統計学で言われる正規分布とは、確率分布関数を指しています。

正規分布は自然現象や社会現象を観察するときによく出てくるといわれますが、しかし、実際に集められたデータが正規分布することはあまりありません。

数が少ないと思われるでしょうが、例えば全世界人口の体重をみても左肩上がりの分布になります。

それでも統計の世界では、いつでもこの正規分布が幅を利かせています。

それはなぜでしょう?

皆さんが何かデータを処理しようとするとき、そのデータを一言で言えるような代表値として平均値を用いますよね。これが大きな理由でそれは統計学の基本定理である中心極限定理に基づいています。

▼中心極限定理▼

中心極限定理とは、以下のようなものです。

X が平均 μ、標準偏差 σ のある分布に従うならば、大きさ n の無作為標本に基づく標本平均は、n が無限に大きくなるとき、平均μ、標準偏差σの正規分布に近づく。

この定理は,母集団の分布がどのような分布であっても、その中から無作為に取りだした標本平均は、正規分布に従うことを言っています。

それは、母集団がどのような崩れた分布を持っていても,そこから取り出した標本の(算術)平均は正規分布にしたがう。そして、正規分布はその値の確率密度関数が計算できる。という特徴を持っています。

即ち、平均値と分散値だけで、その出現確率を算定することができるという事になるわけで、この性質を利用して評価判定を行っているのです。

この中心極限定理によって正規分布にしたがう性質を持つ代表値は、平均値だけではなく、中央値、分散値、期待値などがあります。

分かりやすく言えば、どの様に崩れた分布からでもランダムに抽出されたグループの平均値を何度もプロットしていくと正規分布になると言うことです。

自由度

今求めた平均値と標準偏差は100人の標本集団のもので、これを「標本平均」と「標本標準偏差」といいます。 これら標本集団の要約値に対して、母集団の様子を記述する要約値のことを「母数(パラメーター)」といいます。 そして、母数はギリシャ文字で書くのが普通です。 このため母集団の平均値つまり母平均を、mに相当するギリシャ文字のμ(ミュー)で表し、母集団の標準偏差つまり母標本偏差を、sに相当するギリシャ文字のσ(シグマ)で表します。 母集団の分散つまり母分散については、Vに相当するギリシャ文字がないためσ2(シグマ2乗)で表します。

標本集団は母集団の代表ですから、標本集団の要約値と母集団の要約値は近似すると考えられます。 このため、

μ≒m  σ2≒V

と、母平均値は標本平均で近似できるで、母分散も標本分散で近似できると思われるでしょう。ところが母平均の方は確かに標本平均で近似できますが、母分散の方は次のようにnの代わりに(n-1)で割った方がより近似するのです。

なぜ(n-1)で割った方が近似が良いのかというと、それは平均値の定義式と関係があります。 例えば100人の標本集団で、平均値が60と確定したとします。

この時、一見すると、ばらついているデータは100個あるように思えます。

しかし平均値の定義式からわかるように、99個は勝手に変動できますが、最後の1個は平均値を60にするために勝手には変動できず、決った値になってしまいます。 つまりそのデータは自分の意思で動いているのではなく、他のデータの尻ぬぐいのために、イヤイヤながら動かされているようにも見えます。

このような関係を「一次従属(linear dependent)」と呼び、自由に変動できるデータのことを「独立変数(independent variable)」、独立変数によって値が決められるデータのことを「従属変数(dependent variable)」、独立変数の個数を「自由度(degree of freedom)」といいます。 ばらつきの原因になっているのは独立変数ですから、自由度すなわち(n-1)で割って、1自由度あたりの偏差平方を計算した方が理屈に合っているのです。

(参照)自由度が「データ数- 1」になるイメージ(Ctrl+クリックで移動)

このため、標本集団のデータから母分散を推測する時は、自由度で割った式が用いられます。 そして、この値は正式には「不偏分散(unbiased variance)」と呼ばれています。 「不偏」というのは「偏らない」という意味であり、不偏分散で推定すると、偏らずにうまく近似できることを表しています。 したがって母標準偏差も、次のように不偏分散の平方根によって推定します。

従って前のS標準偏差は次のようになります。

標準偏差と標準誤差

標準偏差とよく似た値として、「標準誤差」いわゆる「SE(Standard Error)」があります。 SDとSEの違いをご存知でしょうか? 実は、この違いをはっきりと理解している人は案外少ないのです。 そこで、標準誤差の求め方を説明することにしましょう。

と言いますのも、皆さんグラフなどを書くとき、平均値±SD(標準偏差)にするか、平均値±SE(標準誤差)にするか迷うことがあります。

下記のグラフの意味する違いがわかれば、そのように悩まずにすみます。

先程の例ではデータの度数分布図を描きましたが、今度は標本平均の度数分布図を描いてみましょう。 先程は標本平均として60を得たので、この値をm1としてプロットします。 次に100人の標本集団を一旦母集団に戻してしまい、改めてまた(おそらくは別の)100人を無作為抽出して平均値m2を計算します。 そうすると、そのm2は60に近い値ではあるでしょうが、多少違った値になるでしょう。 仮にm2が55になったとして、それをまた度数分布図にプロットします。

こうした操作をしつこく繰り返していくと、無限回目には図1.2のようなきれいな標本平均の分布ができ上ります。 この分布に関して、次のことが成り立ちます。

・標本平均の平均値は母平均μと一致する。

・標本平均の分布は、母集団がどんな分布をしていても、漸近的に正規分布に近似する。 これを「中心極限定理(central limit theorem)」という。 (「漸近的」とは、標本集団の例数が多いほど、正規分布に対する近似が良くなるという意味である)

・標本平均の標準偏差Smは、標本集団の例数をn、母標準偏差をσとすると、次のようになる。

実は、この標本平均の分布における標準偏差Sm、つまり標本平均の標準偏差のことを「標準誤差」と呼びます。 ただし通常、母標準偏差σは未知ですから、標本集団から計算した母標準偏差推測値Sで代用して、次のように計算します。

標準誤差は、一言でいえば「標本平均のばらつき」であり、標本平均で母平均を推測する時の誤差の大きさを表す指標になります。 そして上式からわかるように、例数が増えれば増えるほど標準誤差が小さくなるため、標本平均で母平均を推測した時の誤差が小さくなり、標本平均の信頼性が増します。 これは考えてみれば当然のことであり、「データ数が多いほど実験結果が信頼できるようになる」という常識を裏打ちしています。

図 1.4 のように、母平均の変化とその推測誤差範囲を表したい時は標準誤差

μ=m±SE:「μをmで推測するとSE 程度の推測誤差がある」という意味

図 1.3 のように、データのバラツキ具合を表したい時は標準偏差。

m±SD:「データにmを中心にしてSD程度のバラツキがある」という意味。

※一般には要約値つまり統計量の標準偏差を標準誤差と呼ぶ。しかし普通は平均値について議論することが多いので、単に「SE」と書けば「平均値の標準誤差」つまり「SEM(Standard Error of Mean)」を指します。

このような標準誤差の意味を考えると、先の図1.3のような平均値の経時的変化を示すグラフでは、平均値の上下に標準誤差を付け加えるのが適切だということがわかります。 なぜならば、このグラフの意味するところは次のようなことだからです。

「実験結果では、標本集団の平均値はグラフの折れ線のように変化した。 しかし、この標本平均で本当の平均値つまり母平均を推測すると、標準誤差程度の推測誤差がある。 このため母平均は、標本平均の上下に標準誤差をプラス・マイナスした幅の間を変化していると考えられる。 だから、このグラフはそのような帯状のグラフとして見てほしい」

それに対して、例えばAという錠剤100錠と、Bという錠剤100錠の重さを測定したところ、平均値はどちらも同じだったが、データのばらつきはA錠の方が小さかった、つまり錠剤の均一性はA錠の方が高かったとします。 このことをグラフ化したい時は、図1.4のように平均値の上下に標準偏差を付け加えるのが適切です。 なぜならば、平均値の上下に標準誤差を付け加えると、母平均の推測範囲を表すグラフになり、データのばらつき具合を表すグラフではなくなってしまうからです。

では、論文などでよく見るデータの表記はどうなっているでしょうか。

SD(標準偏差)はよく見ますね。SE(標準誤差)は少ないかもしれません。これは、(自分たちの)介入行為によってどの様に変化したのかを示したいときは介入による変化の推測範囲を表すグラフが適していますね。だから平均値±SDという使い方をします。

一方介入がなく分布のバラツキが生じるときそこには誤差が必ず含まれているので本当の値はこの範囲内にあるという表現をしたいときには、SE(標準誤差)を用います。検査値などの経年変化を表す場合などは平均値±SEで用いるのが正解です。そこでは単に誤差の範囲を表しているのではなく、本当の値はその範囲内にある。と言った推測統計の意味合いが含まれています。

このように、標準偏差と標準誤差はその意味するところを十分に考えて、適切に使い分ける必要があります。

「SEの方が小さくて、グラフの格好が良いから…」

とか、

「何だか知らんが、皆がそうするから…」

といった、高度に政治的な判断で使い分けてはいけません。

標準誤差は推測統計学独特の指標であり、記述統計学にはありません。 このことは標準誤差の求め方から考えて、容易に理解できると思います。 したがって平均値の上下に標準誤差を描くということは、単に標本集団の様子をグラフ化しているのではなく、母集団の様子を推測してグラフ化している、つまり記述統計学ではなく推測統計学を適用している、ということを明示することにもなります。

検定と推定

データの要約法の次は、検定について説明しましょう。 そもそも推測統計学すなわち近代統計学では、標本集団の要約値から母集団の要約値を確率的に推測し、その要約値によって母集団の様子を記述します。 この時、母集団の要約値を推測する手法として「検定(test)」と「推定(estimation)」があります。

検定は、母平均μが実質科学的に意味のある基準値μ0と等しいか等しくないかを○×式で判定する手法であり、推定は、μが実際にどれほどの値なのかを推測する手法です。 つまり、検定は昔懐かしいリトマス試験紙のような定性試験であり、推定はpH計のような定量試験であるといえるでしょう。

統計学はこの2本の柱からできていて、当然、定量試験である推定の方がより重要です。 ところが実際の研究現場では、推定よりも検定の方がはるかに頻繁に利用されていて、検定の方が重要だと思い込んでいる人が多いのは何とも残念なことです。

区間推定はある程度の幅を持たせて母数を推定する方法です。 その幅のことを信頼区間(CI:Confidence Interval)または信頼限界(CL:Confidence Limits)といい、その間に母数が入っている確率を信頼係数(confidence coefficient)または信頼度といいます。

標本平均の分布は漸近的に正規分布になり、その平均値つまり標本平均の平均値は母平均と一致し、標本平均の標準偏差は標準誤差になります。 そして正規分布の性質から、母平均±2標準誤差の間に約95%の標本平均が含まれます。 したがって、ある実験結果から標本平均と標準誤差を得た時、逆に標本平均±2標準誤差の幅を設ければ、その間に約95%の確率で母平均が入ることになります。 その幅の下限μLと上限μUは次のようになり、これを95%信頼区間(95%CI)といいます。

統計の専門家は検定におけるP値はこの信頼性区間の中にある中間点を記述しているに過ぎず、信頼性区間を重要視する傾向があります。

厳密に言うと、SE に掛ける係数 2 は自由度(n-1)と信頼係数によって値が少し変わります。この係数を t 値といい、自由度(n-1)、信頼係数 100(1-α)%の時の t 値を「t(n-1,α)」と書きます。例:t(60,0.05)=2 , t(60,0.01)=2.66 , t(∞ ,0.05)=1.96 等

では、検定とはどのような手法なのでしょうか?

検定は○×式の定性試験ですから、最初に必ず問題を設定します。普通これを「仮説」と呼びます。 またまた体重測定の例を取り上げて、次のような問題について調べてみることにしましょう。

「日本人の平均体重は50kgであるか否か?」

この時どの様な「仮説」を立てますか?

ここでは、仮に50kgが医学的に意味のある標準体重だと考えて、この値を基準値μ0とします。 この問題に対する回答は2つあり、次のように表現することができます。

H0:日本人の平均体重は50kgである (μ=μ0 または δ=μ-μ0=0)

H1:日本人の平均体重は50kgではない (μ≠μ0 または δ=μ-μ0≠0)

「H」は「Hypothesis(仮説)」の意味で、これらの回答がまだ仮説段階のものであることを表しています。 そして、たいていは実験結果が50kgとぴったり一致することはなく、H0は無に帰することが多くなります。 このため、H0は「帰無仮説(null hypothesis)」と呼ばれています。 それに対してH1は、H0と対立する仮説ですから「対立仮説(alternative hypothesis)」と呼ばれています。

これら2つの仮説のどちらが正しいかを検証するために、母集団から100人の標本集団を無作為抽出して体重を測定し、平均値が60kg、標準偏差が10kgになったとします。

ところが、これはあくまでも標本集団の結果だから、これだけで即断を下すのは早すぎる。よほど確実に結論できない限りは何もいわずに誤魔化しておこう。対立仮説の正しい確率を求めて、それが非常に大きな値の時しか結論をいわないようにしよう。これが検定の本質なのです。

まあこういうと終わってしまいますが、このような検定の考え方はフィッシャー流の検定であり、厳密には「有意性検定(test of significance)」と呼ばれています。しかし現在では、「統計的仮説検定(statistical hypothesis testing)」または「仮説検定(test of hypothesis)」と呼ばれる手法が主流になっています。

フィッシャー流の検定では、対立仮説の正しい確率を求めて・・とあるように対立仮説の正しい確率を求める事を行います。

実はこのことは非常に難しいのです。対立仮説の確率を求めるには厳しい管理の元で厳密にコントロールされた条件下で行うことが求められますので、事前の段取りが必要となります。このため実験計画法と呼ばれる方法を取らないといけません。

有意性検定は、仮説の正しい確率が非常に高い時だけ結論として採用する手法であり、仮説の正しい確率が低い時は結論を保留します。 このため、検定結果が有意にならない時は結論を採用することができません。 これは非常に誤解されやすく、有意性検定の欠点といえるもので現在では、仮説検定と呼ばれる手法が主流です。

この仮説検定手法では、次のように実質科学的に意味のある具体的な差δ*(scientific significant difference)を用いて、具体的な対立仮説を設定します。

H0:日本人の平均体重は50kgである (μ=μ0 または δ=μ-μ0=0)

H1:日本人の平均体重は45kgまたは55kgである (μ=μ0±δ* または δ=μ-μ0=±δ*=±5)

と言う具合に。

δ*は、この値より小さな差は実質科学的には誤差範囲であり、母平均μと基準値μ0が実質的に変わらないことを表す値なので、「(最小)検出差」と呼ばれています。 この場合は、±5kg未満の差は医学的には誤差範囲であり、体重は実質的に変わらないと仮定します。

ここで注意しなければならないことは、この対立仮説は無数に考えられる具体的な対立仮説の中のひとつであり、有意性検定の対立仮説のように、帰無仮説の反対の意味を持つ仮説ではないということです。 このため帰無仮説が正しい確率をpとすると、この対立仮説が正しい確率を1-pとして計算することはできません。 その代わり、帰無仮説が正しい確率を計算するのと同じような方法で、この対立仮説が正しい確率を直接計算することができます。

標本平均の分布において、中心からかけ離れた、分布の両裾部分の標本平均を得る確率は非常に低くなります。 もし実験結果の標本平均mがそのような両裾部分に入ったとしたら、mはこの母集団から得られた標本平均ではない、つまり帰無仮説が間違っていてμ≠μ0という対立仮説が正しいと考えるのです。

図1.8の標本平均の分布において、両裾の濃い灰色で塗りつぶした部分にmが入った時は帰無仮説を棄却します。 このため、この部分を「棄却域(critical region)」といいます。 そして棄却域の面積が「非常に低い確率」の目安であり、有意水準αになります。 この値は「αエラー」または「第1種のエラー」とも呼ばれています。 棄却域を分布の両裾にα/2ずつ割り振るのは、μ≠μ0にはμ<μ0とμ>μ0の2つの場合があるからです。

実験結果の標本平均mが棄却域に入っているかどうかを判定するには、2つの方法があります。 1つは、あらかじめ棄却域の境界値を計算しておき、その値とmを比べる方法です。 図1.8の標本平均の分布において、分布の左側つまり下側棄却域の上限をmLとし、右側つまり上側棄却域の下限をmUとすると、t分布表の自由度φ=n-1の100・α%点の値t(φ,α)を利用してmLとmUを求めることができます。 そしてこれらの値とmを比較することによって、mが棄却域に入っているかどうかを判定することができます。

しかし、実際には棄却域の境界値を計算する代わりに、実験結果から計算したtoとt(φ,α)を利用して判定します。 これが、t値そのものを利用したt検定です。

もう1つは、図1.8の標本平均の分布において、mから右側の部分の面積つまり薄い灰色で塗りつぶした部分と濃い灰色で塗りつぶした部分の合計面積を計算し、その値とα/2を比べる方法です。 その値は、標本平均の分布の代わりにt分布を積分することによって計算することができます。(面積を出すというのは、数学的に積分すると言います。) ただし実際には、わかりやすさを考えて、t分布の積分値とα/2を比べる代わりに積分値を2倍した値とαを比べます。 その積分値を2倍した値が有意確率p値であり、これがt値のp値変換を利用したt検定です。

mが母平均よりも小さい時、つまり分布の左側にある時はmから左側の部分の面積を計算します。 しかし標本平均の分布は左右対称ですから、その面積は分布の右側で計算した値と同じになります。 したがってmが分布のどちら側にあっても、t分布を|to|から∞まで積分すれば良いことになります。

このようにt値もp値もmが棄却域に入っているかどうかを判定するための目安にすぎず、それ自体にはあまり大きな意味はありません。 ただp値が正確に計算されていると、ぎりぎりで有意ではないのか、それともまるっきり有意ではないのかということや、有意水準がどの程度だったら有意になるかといったことがわかり、結果を考察する際の参考にはなります。

結果の標本平均mが棄却域に入らなかった場合、有意性検定では帰無仮説を棄却せずに結論を保留します。 しかし統計的仮説検定では具体的な対立仮説、

H1:日本人の平均体重は45kgまたは55kgである (μ=μ0+δ* または δ*≠0)

を棄却して、その反対の意味を持つ結論、

日本人の平均体重は45kgよりも大きく、55kg未満である (μ0-δ*<μ<μ0+δ* または |δ|=|μ-μ0|<δ*)

を採用します。

これは「母平均と基準値の差の絶対値がδ*未満である」つまり「母平均は基準値と実質科学的にほぼ等しい」という意味の結論であり、「母平均は基準値とぴったり等しい」という意味の帰無仮説とは微妙に異なることに注意してください。

このように統計的仮説検定は、実験結果に基づいて、より可能性の少ない具体的な仮説を否定し、その反対の意味を持つ結論を採用する手法です。 そしてどのような結論を採用するにしても、それが間違っている確率を明言しておくのです。 それによって、結論保留という曖昧な検定結果がなくなります。 この点が、有意性検定と大きく異なるところです。

<統計的仮説検定の手順詳細>

(1) 問題を設定する。

問題:日本人の平均体重は 50kg か?→ μ=μ0=50 ?

(2) 帰無仮説と対立仮説と検出差を設定する。

帰無仮説 H0:日本人の平均体重は50kg である→μ=μ0またはδ=μ-μ0=0

対立仮説 H1:日本人の平均体重は45kg または55kgである→μ=μ0±δ*=μ0±5 または δ=μ-μ0=±δ*=±5※有意性検定の対立仮説「日本人の平均体重は 50kg ではない」は帰無仮説の否定であり、具体的な仮説ではありません。それに対して上記の対立仮説は具体的な仮説である点に注意。

(3) 有意水準 α(α エラー)と検出力=1-β(β エラー)を決める。

有意水準を 5% にする→ α=0.05 、信頼係数 (1-α)=0.95

検出力を 80% にする→ (1-β)=0.8 、 β=0.2

(4) 母集団から n 例の標本集団を無作為抽出する。

日本人全体から 100 名の人を無作為抽出→標本集団

(5) 標本集団のデータを測定して要約値を求める。

100 名の体重を測定→標本平均 m=51 、不偏標準偏差 SD=10

(6) 帰無仮説が正しいと仮定した時の母集団と、対立仮説が正しいと仮定した時の母集団を想定し、その母集団から n 例の標本集団を無作為抽出して標本平均を求め、それを無限回繰り返した時の標本平均の分布を描く。

(7) 帰無仮説が正しいと仮定した時の標本平均の分布で、分布の左右の端にそれぞれ α/2 の面積の棄却域を設定する。

この時、図 1.9 の左側の標本平均の分布で、mL=48kg 以上の範囲の面積(確率)は β になり、右側の標本平均の分布で、mU=52kg 以下の範囲の面積も β になる。これら 2 つの範囲は対立仮説の棄却域に相当する。

※対立仮説の棄却域は左右の標本平均の分布の片側にしかなく、その面積は β/2 ではなく β になる。これは μ=μ0-δ*と μ=μ0+δ*はどちらか一方しか起こらないため、β を 2 つに分ける必要がないからである。

95% 信頼区間は 51±2×SE より、下限 μL=49 、上限 μU=53

(8) 実際の標本平均値 m が棄却域に入っているかどうかを調べる。

○方法 1:m と棄却域の上限または下限を比較する。

51 は上側棄却域の下限 52 よりも小さいから棄却域に入っていない

○方法 2:μ0と m の距離(m-μ0)が(mU -μ0)よりも大きいかどうか調べる。

51-50=1 は 52-50=2 よりも小さいから棄却域に入っていない

○方法 3:t 分布において、toから右側の確率=p/2 を計算して 2 倍し、それが α よりも小さいかどうか調べる。

to=1 から右側の分布の面積 ×2=p=0.3198>0.05 だから棄却域に入っていない

(9) m が棄却域に入っている時は有意水準 α で有意として、帰無仮説を否定した仮説を統計学的結論として採用する。

有意水準 5% で有意→統計学的結論:日本人の平均体重は 50kg ではない。

これは対立仮説「日本人の平均体重は 45kg または 55kg である」の採用ではない点に注意。

(10) m が棄却域に入っていない時は有意水準 α で有意ではないとして、対立仮説を否定した結論を統計学的結論として採用する。

有意水準 5% で有意ではない

統計学的結論:日本人の平均体重は 45kg よりも重く 55kg よりも軽い

(11) 統計学的結論を科学的に評価して、実質科学的結論を下す。

○有意の時…母集団の平均体重の推測値 51kg は基準値 50kg に比べて 1kg 重い。

医学的結論:これは医学的に見ると意義のない差である。

○有意ではない時…母集団の平均体重は 45kg よりも大きく 55kg よりも小さい。

医学的結論:これは医学的に見ると実質的に 50kg と等しい。

統計を使って結果を評価するときの基本的な考え方

以上難しく数式を並べながら述べてきましたが、要約すると次のようになります。(研修ではこの文章の方が分かりやすいと言うことでしたが、本筋を理解しようとすると前の文章が役に立ちます)

統計的検定では、結果の有意差を計算しそれの有無によって判断しています。

この有意差とは、結果が起こる確率を意味しており、実際に得られた結果が何もしなかった時の確率と比較して起こりえそうもない確率(定義では5%以下)が出た場合、何かあった(つまり介入的な効果があった)と判断しています。

検定とはこれだけのことなのです。どんな複雑な統計手法もこのことを示すために行われているだけです。

世の中にはいろいろな検定手法が存在します。なぜこのような回りくどいことをしているのかというと、「何もしなかった時の確率」これが問題なのです。

今皆さんが、健診データの検査値・・体重としましょう・・が自分たちの指導によって改善したと言いたいときにどうするでしょう。

最初の体重のデータと、指導後のデータを比べて有意差判定をする。

この言い方はこれで正解なのですが、最初の体重のデータと、指導後のデータを比べて分かるのは前後の差の大きさだけです。

この差の大きさによって、効果云々を言うためにどういう事をしなければならないのか考えてみましょう。

大きな差があった場合、効果ありと言いたいけれどそれを証明するには?あるいは、どれくらいの差があれば、効果ありといえるのか?

実際に保健指導の効果を判定するとしましょう。効果があることを直接示したいとしましょう。

ところが、保健指導の効果はいろいろな要素によって変わってきます。

自ら行った指導の効果がある事を直接言うためには、全ての要素について吟味する必要があります。この中に漏れは許されません。

ところが、全ての要素を洗い出すと言うことは不可能に近いですね。

あるいは、いくつかの要素を考慮して作られた効果判定の方法があるとします。その通りに実施することは、つまり与えられた要素以外を全て排除して実施するということですから、判定効果の実証ならいざ知らず、自ら実施した有効性を判断する事には向いていない事になります。

実は、前後の差の大きさによって効果判定を行う方法はありません。

それは最初に取ったデータの素性がハッキリしないからです。指導を期待している人達を集めた場合と最初から受け入れる気がない人達を集めた場合では、明らかにデータが違ってきますね。

前後の差の大きさによって効果判定を行う場合、前のデータつまり基準となるデータは常に普遍的なものでないと比較ができません。ここを都合良く動かされると、結果はどうにでもできてしまいます。

つまり、保健指導の効果を直接判断しようとすると、全ての要素を吟味する必要が出てくるため現実には不可能となります。

しかし、是が非でも効果を判定したい。そうなると別の発想が必要になります。

もし、「何もしない場合こういう事になる」と予め分かっていることがあれば、実際に何か介入(指導)を行ったときには何もしなかった場合と「違う結果」が得られることになりますね。

「何もしない場合こういう結果になる」と「何かしたらこういう結果になった」この両者を比較して大きな差違が見られれば、「何かした」介入の影響を受けていると考えるのが自然です。

「何かした場合」つまり「介入」をおこなった結果大きく影響を受けたと解釈できます。このとき、「大きな差違」の定義をハッキリさせておくとそれにしたがって判定することができるようになります。

この大きな差違をいつでもどの様な場合でも使えるようにするには、データ値の大きさで示すよりも、発生する確率で示すことにより、普遍性を持たせることができるようになります。この時の発生する確率が「何もしなかった時の確率」なのです。そして、この時の確率判定の基準(「大きな差違」の定義)を有意水準と呼びこの基準に従って判断を下す。

これが統計的検定のやり方なのです。

ちなみにこの有意水準を5%以下としています。この5%以下で起こる確率の場合大きな差違が生じていると判断し何らかの効果があったと結論づけています。この5%は、数学的な裏付けはなく、歴史的にエイヤーで決められたものですが、現実的というか日常的には理解できる数値です。

数学的には偶然で5%以下が出てくる場合もあるので、いろいろと難癖つけてくる方もいますが、次のようなゲームを考えてみると日常的に理解しやすいでしょう。

袋の中に赤玉と白玉が入っています。(数はどうでも良いのですが、同数です)袋から取り出したとき赤玉なら千円お渡しします。白玉なら逆に千円払って頂きます。こんなゲームです。

最初に出たのが白玉です。→千円払ます。この時白玉の出る確率は50%。

次も白玉です。→悔しいですね。連続2回白玉の出る確率は25%です。

次も白玉です。→イカサマか? 連続3回白玉の出る確率は12.5%です。

次もまた白玉です。→イカサマだ! 連続4回白玉の出る確率は6.25%です。

まだ続けますか?大概の人はここでイカサマを行っていると思うでしょう。

そして次もまたまた白玉です。 連続5回白玉の出る確率は3.12%です。

さすがに5連続負けが続くと数学的には偶然で3%以下が出てくる場合もあると言うよりも現実的にはイカサマを疑いますね。

 では、このイカサマを介入効果と置き換えてみましょう。つまり、数学的には起こりうる事かもしれないが、現実的には介入効果があったとするのが心情的にピッタリします。ですから5%以下を有意水準とするのは現実的にも妥当な事なのです。

帰無仮説の立て方

最初に取った体重の平均値は、何もしていない人達から無作為に集められた代表と見なすことができ、何もしていない人達の母集団から抽出された平均値として計算することができます。この平均値と、指導後の平均値の差をとると、指導効果が全くなかった場合、中心極限定理によって、指導後の平均値の差の値は正規分布上のどこか一点に乗ることになります。そして指導効果が全くなかった場合の確率を100%とすると、指導効果の影響が強いほど確率が0に近づきます。

このことを上手く利用すれば、指導の効果判定ができますね。

これを行うには、どう計算するか考えます。

指導効果が全くなかった場合の確率を100%とすると言うことは、指導効果によって得られた平均値の差が正規分布上の値と等しくなると言うことですので、「体重の変化は指導の前後では平均値の差はない」と言うことを計算することになります。つまり、正規分布上の値と等しくなるというのは、何ら介入を受けていない人達と同じ分布になると言うことです。

これを「体重の変化は指導の前後では平均値の差がある」として計算しようとすると比較する基準となる分布が存在しないことになるので、計算のしようがありません。(つまり指導を行うとこのような分布になるというものが存在しない)

ですから、この「体重の変化は指導の前後では平均値の差はない」が立てる仮説になります。そしてそれが否定された結果が得られたら、仮説が間違いである、つまり平均値に差がある、つまり指導の効果があったと結論づけることができます。

このようなやり方を統計的仮説検定と呼び、この仮説を帰無仮説と言います。

ここで注意しなければいけない点は、否定されなかった場合です。

否定されない場合、「平均値の差はない」つまり「平均値は等しい」と考える事ができますが、「有意ではない」という意味合いは、「実験結果をそのまま素直に信頼して結論すると、間違ってしまう危険性が大きいので、はっきりした結論は保留する」という意味なので、「平均値は等しい」を採用すると間違った結論を出すことになります。

つまり、「有意である」場合は「対立仮説を採用する」と言うことですが、「有意ではない」ということは「帰無仮説を採用する」と言うことではない。ここを間違えないようにして下さい。ここは以外と間違うところなのでもう少し詳しく説明しましょう。

本来評価を下したい場面では、「~は効果がある」と直接答えを求めたいところですが、統計的検定では、わざわざ「~は効果がない」と反対の仮説を設定し、それが棄却されると「~は効果がある」と認める形を取っています。

これは、数学で√2が無理数であることをいうために有理数であると仮定する背理法という考え方に似ています。

帰無仮説自体は「背理法」ですから、否定したい仮説を設定し、得られた結果から確率的に仮説の矛盾を導こうとするものです。そうでないことを示すためにわざわざ仮定する仮説を「帰無仮説」、矛盾と見なす確率を「有意水準」と呼んでいるのです。

このような検定の流れに対して何か不自然なものを感じるかたも多くいると思います。最初から「~は効果がある」ことを仮定して仮説検定するほうが自然の流れなのではないかという思いです。

では、最初から「~は効果がある」ことを仮定して仮説検定をすることを考えてみましょう。

この時の帰無仮説は、「~は効果がある」です。(本来と逆です)

ここで、「~は効果がある」という仮説が棄却された場合(つまり数学計算で=ではないと言う計算結果が得られた)、積極的に「効果がない」と結論することはできるのですが、棄却されない場合、積極的に「効果がある」ということにはなりません。棄却されないことは単に効果を示す十分な証拠がないということであって、いいかえると「効果がないとはいえない」という消極的な結論しか導けないのです。

有意差検定で帰無仮説が棄却されたら、それは積極的に「効果あり」を支持しますが、棄却されないことは積極的に「効果なし」を支持するものではありません。

「有意差がない(帰無仮説が棄却されない)というのは単に検出力やサンプルサイズが不十分で有意差が示せない(有意差を示す十分な証拠がない)だけかもしれず、積極的に帰無仮説を支持するものではないのです。すなわち「効果があるとはいえない」ということであって,これは有意差ありが積極的に対立仮説を支持するのに対する大きな相違点です。

このように、検定の論理は対立仮説を積極的に認めることはできるけど、帰無仮説を積極的に認めることは難しいという内容になっています。

つまり、有意差検定では、「効果なし」とする帰無仮説と「効果あり」とする対立仮説の評価が対等に扱われていないことを示しています。

では、最初に戻りますが、私たちが知りたい結果は何でしょうか。

効果があるのかないのかですよね。そうすると、検定の論理では対立仮説を積極的に認めると言うことですから、対立仮説に「効果がある」を持ってきた方が理にかなっています。ですから帰無仮説を「~は効果がない」とするのです。

例えば、健診検査値において、指導の前後で有意差が出ていることを示したい。と言う場合、これの仮説検定はどうなるでしょうか。

この場合帰無仮説を「検査値(の代表値)は、指導の前後において差はない」として検定することになります。

検査値の代表値を平均値とすると、指導前の平均と指導後の平均値の差、即ち平均値の差の検定を用いることになります。

これが棄却されると、(有意差がある・・・仮説では差はないとしていますね。そして有意差が出たと言うことは、差があるという結果を出しています)何らかの要因があり変化を生じたとの評価結果を得ることが出来ます。

統計的検定というのは、全て仮説が否定されることを望んで行われるのです。ですから、直接の結果が無に帰すということで、帰無仮説と言われるのです。

統計的検定の妥当性(統計的検定の行われる場面)

データ同士を検定・評価する場合、対象データの無作為抽出の有無、無作為割り付けの有無によって下表のように分類出来ます。ここで、効果判定とは健康教育等の介入による効果を評価する場合、一般化適応とは得られた結果を普遍化して評価する場面を指しています。

無作為割り付けとはなじみの薄い言葉かもしれませんが、例えば、10歳から60歳までの集団を10歳区切りで無作為に抽出したとします。無作為抽出ですから、各世代間では、男女入り交じり人数もバラバラです。また場合によっては近隣通しとか、趣味が似通った通しの世代もあれば、全く違う世代も出てきます。本来無作為抽出ではもとの抽出先と全く同じ条件となるのが前提です。理論的には無限回数行えばそうなります。

しかし、数回の抽出では偏りが生じてしまい、本来の無作為抽出との前提が崩れていますね。そこで強制的に偏りを補う(各世代とも抽出先と同じ男女数を抽出するとか、他の条件を同じにして抽出する)ことで本来の無作為抽出と同じ条件に揃えることを無作為割り付けと言います。

統計では、無作為抽出と言うとランダムに抽出し、人為的な行為は行われていないと考えがちですが、理想的な無作為抽出状態を作り出すために徹底的に手を加えます。それによって偏りのないデータを作り上げるのです。

無作為抽出は一般化適応への妥当性の問題に関連し、無作為割り付けは効果判定の妥当性の問題に関連しています。無作為割り付けが行われていない場合は選択バイアス、交絡バイアスが発生する可能性が大きくなります。

統計的検定が用いられるのは、効果判定・一般化適応への妥当性が確保されるAの場合(網掛けの部分)と一般化適応への妥当性は脅かされるが効果判定への妥当性は確保されるB(網掛けの部分)の場合だけです。Cは一般化適応への妥当性は保たれていますが効果判定の妥当性が脅かされるため、(この効果判定で得られた結果を基に一般化を行う事は無意味です。)

このように無作為割り付けを行っているかどうかで検定可能かが問われます。

これは無作為抽出、割り付けが行われていない場合には統計解析の大前提である観測値の独立性が保証されていない事によるものです。しかし、現実にはこのような場合でも検定らしきものが行われている事例を見かけます。このような場合得られた結果を検定など行わず、その分野(保健分野)における蓄積された経験的知識に基づく経験的事実として扱うことです。また、対象とした集団が母集団を本当に代表しているかどうかはどの様な統計手法を用いても明らかに出来ない以上、無作為抽出が行われていない場合得られた結果を一般化することは科学的に根拠の得られない方法と言わざる終えません。

統計的検定の持つ意義

無作為割り付けを行っていても無作為抽出の有無によって検定のもつ意義が異なります。上記表のAの場合とBの場合では検定の意義が違うという話です。

Aの場合(無作為抽出有り)対象を分析した結果から母集団の情報を得ようとして一般化を行うという外的妥当性に関する検定であるのに対し、(このことはAにおける帰無仮説を考えれば分かります。この場合の帰無仮説は2つの集団における母集団の差は等しいとなります)Bの場合(無作為抽出無し)対象である介入群とコントロール群の母集団に関する帰無仮説を検定しますが、その結果は一般化することは出来ません。この場合の一般化は統計学以外のその分野において経験的に蓄積された知識に基づく事実しかないのです。即ち、A地区を対象として行った調査データや健康教育の結果がB地区にも当てはまるかは�