4
図表 1 0101・・・(デジタルデータ)はさまざまな意味をもち得るので、共通の理解には共有のプロトコルが必要  統計学とビッグデータ 「世の中には3 つの嘘がある。嘘、真っ赤な嘘、統計だ」(ベンジャミン・ ディズレーリ元英首相)と言われるように、統計学は数学と比べうさんく さいものに見られている。 確かに統計学では、数学のように割り切れる結果は導き出せない。 しかし、数学が実生活で役に立つのは、買い物のおつりの計算ぐらい である。それに対しその他のことは、お昼の食事を何にするかから天気 予報まで、すべて無意識にではあっても統計学で処理されている。それ は、仮説思考と呼んでもよいかもしれない。「これこれの行動をとったら、 あれそれの理由で、どれそれの結果が訪れる」という考え方である。 やり直しの利かない命にかかわる医学上のことや、結果を得るまでに 時間を要する遺伝にかかわることを検討するため、統計学は発達してき 統計解析(超)入門 基礎を鍛える 伊藤 敏幸 株式会社アイ・ラーニング IT 研修本部システム技術研修部 ラーニング・アドバイザー 東京大学工学部卒業、日本アイ・ビー・エム株式会社入社。営業/ SE職を経て研 修事業部講師、主にネットワーク・セキュリティ研修を担当。IT 研修部長を経て、企 画部門にて顧客分析、事業計画に従事。2011年に独立し山志庵庵主。企業コンサ ルタントを主たる職に活動し、現在に至る。アイ・ラーニングで「データサイエンティ スト入門」などの講師を務める。著書に『なるほどナットク! ネットワークセキュリティ がわかる本』『合格の法則 ネットワーク試験』(以上、オーム社)、その他共著多数。 データの種類 連載 第 1 回 PROFILE・Toshiyuki Itoh X’ 05’ 国家機密 ? ? ? 144 2014.01

統計解析(超)入門 - i-Learning · 統計解析(超)入門 連載 第1回 データの種類 (*1)セマンティックWeb Webページに記述された内容を表す情報(メタデータ)を一定の規則に従って付加

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 統計解析(超)入門 - i-Learning · 統計解析(超)入門 連載 第1回 データの種類 (*1)セマンティックWeb Webページに記述された内容を表す情報(メタデータ)を一定の規則に従って付加

図表 1 0101・・・(デジタルデータ)はさまざまな意味をもち得るので、共通の理解には共有のプロトコルが必要 

統計学とビッグデータ

「世の中には3つの嘘がある。嘘、真っ赤な嘘、統計だ」(ベンジャミン・

ディズレーリ元英首相)と言われるように、統計学は数学と比べうさんく

さいものに見られている。

 確かに統計学では、数学のように割り切れる結果は導き出せない。

しかし、数学が実生活で役に立つのは、買い物のおつりの計算ぐらい

である。それに対しその他のことは、お昼の食事を何にするかから天気

予報まで、すべて無意識にではあっても統計学で処理されている。それ

は、仮説思考と呼んでもよいかもしれない。「これこれの行動をとったら、

あれそれの理由で、どれそれの結果が訪れる」という考え方である。

 やり直しの利かない命にかかわる医学上のことや、結果を得るまでに

時間を要する遺伝にかかわることを検討するため、統計学は発達してき

統計解析(超)入門

基礎を鍛える

伊藤 敏幸株式会社アイ・ラーニングIT 研修本部システム技術研修部ラーニング・アドバイザー

東京大学工学部卒業、日本アイ・ビー・エム株式会社入社。営業/ SE職を経て研修事業部講師、主にネットワーク・セキュリティ研修を担当。IT研修部長を経て、企画部門にて顧客分析、事業計画に従事。2011年に独立し山志庵庵主。企業コンサルタントを主たる職に活動し、現在に至る。アイ・ラーニングで「データサイエンティスト入門」などの講師を務める。著書に『なるほどナットク! ネットワークセキュリティがわかる本』『合格の法則 ネットワーク試験』(以上、オーム社)、その他共著多数。

データの種類連載 第 1回

PROFILE・Toshiyuki Itoh

010011011110101000011X’05’

国家機密

? ? ?

144 2014.01

Page 2: 統計解析(超)入門 - i-Learning · 統計解析(超)入門 連載 第1回 データの種類 (*1)セマンティックWeb Webページに記述された内容を表す情報(メタデータ)を一定の規則に従って付加

図表 2 データの種類

た。なるべく少ないデータから、なるべく多くの知見を導き出すため、さ

まざまな手法が発展している。その中で多くの日本人が、理論や方程

式にその名を残している。

 昨今ビッグデータの処理において統計学が脚光を浴びている。しかし、

基本的には小さな標本から大きな母集団を想像するところが統計学の要

である。ビッグデータの処理においても、まずは目の前に存在する少な

いデータを基に仮説を立て、それを適度なデータで検証し、現実のビッ

グデータに適用する手順となる。

 今回の連載は、「統計解析(超)入門」と題し、統計解析の書籍

では扱われないような基本の部分を解説する。全3回の連載で、世の

中の事象をどのような数字として捉えどう解釈するかを順次明らかにす

る。

 1回目は、物事を表現する数字にどんな種類があるのかを確認し、次

回それらの数字の特徴をどのように表現するか、最終回では数字の特

徴を比較することで事象同士の関連をどのように解釈するかを明確にす

るので、ご期待いただきたい。

解析対象はすべてを数値化する

 世の中はデジタル時代である。すべてのデータが「0101」の2進

数で表記されている。

 では「0101」は何を意味してい

るのであろうか。十進数の5かもし

れないし、グリーンの光だけを強く点

灯する指示かもしれない。暗号の一

部、圧縮されたビデオの一部、果

ては大手百貨店のことかもしれない。

「0101」だけで表現されたデータ

の意味を、お互い正しく理解し合うた

めには、共通のプロトコルが必要で

ある。現在標準としてはXMLの利

用が進んでおり、これはセマンティッ

クWeb(*1)に拡張され、より汎用

的に利用されることになる。統計学

においても「0101」が何を表して

いるかがとても大切な情報になる(図

表1)。

 統計解析を行う対象は、「男/女」

「好き/嫌い」などさまざまであるが、

分析にあたってはすべてを数値化す

る必要がある。今「男」を1「女」を0と表すこととし、「好き」を1「嫌

い」を0と表すことにした。そのとき数字がもつ意味はまったく異なるも

のになる。男女を表す1、0に優劣はないが、好き嫌いを表す1、0に

は優劣がある。この違いを正しく理解していないと正しい分析を行うこと

ができない。また、蛇足になるが、これらを数字で表す際、1、0の代

わりに1、2を使ってはいけない。0には否定の意味があり、男でない

場合とか好きでない場合のように分析ツールが理解し正しい分析が可能

だが、女は男の2倍、嫌いは好きの2倍という解釈はできないからである。

最初は、データのもつおおもとの意味を確認していこう。

量的データと質的データ

 まずデータの種類であるが、大きく「量的データ」と「質的データ」

に分けられる。「量的データ」は始めから数値情報にもつものであり、

人数や体重などがこれに当たる。「質的データ」はカテゴリーで分けられ

るもので性別や好みなどがこれに当たる。ただし、視力などは数値デー

基礎を鍛える統計解析(超)入門連載 第1回 データの種類

(*1)セマンティックWebWebページに記述された内容を表す情報(メタデータ)を一定の規則に従って付加することで、コンピュータが効率よく情報を収集・解釈できるようにする構想

計数データ(離散型データ)

計量データ(連続データ)

量的データ 質的データ

データの種類

145http://www.ismagazine.jp/

Page 3: 統計解析(超)入門 - i-Learning · 統計解析(超)入門 連載 第1回 データの種類 (*1)セマンティックWeb Webページに記述された内容を表す情報(メタデータ)を一定の規則に従って付加

タをもつが、これは便宜的につけられた数字で、0.5と1.0、2.0の関

係は順序を表す以上の情報ではない。

「量的データ」にも1回、2回…などのように飛び飛びの数値になるも

のがある。また、温度や長さのように、まるめて表記されるために飛び

飛びに見えても、どんな数値の間にもほかの数値が存在するものがある。

ほかの表現をすれば、計る物差しが正確になれば、いくらでも詳しい数

値を出せるのが温度や長さである。飛び飛びとなる前者を「計数データ

(または離散型データ)」と呼び、どんなに細かくても表記できる後者を

「計量データ(または連続データ)」と呼ぶ。

 計数データの代表的なものは、人数や個数・回数などである。計量

データの代表的なものは、温度や濃度・長さ・重さ・時間などである。

実生活においては、お酒やジュースを容量(cc)で比較せず、1本2

本や1杯2杯と離散量で比較することも一般に行われている。データ

の分析においては、計数データはまるめの大きさの差でしかないと捉え、

計量データと同一の基準で扱うツールが多い(図表2)。

 計量データには数字の差(間隔)だけに意味があるものと、差以外

に比率にも意味があるものがある。温度は絶対温度で表記しない限り、

差には意味があるが比には意味がない。これは摂氏と華氏での表示を

比べれば明白であろう。間隔にしか意味がなくても、10℃を20℃に暖

めるために必要な熱量は20℃を30℃に暖める熱量と同じであることは

わかる。だが2倍に意味がないので、10℃と20℃の水に何か2倍の

意味があるわけではない。

 それに対し、長さや重さには基準の0が明確であるので、倍率にも

意味がある。距離が2倍になれば移動に2倍の時間を要するし、重さ

が2倍になれば動かすのに2倍の力が必要になる。データの分析にお

いて差だけに意味があるのか、比率にも意味があるのかの差は大きい。

 またまた蛇足になるが、ここでも0に意味があるかないかが基準であ

る。温度の摂氏0度は水が凍る温度、100度は水が沸騰する温度だが、

華氏ではそれぞれ32度と212度であり、ツールによっては意味不明の

データになってしまう。そのため、ツールを使うときにはそれぞれのデータ

に応じた設定に、細心の注意が必要になる(図表3)。

質的データの分析方法

「質的データ」は、出身地や職業・趣味・好き嫌い・賛否などカテゴリー

分けした上で分析の対象にする。このカテゴリーには順序がつけられる

ものとつけられないものがある。視力などは順序づけられるもので、好き

嫌いなども5段階評価や10段階評価にすることもできる。それに対し

て色や模様、出身地や職業などは順位をつけられないものである。

 順序がつけられないもののカテゴリー分けは難しい。色を光の波長で

基礎を鍛える

西暦BC AD

皇紀

元号

2014

2674

平成 26

図表 3 現在の年も基準(ツール)が異なれば年号が異なる

図表 4 色は順序がつけられない

146 2014.01

Page 4: 統計解析(超)入門 - i-Learning · 統計解析(超)入門 連載 第1回 データの種類 (*1)セマンティックWeb Webページに記述された内容を表す情報(メタデータ)を一定の規則に従って付加

並べた場合、虹の七色のようになり、赤と紫が両端になってしまう。し

かし、緑に比べた場合、赤と紫はよく似ており、趣味で利用する場合

の一致度も高いようだ。職業などはサービス業という括りがあるが、他

の職業がサービスをしていないわけではない。また、弁護士と検事は近

い職業なのか両極端の職業なのか、2次元3次元の思考ではとても分

け切れるものではない。ビジネスでお客様の層別を行う場合、職業や

趣味などによる分類を行うこともあると思う。そういう時データの分析で

は大胆に、介護師とそれ以外とか、弁護士とそれ以外のように、2値

に分けることで多くの解決を導き出す(図表4)。

 順序をつけられるものの数字化も、違う意味で問題がある。好き嫌

いなどに階層を区切った場合でも、数値の意味を共通に認識すること

は難しい。

 例えば、5段階で、好き:5、ちょっと好き:4、普通:3、ちょっと嫌い:2、

嫌い:1ぐらいであれば共通に認識できるかもしれない。また、サンプル

数を多くすることにより、確率的に厳しく評価する人と甘く評価する人の

影響を希薄化することもできる。その場合でも、無関心を3と記入され

た場合、正しく分析できない怖れがある。無関心とか知らないは、場合

によっては嫌い以上の負の評価である可能性も大きい。そこで、知らな

いや無関心をデータから外し、好き嫌いの度合いを測るなどで対応する

ことになる。このとき5段階以上に階層化できているのであれば、サン

プル数さえ大きくできれば、量的データとして分析ツールにかけても問題

ないことがわかっている。

 入力として使用するデータ(原因変数、独立変数など、いろいろな

呼び方がある)の種類と、出力に使用するデータの種類(結果変数、

従属変数など、こちらもいろいろな呼び方がある)により、分析に利用

できるアルゴリズムが変わってくるので、データの種類は確実に理解し

ておくことが統計学においては重要である。

 本連載では詳しく説明しないが、データを収集した場合、同じデータ

でも異なる表記で保管されているものが多々ある。それらを同じ表記に

統一する作業(クレンジングまたはデータクレンジングなどと呼ぶ)は、

統計解析の中で最も地味で時間を要する作業になる(図表5)。

 次回は、集めたデータとそれから導き出したデータを他のデータと比較

分析するとき、データの何に注視するかの観点から、データの特徴・特

質について基本的な解説を行う。

図表 5 異なる表記を同じ表記に統一する

基礎を鍛える統計解析(超)入門連載 第1回 データの種類

DB1

DB2

YY/MM/DD

和暦

DD/MM/YYYY

MM/DD/YY

日付

名称

コード

符号

名称 コード 符号日付

情報サービス会社

インターネット情報

147http://www.ismagazine.jp/