74
データ分析手法とツール 解析力

データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

データ分析手法とツール

解析力

Page 2: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目的

統計の理論ではなく、その使い方や意義を学習するモノとして、データ分析のニーズに応じたデータの性質、および代表的な統計的手法を学習すること

データ分析に関わるICT環境・ツールを理解すること

Page 3: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

データ利活用の方針とシナリオに整合したデータ分析の運用を計画することができる

データ分析の目的に応じた分析手法の選択を行うことができる

データ分析の目的との整合を検討することができる

データの特性を理解した分析手法を選択することができる

データ利活用を行うツールの特徴を説明することができる

Page 4: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

前提

数値データを使用した分析を行うために、中学校数学程度の四則演算知識を有すること

Microsoft Excel等の集計・表計算ソフトの使用経験を有すること

Page 5: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目次(データ分析手法とツール)

1. なぜデータ分析が必要なのか

2. 目的にあったデータ分析を選ぶには

3. 全体像を把握する分析手法

4. 比較して判断する分析手法

5. 仮説検証を使った分析手法

6. 知識を発見する分析手法

7. データ分析とICT

8. まとめ

9. その他、参考

Page 6: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

1. なぜデータ分析が必要なのか

ビッグデータを利活用するためには、データ分析手法とツールの使い方や意義が大切であることを認識する

データを用いた分析の結果が意思決定に与える影響を説明することができる

Page 7: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

1. なぜデータ分析が必要なのか

1.1. データ分析の使い方と意義

1.2. データ分析する背景

Page 8: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

ビジネス展開(運用)

ビジネスでの実行

ビジネスへのデータ利活用の導入(企画・計画)

目的の明確化

シナリオの立案

シナリオの有効性評価

環境準備

オペレーションの設計

実行判断

ICTデータの収集

データの蓄積

データの分析

データの棚卸

施策の検討

結果の確認

業務の実施

施策の実行

データの収集

データの蓄積

データの分析

施策判断

1.1. データ分析の使い方と意義

ビジネスを成功させるためには、

裏付けとなるデータが必要

データだけを集めてもビジネスに利用できるデータにはならない

分析手法・ツールの使い方を知ることが大切分析手法・ツールの使い方を知ることが大切

Page 9: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

方策の決定

1.2. データ分析をする背景

データ分析が決定を促す

いくつか案がある

適切な情報がないと決められない

適切な情報を得るには、データ分析

が必要

データ分析手法

解決すべき問題・課題

Page 10: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

戦略的意思決定トップ・マネジメント

• 経営職層が決定すべき、企業目標や自社ドメインの選択等が挙げられる

• 企業全体に関わる重要なテーマが対象となる• 決定が企業に与える影響が大きい

管理的意思決定ミドル・マネジメント

• 管理職層が決定すべき組織構造の決定や経営資源の調達等が挙げられる

• 経営層が決定した方針を受けて、担当する部門での実行を行うための意思決定を行う

• 戦略的意思決定と業務的意思決定の中間に位置する

業務的意思決定ロアー・マネジメント

• 現場に近い層が決定すべき、経営資源の配分や日常の業務方針の決定等が挙げられる

• 実際に業務を遂行する際の問題が対象となる• 日常的に繰り返され、対応も定型的であることが多い• 決定が企業に与える影響は小さい

1.2.1. (参考)意思決定モデル

アンゾフの意思決定モデル

どのような考え方で意思決定がなされるのかを知ることで、意思決定に必要な情報が理解ができ、データ分析手法を選択しやすくなる

Page 11: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

1.2.2. 考えてみましょう

データ分析は、なぜ必要なのでしょうか?

Page 12: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

2. 目的にあったデータ分析を選ぶには

目的とデータ分析の種類を説明できるようになる

Page 13: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2. 目的にあったデータ分析を選ぶには

2.1. データ分析の用途

2.2. 目的とデータ分析手法との関係

Page 14: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2.1. データ分析の用途

全体像を把握する

比較して判断する

仮説を検証する

A B

知識を発見する

Page 15: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2.2. 目的とデータ分析手法との関係(1/4)

全体像を把握する

フォーカスしたいところを特定する 度数分布とヒストグラム

どのような状況になっているかを特定する 平均と標準偏差

統計的なデータから、どのような予測が立つかを特定する

正規分布

一部のデータ(標本)から全体像を把握する標本調査

(全体像の推測)

一部のデータ(標本)の平均から、全体の平均を推測する

標本平均

Page 16: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2.2. 目的とデータ分析手法との関係(2/4)

比較して判断する

複数のデータの関係性から、隠れた特徴を抽出する

相関関係

A B

Page 17: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2.2. 目的とデータ分析手法との関係(3/4)

仮説を検証する

相関関係のある一部のデータから、全体像を推測する

散布図と回帰分析

2つ以上の複合した相関関係のある一部のデータから、全体像を推測する

重回帰分析

そのままでは計算できない質を表したデータを分析する

質的データの取扱い

Page 18: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2.2. 目的とデータ分析手法との関係(4/4)

知識を発見する

テキスト情報から一定の知見や発想を得る テキストマイニング

突出したデータに着目し、想定外を特定する 外れ値の取扱い

Page 19: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2.2.1. 確認テスト

データの分析用途として大きく4つに分類されます。以下の空欄をうめてください。

を把握する

比較して判断する

仮説を検証する

知識を する

Page 20: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

3. 全体像を把握する分析手法

全体像を把握する分析手法にどのようなモノがあるかを、説明できるようになる

Page 21: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3. 全体像を把握する分析手法

3.1. 全体像を把握する分析手法の紹介

3.2. 度数分布とヒストグラム

3.3. 平均と標準偏差

3.4. 正規分布

3.5. 標本調査と標本平均

Page 22: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.1. 全体像を把握する分析手法の紹介

度数分布とヒストグラム

平均と標準偏差

正規分布

標本調査(全体像の推測)

標本平均

Page 23: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.2. 度数分布とヒストグラム

度数分布とはデータを一定のルールで整理し、データがどのような値を中心にしてどのようなばらつき方をしているのかを調べることで、全体データの特徴や性質などを理解する手法です。

ヒストグラムとはばらつきの分布状態(度数分布)を棒グラフで表示したもの。他の表現方法として、幹葉図や箱ひげ図があります。

14

9

16

21

53

10

5

10

15

20

25

23 28 33 38 43 48 53 58

年齢(中央値) 人数

21~25(23) 1

26~30(28) 4

31~35(33) 9

36~40(38) 16

41~45(43) 21

46~50(48) 5

度数分布表 ヒストグラム

Page 24: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

0

5

10

15

20

25

30

35

8時

9時

10時

11時

12時

13時

14時

15時

16時

17時

18時

19時

3.2.1. 度数分布とヒストグラムの利用イメージ

データ

購入履歴(金額、販売日時)

販売日時 金額

4/1 8:10 ¥500

4/1 8:12 ¥750

・・・

4/1 12:28 ¥800

4/1 12:32 ¥900

・・・

4/1 19:54 ¥570

4/1 19:58 ¥720

1日にピークが2回あり、それぞれの客単価平均は、12時:812円、18時:843円

利用イメージ

フォーカスしたいところを特定する

度数分布表900

800

700

600

500

400

300

時間帯 人数 平均金額

8時 14 ¥3239時 12 ¥35610時 8 ¥46011時 13 ¥65612時 33 ¥81213時 12 ¥78814時 10 ¥56615時 10 ¥70216時 6 ¥76317時 9 ¥77218時 21 ¥84319時 11 ¥615

ヒストグラム

Page 25: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.3. 平均と標準偏差

平均とはデータ全体を代表する値です。他に、最頻値、中央値でも表す方法もあります。

分散とはデータのバラツキを表します。

標準偏差とは「データのバラツキ度合いを異なるデータ間で比較できる」「平均値からのバラツキの幅を測定できる」という特徴を用いて、データが示す傾向や性質を把握できます。

平均

「平均との差の2乗」の平均

分散の平方根

平均値 =データの値の総計

データ数

標準偏差 = データの値−平均

2の総計

データの数

Page 26: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.3.1. 平均と標準偏差の利用イメージ

データ 利用イメージ

どのような状況になっているかを特定する

月日 A店 B店 C店 D店

6月1日 40 90 60 90

6月2日 40 90 70 60

6月3日 50 80 50 50

6月4日 40 110 80 80

6月5日 300 120 100 110

6月6日 260 120 90 70

6月7日 40 80 70 40

6月8日 50 90 70 30

6月9日 50 100 50 90

6月10日 40 90 60 80

6月前半の来店者数A店 B店 C店 D店

平均 106.0 100.0 71.3 70.0

標準偏差 104.3 16.9 16.8 21.4

平均と標準偏差から分かる状況は、

平均

高い 低い

バラツキ小さい B店 C店

大きい A店 D店

来店者数の平均をみるとA店がトップだが、バラツキも考慮するとB店が優れているとわかった

Page 27: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.4. 正規分布

正規分布とは発生確率の高い平均値(中央値)を中心として、左右対象に確率が低くなっていく確率分布のことです。正規分布の分布図は、下図のような釣鐘状になります。データが正規分布をしていることが想定できる場合、平均値と標準偏差値がわかれば、データの範囲を推定することができます。

y

平均値(中心値)

x

y

平均値(中心値)

x

標準偏差が大きい=バラツキが大きい

標準偏差が小さい=バラツキが小さい

標準偏差

標準偏差

Page 28: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.4.1. 正規分布の利用イメージ

製品Aの納期日数

10日

8日

12日

10日

15日

・・・

偏差値 50 60率 50% 16%納期 10日 14日

84%が14日以内

使用するデータ 利用イメージ

過去実績の納期日数を正規分布にあてはめると、偏差値60以上(16%)で、4日以上遅れるとわかった。14日(平均10日+バッファ4日)あれば8割以上の確率で納品できると特定できた。

統計的なデータから、どのような予測が立つかを特定する

過去実績の納入日数

正規分布を利用して、過去実績の納入日数から、8割以上の確率で納品できるバッファ期間を特定したい

正規分布曲線

Page 29: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

標本調査とは大量データから一部を入手、観測した場合に、その背後にある大量データを推測する手段として仮説検定の考え方による統計的推定の手法です。

標本平均とは標本調査から得られた情報から母集団の傾向を推測する手法の1つ。母集団の平均を推測するために標本データの平均値を利用する方法です。

標本平均=(抽出した標本データの合計)÷(抽出した標本データ数)

3.5. 標本調査と標本平均

母集団(調査対象となる全体)

無作為抽出標本(サンプル)

統計的推測

Page 30: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.5.1. 標本調査の利用イメージ

市在住のモニターへのアンケート結果

モニターへのアンケート結果をもとにした推測から、スポーツジムの見込み顧客を把握できた

標本(サンプル)

アンケート結果

市在住モニター=500人

母集団

一部のデータ(標本)から全体像を把握する

データ 利用イメージ

無作為抽出

統計的推測

ジムに興味のあるモニター

市在住者=15万人

標本の取り出し方で結果は変わるため、誤差が含まれる

見込み顧客

Page 31: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.5.2. 確認テスト

全体像を把握する分析手法には何があるか、1つ答えてください。

Page 32: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

4. 比較して判断する分析手法

比較して判断する分析手法にどのようなモノがあるかを、説明できるようになる

Page 33: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

4. 比較して判断する分析手法

4.1. 比較して判断する分析手法の紹介

4.2. 相関関係

4.3. 相関関係と因果関係

Page 34: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

4.1. 比較して判断する分析手法の紹介

相関関係

A B

Page 35: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

4.2. 相関関係

正の相関(右上がり) 負の相関(右下がり) 無相関

相関関係とは・・・一方の値が変化すれば、他方の値も変化するという、2つの値の関連性

正の相関2つのデータのうち一方が 増加 すると、もう一方も 増加

負の相関2つのデータのうち一方が 増加 すると、もう一方が 減少

y y

x x

y

x

増減

Page 36: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

相関係数とは相関係数は-1から1までの値を取り、0に近いほど相関が弱く、1に近いほど相関が強くなります。共分散を一方の標準偏差と他方の標準偏差をかけあわせた値で割った値のことです。

4.2.1. 相関係数

0 1.0-1.0

相関がない 完全な正の相関がある

完全な負の相関がある

y

x

y

x

y

x

y

x

y

x

Page 37: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

4.2.2. 相関関係の利用イメージ(1/2)

顧客満足度アンケートの結果(全体と項目別の5段階評価)

「総合満足度と相関が強い、かつ満足度が低い」項目=「効果が出そうな」項目を見つけることができる

総合満足度

アクセス 案内図 開催曜日 開始時間 終了時間設備(電源等)

設備(スクリーン)

回答者1 4 4 3 4 3 3 4 3回答者2 3 3 2 3 4 3 4 3回答者3 5 4 4 4 3 3 5 3回答者4 3 4 2 3 4 3 2 3回答者5 4 4 3 4 5 5 2 2回答者6 2 2 3 3 3 3 1 1回答者7 2 3 2 2 2 3 2 2回答者8 4 5 4 3 3 3 4 4回答者9 4 4 3 3 4 4 3 4回答者10 5 4 4 4 4 4 5 5

平均値 3.6 3.7 3 3.3 3.5 3.4 3.2 3

総合満足度

アクセス 案内図 開催曜日 開始時間 終了時間設備(電源等)

設備(スクリーン)

回答者1 4 4 3 4 3 3 4 3回答者2 3 3 2 3 4 3 4 3回答者3 5 4 4 4 3 3 5 3回答者4 3 4 2 3 4 3 2 3回答者5 4 4 3 4 5 5 2 2回答者6 2 2 3 3 3 3 1 1回答者7 2 3 2 2 2 3 2 2回答者8 4 5 4 3 3 3 4 4回答者9 4 4 3 3 4 4 3 4回答者10 5 4 4 4 4 4 5 5

平均値 3.6 3.7 3 3.3 3.5 3.4 3.2 3

総合満足度

アクセス 案内図 開催曜日 開始時間 終了時間設備(電源等)

設備(スクリーン)

回答者1 4 4 3 4 3 3 4 3回答者2 3 3 2 3 4 3 4 3回答者3 5 4 4 4 3 3 5 3回答者4 3 4 2 3 4 3 2 3回答者5 4 4 3 4 5 5 2 2回答者6 2 2 3 3 3 3 1 1回答者7 2 3 2 2 2 3 2 2回答者8 4 5 4 3 3 3 4 4回答者9 4 4 3 3 4 4 3 4回答者10 5 4 4 4 4 4 5 5

平均値 3.6 3.7 3 3.3 3.5 3.4 3.2 3

相関係数 満足度0.73 3.70.76 3.00.80 3.30.36 3.50.38 3.40.80 3.20.72 3.00.65 3.30

g. 会場設備(スクリーン、椅子等)平均

a. 会場へのアクセスb. 会場内案内c. セミナーの開催曜日d. セミナーの開始時間e. セミナーの終了時間f. 会場設備(電源・ネットワーク等)

相関係数 満足度0.73 3.70.76 3.00.80 3.30.36 3.50.38 3.40.80 3.20.72 3.00.65 3.30

g. 会場設備(スクリーン、椅子等)平均

a. 会場へのアクセスb. 会場内案内c. セミナーの開催曜日d. セミナーの開始時間e. セミナーの終了時間f. 会場設備(電源・ネットワーク等)

相関係数 満足度0.73 3.70.76 3.00.80 3.30.36 3.50.38 3.40.80 3.20.72 3.00.65 3.30

g. 会場設備(スクリーン、椅子等)平均

a. 会場へのアクセスb. 会場内案内c. セミナーの開催曜日d. セミナーの開始時間e. セミナーの終了時間f. 会場設備(電源・ネットワーク等)

使用するデータ 利用イメージ

複数のデータの関係性から、隠れた特徴を抽出する

相関係数の絶対値 相関係数の解釈

1.0 完全に相関がある

0.7~1.0 強い相関がある

0.4~0.7 相関がある

0.2~0.4 低い相関がある

0~0.2 ほとんど相関がない

0 相関がない

Page 38: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

複数のデータの関係性から、隠れた特徴を抽出する

4.2.2. 相関関係の利用イメージ(2/2)

店舗改善の項目について、4つの領域に分けて整理することで、対応すべき事項の優先度や実行判断の検討がしやすくなった

総合満足度

相関係数

◆アクセス◆開始時間

◆設備

領域①:重点的に維持

領域②:早急に改善

領域④:現状の維持

領域③:改善

相関係数 満足度0.73 3.70.76 3.00.80 3.30.36 3.50.38 3.40.80 3.20.72 3.00.65 3.30

g. 会場設備(スクリーン、椅子等)平均

a. 会場へのアクセスb. 会場内案内c. セミナーの開催曜日d. セミナーの開始時間e. セミナーの終了時間f. 会場設備(電源・ネットワーク等)

相関係数 満足度0.73 3.70.76 3.00.80 3.30.36 3.50.38 3.40.80 3.20.72 3.00.65 3.30

g. 会場設備(スクリーン、椅子等)平均

a. 会場へのアクセスb. 会場内案内c. セミナーの開催曜日d. セミナーの開始時間e. セミナーの終了時間f. 会場設備(電源・ネットワーク等)

相関係数 満足度0.73 3.70.76 3.00.80 3.30.36 3.50.38 3.40.80 3.20.72 3.00.65 3.30

g. 会場設備(スクリーン、椅子等)平均

a. 会場へのアクセスb. 会場内案内c. セミナーの開催曜日d. セミナーの開始時間e. セミナーの終了時間f. 会場設備(電源・ネットワーク等)

総合満足度と各項目の相関、各項目の満足度の平均

使用するデータ 利用イメージ

Page 39: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

4.3. 相関関係と因果関係

相関関係とは一方の値が変化すれば、他方の値も変化するという、2つの値の関連性

因果関係とは2つ以上の事柄の間に原因と結果の関係があると言い切れる関係

相関があっても因果があるとは限らない「相関関係」=「因果関係」ではない

相関関係 因果関係

原因 結果変化 変化

時間的先行性変数間の結びつきの強さ関連の普遍性関連の整合性

連動

Page 40: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

4.3.1. 考えてみましょう

相関関係があると思われる事例を1つ挙げてください

Page 41: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

5. 仮説検証を使った分析手法

仮説検証を使った分析手法にどのようなモノがあるかを、説明できるようになる

Page 42: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5. 仮説検証を使った分析手法

5.1. 仮説検証を使った分析手法の紹介

5.2. 仮説検証の特徴

5.3. 回帰分析と重回帰分析

5.4. 質的データの取扱い

Page 43: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.1. 仮説検証を使った分析手法の紹介

散布図と回帰分析

重回帰分析

質的データの取扱い

Page 44: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.2. 仮説検証の特徴

仮説がないとデータ分析手法が決まらない

量的データ or 質的データを理解する

データ分析から類推する仮説の正しさを証明するには、統計的推測などのデータ分析から類推することが必要です。

どのような結果を求めるのか(仮説)を立てないと、データ分析手法を決定することは、困難です。

取り扱うデータの性質(量的データ or 質的データ)を理解することが重要です。

Page 45: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.3. 回帰分析と重回帰分析

回帰分析とは「原因となる数値」と「結果となる数値」の関連性を、統計的手法を用いて調べる方法のことです。原因となる数値(説明変数)の変化によって、結果となる数値(目的変数)が変化することを推測できます。これによって仮説を立てることが可

能になります。 式 Y = a + bX

重回帰分析とは1つの目的変数を複数の説明変数で予測しようとする統計的手法のことです。

式 Y = a + b1X + b2X + b3X + … +bnX

Y = a +bX

a:切片、b:傾き回帰直線

Y

(結果となる数値)

x(原因となる数値)a

データの分布を、直線に近似すると、他のデータの推測が可能になる

回帰線の誤差を最小にするには、差を最小にする

Page 46: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.3.1. 散布図と回帰分析の利用イメージ

昨年度の入場者数の実績データ

日別の気温データ

日付 気温(℃) 入場者8月1日 26 2108月2日 29 2258月3日 28 2248月4日 29 2278月5日 30 2308月6日 28 2228月7日 31 2388月8日 27 2158月9日 30 235

8月10日 29 2308月11日 32 2508月12日 31 2358月13日 32 2458月14日 34 2608月15日 32 242

y = 5.9797x + 53.939R² = 0.961

150

170

190

210

230

250

270

25 27 29 31 33 35

入場

気温(℃)

入場者数(人)

気温(℃)

気温と入場者数の散布図をつくると、直線上にデータが並んだ

263

使用するデータ 利用イメージ

相関関係のある一部のデータから、全体像を推測する

気温とプール入場者数の相関を検証して、関連を直線で表し、気温から入場者数の予測ができた

仮説: 気温が上がれば、涼を求めてプールの入場者数が増えるのでは

Page 47: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.3.2. 重回帰分析の利用イメージ

昨年度の入場者数の実績データ

日別の気温データ、降雨確率

降雨確率(%)Z

気温(℃)X

入場者数(人)Y

35 30

260

気温と降雨確率と入場者数の3次元の散布図をつくると、面上にデータを近似できた

イメージです

2つ以上の複合した相関関係のある一部のデータから、全体像を推測する

使用するデータ 利用イメージ

気温・降雨確率・入場者数の相関を検証して、関連を面で表し、入場者数の予測ができた

仮説: 気温と降雨確率によって、入場者数が増減するのでは

Page 48: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.4. 質的データの取扱い

飲料別の、テレビCMの有無、ウェブ広告の有無、売り上げ本数

量的データ

質的データ

数値の大きさが意味をもつデータ例)売上高、人数、時間

数値の大きさが意味を持たないデータ例)性別、業種、天気

テレビCM ウェブ広告 売上本数 テレビCM ウェブ広告 売上本数飲料A あり なし 4,500 飲料A 1 0 4,500飲料B なし あり 3,900 飲料B 0 1 3,900飲料C あり あり 5,800 ⇒ 飲料C 1 1 5,800飲料D あり なし 4,000 飲料D 1 0 4,000飲料E なし なし 3,000 飲料E 0 0 3,000飲料F なし なし 2,800 飲料F 0 0 2,800飲料G なし あり 3,800 飲料G 0 1 3,800

テレビCM ウェブ広告 売上本数 テレビCM ウェブ広告 売上本数飲料A あり なし 4,500 飲料A 1 0 4,500飲料B なし あり 3,900 飲料B 0 1 3,900飲料C あり あり 5,800 ⇒ 飲料C 1 1 5,800飲料D あり なし 4,000 飲料D 1 0 4,000飲料E なし なし 3,000 飲料E 0 0 3,000飲料F なし なし 2,800 飲料F 0 0 2,800飲料G なし あり 3,800 飲料G 0 1 3,800

データ

使用するデータ 利用イメージ

質的データから量的データへ変換し、統計分析ができるデータにした

そのままでは計算できない質を表したデータを分析する

Page 49: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.4.1. 考えてみましょう

仮説分析において、データ分析手法を決定する際は、何をもとに検討するとよいでしょうか?

Page 50: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

6. 知識を発見する分析手法

知識を発見する分析手法にどのようなモノがあるかを、説明できるようになる

Page 51: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

6. 知識を発見する分析手法

6.1. 知識を発見する分析手法の紹介

6.2. テキストマイニング

6.3. 外れ値の取扱い

Page 52: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

6.1. 知識を発見する分析手法の紹介

テキストマイニング

外れ値の取扱い

Page 53: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

6.2. テキストマイニング

テキストマイニングとはテキストマイニングとは、大量のテキストデータから、役に立つ知識や情報を見つけ出す分析技術のことです。膨大に蓄積されたテキストデータを単語やフレーズに分解して、これらの関係を一定のルールにそって分析することにより、出現頻度や相関関係を把握し、単語の関係や時系列の変化などを抽出することによって、客観的な分析に利用できます。

出典:「テキストマイニングによる国土政策評価手法の研究」国土交通省、P11

Page 54: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

6.2.1. テキストマイニングの利用イメージ

検索ワードSNSの口コミ

自社/他社の評判を分析(比較)し、新たな気づきが得られた単語の関係や時系列の変化などを抽出することで、さらなる気づきも

おいしい 自社

既に取り組んで

いる37.0%

今後取り組む予

定である40.7%

取り組む予定は

ない19.8%

無回答

2.5%既に取り組んで

いる

16.2%

今後取り組む予

定である56.8%

取り組む予定は

ない24.3%

無回答

2.7%

競合

検索ワード(自社・競合)と共に特徴的なキーワードを抽出し、出現頻度の高いキーワードを比較

おいしい

友達とおいしいメンチカツを・・・

テキスト情報から一定の知見や発想を得る

使用するデータ 利用イメージ

Page 55: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

6.2.2. テキストマイニングの事例

国土交通省の「テキストマイニングによる国土政策評価手法の研究」

国土に関する社会的心理状態(センチメント)の可視化や、地域や時間軸において特徴的に現れるキーワードの抽出等を行い、リアルタイムに国土や土地・不動産市場の情報を捉える手法の可能性が検討された。

Page 56: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

せっかくデータ分析を行ったとしても、「あたりまえ」や「想定範囲内」というような反応を受けることがあります。そのような場合は、「想定範囲外」となった値に着目して、その値の背景となる事象をとらえることで、新たな仮説を導き出すことにつながることがあります。「想定範囲外」となった値のことを「外れ値」と呼びます。

外れ値

6.3. 外れ値の取扱い

他の値とくらべて、外れている値があるなぜだろう?

突出したデータに着目し、想定外を特定する

Page 57: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

6.3.1. 考えてみましょう

外れ値を分析することの利点には、何が考えられますか?

Page 58: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

目標

7. データ分析とICT

情報の活用を目的とするツールの特徴を説明することができる

Page 59: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

7. データ分析とICT

7.1. データ分析におけるICTの位置づけ

7.2. 代表的な分析ツール

7.3. データ分析業務の外部委託

Page 60: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

ビジネス展開(運用)

ビジネスでの実行

ビジネスへのデータ利活用の導入(企画・計画)

目的の明確化

シナリオの立案

シナリオの有効性

評価環境準備

オペレーション

の設計

実行判断

ICT

データの収集

データの蓄積

データの分析

データの棚卸

施策の検討

結果の確認

業務の実施

施策の実行

データの収集

データの蓄積

データの分析

施策判断

7.1. データ分析におけるICTの位置づけ

Page 61: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

7.2. 代表的な分析ツール

集計をメインとするツール

分析がメインで、パターン化された分析を行うツール

分析がメインで、独自の分析プログラムを開発できるツール

• 表計算ツールのような数値データの集計・分析、グラフ作成を行うアプリケーション• 代表的なツ-ル: Microsoft Excel(Microsoft)

• データベースからデータを検索、抽出、加工してレポートにまとめることができるアプリケーション。プログラミング知識がなくともデータ集計や分析を行うことができる

• 代表的なツ-ル: Business Objects(SAP)、Dr. Sum EA(ウイングアーク)

• 統計解析の専門ツールであり、高度な統計手法の実行が可能であり、分析結果の信頼性も高い

• GUIが発達したソフトも存在するが、高度な分析や独自手法を用いた分析を行う場合には、プログラミング知識を必要とする

• 代表的なツ-ル: SPSS(IBM)、SAS(SAS Institute)、MINITAB(MINITAB)、R(オープンソフトウェア)

Page 62: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

7.3. データ分析業務の外部委託

データ分析業務の委託契約時に検討する事項の例

データの提供と返却

分析委託金の支払

受託者における結果の利用

成果の帰属

分析の追加・修正

個人情報の取扱い

Page 63: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

7.3.1. 考えてみましょう

自社で、データ分析するICTツールを、どのように活用して行くのが良いと考えますか?

Page 64: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

8. まとめ(1/2)

データ分析の目的に応じた分析手法の選択を行うことができる

データ分析の目的との整合を検討することができる

データの特性を理解した分析手法を選択することができる

情報活用を行うツールの特徴を説明することができる

Page 65: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

8. まとめ(2/2)

発展学習への誘い今回紹介したデータ分析手法は、基本的な分析手

法です。

データ分析について更に深く学習したい方は、統計解析のトレーニングを受講されることをお勧め致します。

Page 66: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

9. その他、参考

用語

用語 解説

仮説検証 仮説の真偽を、事実情報に基づいた実験や観察などを通じて確かめること。

統計解析 統計処理ともいう。統計学の手法で、データを解析して客観的に説明する方法。

Page 67: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

1.2.2. 考えてみましょう

データ分析は、なぜ必要なのでしょうか?

• 適切な情報がないと決められず、適切な情報を得るには、データ分析が必要になるから

Page 68: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

2.2.1. 確認テスト

データの分析用途として大きく4つに分類されます。以下の空欄をうめてください。

全体 を把握する

比較して判断する

仮説を検証する

知識を 発見 する

Page 69: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

3.5.2. 確認テスト

全体像を把握する分析手法には何があるか、1つ答えてください。

• 度数分布とヒストグラム

Page 70: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

4.3.1. 確認テスト

相関関係があると思われる事例を1つ挙げてください。

• コーヒーを多く飲む人ほど、死亡率が高い

Page 71: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

5.4.1. 考えてみましょう

仮説分析において、データ分析手法を決定する際は、何をもとに検討するとよいでしょうか?

• 仮説

Page 72: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

6.3.1. 考えてみましょう

外れ値を分析することの利点には、何が考ええられますか?

• 想定範囲外となった値に着目して、その値の背景となる事象をとらえることで、新たな仮説を導き出すことにつながる。

Page 73: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

7.3.1. 考えてみましょう

自社で、データ分析するICTツールを、どのように活用して行くのが良いと考えますか?

• 例)まずはExcelから。効果の見込みが持てたら専用の分析ツールの導入を検討する。

Page 74: データ分析手法とツール - bodik.jp · 2.2. 目的とデータ分析手法との関係(3/4) 仮説を検証する 相関関係のある一部のデータから、 全体像を推測する

参考文献

Copyright (c) 2014 Ministry of Internal Affairs and Communications All Rights Reserved

このテキスト(又はカリキュラム)は、総務省の『高度ICT利活用テキスト(実践編科目データ分析手法とツール)』に改変を加えたものです。