47
1 (C) 2015 株式会社 ITアナティクス入門 2015年11月18日 株式会社イハット 梶山昌之 ITトクス活用のためのデタ解析

ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

1(C) 2015 株式会社 ワイハット

ITアナリティクス入門

2015年11月18日株式会社ワイハット

梶山昌之

~ITメトリクス活用のためのデータ解析~

Page 2: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

2(C) 2015 株式会社 ワイハット

内容

• 家族に関する俗説

• ビッグデータ狂想曲

• 衛星の打ち上げコスト予測

• データ解析と統計解析

• ビッグデータとアナリティクス

• アナリティクスの解析技術

• データマイニングとは?

• 測定プロセスモデル

• ファンクションポイント(FP)とは?

• ソフトウェアの規模と生産性の関係は?

Page 3: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

3(C) 2015 株式会社 ワイハット

講師紹介

氏名: 梶山昌之

略歴:

1981年 日本アイ・ビー・エム株式会社の製品保証部門に配属。ATMなどの製品保証を担当。

また、ソフトウェア信頼性の研究を行い習熟S字モデルを発表。

1988年 光磁気ディスクドライブの開発製造部門に配属。品質管理および生産管理に従事。

マレーシアにおいてドライブの製造、テストラインを構築。品質と生産性の向上に取り組む。

2002年 サービス部門に異動しメトリクス共通化のため多くの企業のデータを分析。FPによる計測

データの分析のため、某大手運輸系企業に出向し、ITの可視化によるお客様満足度の

向上に取り組む。

2007年 サービス部門にてIT 計数管理のフレームワークを展開。またCMMI L5の取得に向けて各種

のプロジェクト実績モデル(PPM)を開発。

2010年 某大手電力系企業にて、システム開発プロジェクトの可視化・効率化・品質向上を支援。

2011年 某大手銀行にてFPおよびSLOCベースの見積りシステムを構築

JFPUG役員に就任。

2012年 株式会社DSR取締役副社長に就任。プロフェッショナルコスト評価士(PCEA)の資格を

取得しプロジェクトの定量的管理およびコスト見積りを支援。

2014年 JFPUGメトリクス活用セミナー講師

2015年 株式会社ワイハットを設立。 アナリティクスの支援および教育活動に取り組む。

Page 4: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

4(C) 2015 株式会社 ワイハット

スティーブン・セン 「確率と統計のパラドックス」より引用

ブラウンさんには二人の子がいます。そのうち少なくとも一人は男の子です。もう一人の子が女の子である確率はいくつでしょう。

男女はほとんど同じ確率で生まれるのだから、 女の子である確率は1/2に違いない。

家族に関する俗説(1/5)

Page 5: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

5(C) 2015 株式会社 ワイハット

男の子だったら 5万円払います。女の子だったら 4万円いただきます。賭けますか?

確率は同じなのに、もらうほうが多いので賭ける方が得!

家族に関する俗説(2/5)

Page 6: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

6(C) 2015 株式会社 ワイハット

ほとんど人が、女の子である確率は 1/2 と考えます。しかし、正しい確率は 2/3 です。

信じられない!

家族に関する俗説(3/5)

Page 7: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

7(C) 2015 株式会社 ワイハット

少なくとも一人は男の子の場合は 3 通り

もう一人が女の子である場合は 2 通り、従ってその確率は 2/3。

ブラウンさんには二人の子がいます。

そのうち少なくとも一人は男の子です。

(私達にとって)もう一人の子が女の子である確率はいくらでしょう。

何故間違えたのでしょう?

家族に関する俗説(4/5)

Page 8: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

8(C) 2015 株式会社 ワイハット

その子が長男の場合、妹がいる場合は 1/2 、次男の場合、姉がいる確率は 1/2

もう一人が女の子である確率は 1/2。

ブラウンさんには二人の子がいます。

そのうち少なくとも一人は男の子です。

(その子にとって)もう一人の子が女の子である確率はいくらでしょう。

家族に関する俗説(5/5)

Page 9: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

9(C) 2015 株式会社 ワイハット

賭けるべきではない!

期待値について

[利益の期待値] = [5 万円]*[男の子の確率] + [-4万円]*[女の子の確率]

= 5*(1/3) + (-4)*(2/3) = -3/3 = -1 (1万円の損失)

男の子だったら 5万円払います。女の子だったら 4万円いただきます。賭けますか?

X を男の子か女の子の事象に対応する利益を表す変数とするとXは確率変数。

X の期待値とは X にその発生確率を掛けて合計した値であり E[X] で表す。

Page 10: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

10(C) 2015 株式会社 ワイハット

ビッグデータ狂想曲

10

ビックデータて何?本当に役に立つの?

Hadoop/MapReduceとは?

データマイニングと統計解析の違いは?

アナリティクスとデータ解析は何が

違う?

ビジネスインテリジェンスとの違い

は?

Page 11: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

11(C) 2015 株式会社 ワイハット

ビッグデータとは?

・既存の技術では管理することができない大量の非構造化データ (テキスト、画像、音声、動画、センサー、GPS)=> Hadoop/MapReduceなどの技術を利用して構造化データに変換する。

・絶え間なく流れこんでくるために静的なデータウェアハウスには適さないデータ

・ガートナーの3Vモデル:高ボリューム(Volume) 高速度(Velocity) 高バラエティ(Variety)

・ 広義には上記の処理技術やビジネスへの活用も含む

Page 12: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

12(C) 2015 株式会社 ワイハット

ビックデータはそのままでは分析できない!

非構造化データ 特徴点抽出(*1)構造化データ

構造化データに変換されたデータは、既存の統計解析の手法で分析される。

*1: 特徴点抽出の図はイメージであり、実際の図とは異なります。

Page 13: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

13(C) 2015 株式会社 ワイハット

用語を整理すると …

ビジネスインテリジェンス:・ビジネス領域で統計学を応用して問題解決・レポーティングに重点を置く

データマイニング:・大量のデータから、何らかの規則性を発見する

アナリティクス(データ・アナリティクス)・データの意味を理解し、データから価値を引き出すために、

データを数学的ないし統計的に分析する

Page 14: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

14(C) 2015 株式会社 ワイハット

日本におけるテクノロジのハイプ・サイクル:2015年

出典:ガートナー(2015年10月)

本図表は、ガートナー・リサーチの発行物の一部であり、発行物全体のコンテクストにおいてご覧いただく必要があります。ガートナーの発行物は、リクエストによりhttp://www.gartner.co.jp/press/html/pr20151027-01.html からご提供することが可能です。 ガートナーは、ガートナー・リサーチの発行物に掲載された特定のベンダー、製品またはサービスを推奨するものではありません。また、最高のレーティング又はその他の評価を得たベンダーのみを選択するように助言するものではありません。ガートナー・リサーチの発行物は、ガートナー・リサーチの見解を表したものであり、事実を表現したものではありません。ガートナーは、明示または黙示を問わず、本リサーチの商品性や特定目的への適合性を含め、一切の保証を行うものではありません。

ビックデータは2014年10月の時点で「過度な期待」のピーク期にあった。2015年10月の時点では幻滅期に移行していると言える。しかし、これはビッグデータやデータの利活用に価値がなくなるとう意味ではなく、現在も着実に研究と活用が進んでいると考えられる(梶山)。

Page 15: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

15(C) 2015 株式会社 ワイハット

重要なことは …

「流行に乗ってビッグデータの活用そのものを目的とせず、あくまでビジネス上の課題に対するアプローチのひとつであるという認識をわすれないことである。」

(“データ・アナリティクス3.0”トーマス.H.ダベンポート,監修者まえがき, 2014年5月)

「スモールデータすらうまく扱えない企業に、ビッグデータを扱えるはずはありません。ビッグデータであれば何でも知見が得られると思うのは幻想であって、まずは手近にある小さいデータを有効活用することから始めたほうが賢明です。」

(Executive Foresight Online, “ビッグデータの本質”,国立情報学研究所 佐藤一郎教授, 2014年1月)

Page 16: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

16(C) 2015 株式会社 ワイハット

100kgの衛星の打ち上げコストは40億円でした。

衛星の打ち上げコスト予測(1/2)

* 数値は概念の説明用であり実際の値ではありません。

Page 17: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

17(C) 2015 株式会社 ワイハット

従って、200kgの衛星の打ち上げコストは70億円です。

* 数値は概念の説明用であり実際の値ではありません。

この判断でよいのだろうか?

衛星の打ち上げコスト予測(2/2)

Page 18: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

18(C) 2015 株式会社 ワイハット

データ解析と統計解析

ITメトリクスの場合、プロジェクトの特性、FP、工数、欠陥数などの性質

データ解析は数理統計学に基づく統計解析に加えて、分析対象の固有技術を反映した実務的な解析を行う。

データ正しいデータ 適切な変数

固有技術解析技術

数理統計学

Page 19: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

19(C) 2015 株式会社 ワイハット

ビッグデータとアナリティクス

アナリティクスは組織内およびインターネットに存在する大量の非構造化データもデータ分析の対象にする。

数理統計学

データ正しいデータ

適切な変数

固有技術

ビッグデータ

解析技術

ITメトリクスの場合、プロジェクトの特性、FP、工数、欠陥数などの性質

Page 20: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

20(C) 2015 株式会社 ワイハット

アナリティクスの解析技術

データマイニング手法

基礎統計

解析ツール

従来の統計解析手法の多くはデータマイニング手法としても用いられています。

Page 21: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

21(C) 2015 株式会社 ワイハット

データマイニングとは?

分類 連関 判別 予測 その他クロス集計 2つの属性の関係を知る ○ ○クラスター分析 似たものを集める ○多次元尺度法 データの構造を調べる ○主成分分析 多くの変数を少数の変数に要約 ○ ○因子分析 量的データから共通因子を発見する ○ ○コレスポンデンス分析 カテゴリー間の関係を分析 ○ ○アソシエーション分析 頻出するアイテムの組み合わせを発見する ○時系列パターン分析 順序性のあるパターンを抽出し予測する ○ ○決定木CHID法 質的変数で判別する ○線形判別分析 教師データで判別する ○決定木CART法 要因を分析し将来を予測する ○ニューラルネットワーク 入力を判別し分類するモデルを作成する ○ ○線形回帰分析 目的変数を説明する線形予測式を得る ○ダミー変数法 質的変数を含む重回帰分析 ○ロジスティック回帰分析 比率を予測する ○ ○多項ロジットモデル 3つ以上のカテゴリーの比率を予測する ○ ○ポアソン回帰分析 発生頻度を予測する   ○階層線形モデル 階層構造をもつデータを分析する   ○非線形回帰分析 目的変数を説明する非線形予測式を得る ○自己相関モデル 時系列データで値を予測する ○形態素解析 テキストから名詞と形容詞を抽出する ○実験計画法 実験を設計し因果関係を明らかにする ○各種のグラフ データの可視化と外れ値検出 ○ ○ ○ ○ ○

分析手法 内容手法の目的

大量のデータから、何らかの規則性を発見すること

Page 22: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

22(C) 2015 株式会社 ワイハット

ソフトウェア開発プロセス改善の枠組みと関連規格

CMMI/MA

CMMI/MA2014

2005

1998

1993

2002

PSM

ISO/IEC 15939

ISO/IEC 15939(JIS X 0141)

CMMI

PSM

ISO/IEC 15504(SPA)

SPICE CMM

ISO/IEC 15504 CMMI

2000

SPICE: Software Process Improvement and Capability dEtermination ISO/IEC 15504: Software engineering - Process assessmentCMMI: Capability Maturity Model IntegrationSPA: Software Process AssessmentPSM: Practical Software MeasurementISO/IEC 15939: Software Measurement Process

Page 23: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

23(C) 2015 株式会社 ワイハット

JIS X 0141 測定プロセスモデル

(JIS X 0141から引用)

技術プロセス及び管理プロセス

測定に対するコミットメント

(確約)の確立及び保持

測定プロセスの計画

測定プロセスの遂行

測定の評価

測定経験データベース

JIS X 0141の適用範囲

コミットメント

測定プロセスの中核

計画内容

改善活動

情報ニーズ 情報成果物

測定に対する要求事項 測定利用者のフィードバック

情報成果物と効果を測定するための測定量

情報成果物と評価結果

Page 24: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

24(C) 2015 株式会社 ワイハット

情報成果物を活用できない場合… (1/4)

技術プロセス及び管理プロセス

測定に対するコミットメント

(確約)の確立及び保持

測定プロセスの計画

測定プロセスの遂行

測定の評価

測定経験データベース

JIS X 0141の適用範囲

コミットメント

測定プロセスの中核

計画内容

改善活動

情報ニーズ 情報成果物

測定に対する要求事項 測定利用者のフィードバック

情報成果物と効果を測定するための測定量

情報成果物と評価結果

(JIS X 0141から引用)

Page 25: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

25(C) 2015 株式会社 ワイハット

技術プロセス及び管理プロセス

測定に対するコミットメント

(確約)の確立及び保持

測定プロセスの計画

測定プロセスの遂行

測定の評価

測定経験データベース

JIS X 0141の適用範囲

コミットメント

測定プロセスの中核

計画内容

改善活動

情報ニーズ 情報成果物

測定に対する要求事項 測定利用者のフィードバック

情報成果物と効果を測定するための測定量

情報成果物と評価結果

(JIS X 0141から引用)

情報成果物を活用できない場合… (2/4)

Page 26: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

26(C) 2015 株式会社 ワイハット

技術プロセス及び管理プロセス

測定に対するコミットメント

(確約)の確立及び保持

測定プロセスの計画

測定プロセスの遂行

測定の評価

測定経験データベース

JIS X 0141の適用範囲

コミットメント

測定プロセスの中核

計画内容

改善活動

情報ニーズ 情報成果物

測定に対する要求事項 測定利用者のフィードバック

情報成果物と効果を測定するための測定量

情報成果物と評価結果

(JIS X 0141から引用)

情報成果物を活用できない場合… (3/4)

Page 27: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

27(C) 2015 株式会社 ワイハット

測定プロセスの計画

測定プロセスの遂行

測定経験データベース

JIS X 0141の適用範囲

測定プロセスの中核

計画内容

(JIS X 0141から引用)

プロセスは改善しない

情報成果物を活用できない場合… (4/4)

Page 28: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

28(C) 2015 株式会社 ワイハット

X 0141:2009 (ISO/IEC 15939:2007)附属書 G (参考)

情報成果物の報告の手引序文この附属書は,情報成果物報告の手引について記載するものであって,規定の一部ではない。

情報成果物を報告する場合の一般的な基準を次に示す。− 結果についての限界及びその他あらゆる制限事項(例えば,導かれた結論の妥当性に対する限界)− データが収集された日付又は期間− 統計分析に使用したシステム又はソフトウェアツールの名称及び版番号− 結論を導くもととなった観測数− 使用したサンプル抽出の手順− 使用した分析技法の背後にある前提条件及びその前提条件から逸脱した場合の頑健性をチェックするために行う感度分析の結果− 集計演算の正確な実施方法(例えば,算術平均,加重平均)− 結論を導くもととなった観測の単位(例えば,検査の対象となる設計文書,構成管理の対象となる品目)− 適用可能な場合,欠落データ及び例外データの処理方法− 適用可能な場合,データ分析におけるはずれ値の処理方法− 適用可能な場合,異なるデータ集合にまたがったデータの併合方法− 統計的な検定を行う場合に,片側又は両側のいずれの検定を用いたか− 統計的な検定を行う場合に用いられたアルファレベル(第一種の過誤の許容危険率)

注記 アルファレベル 正しいにもかかわらず誤りとみなす確率− 統計的な検定を行う場合,p 値(観測結果又は極端な結果が偶然得られる確率)の計算方法− 適用可能な場合,信頼区間の計算方法− 使用した統計手法(限界も含め)

これらの基準に適合しない限り,情報成果物に関する経験が豊富な測定利用者でも,それを正しく解釈し,そこから導く結論に確信をもつことは難しい。特殊なデータ分析技法に対しては,追加報告が必要になることもある。また,これらの詳細な報告のうち主たる報告対象者には適切でないものがある場合は,それらは付録に含めてもよい。分析のレベルは,測定利用者又は利用者の知識レベルに応じて調整が必要となることもある

JIS X 0141 測定プロセスモデル ~付属書G~

Page 29: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

29(C) 2015 株式会社 ワイハット

ファンクションポイント (FP)とは?

FP法はソフトウェアの規模計測の標準です。(JIS X 0142)

データ・ファンクション : ILF,EIF

トランサクション・ファンクション: EI,EO,EQ

他アプリケーション外部インタフェースファイル(EIF)

内部論理ファイル(ILF)

外部照会(EQ)

外部出力(EO)

外部入力(EI)

対象アプリケーション

ユーザー(/他アプリケーション)

FP測定の境界

図はFP測定の境界および、IFPUG法における5つの要素機能を示しています。 IFPUG法はマスターファイルへの入出力などの機能を論理的に捕らえて、その個数を計測します。

政府情報システムの調達要件として平成27年4月1日から施工 (平成26年12月3日決定)

Page 30: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

30(C) 2015 株式会社 ワイハット

生産性は規模が大きいほど低下する!(1/2)

生産性は規模が大きいほど低下します。規模の増加に伴い、コミュニケーションのオーバーヘッドが増大するためです。

規模 区分(人月) 件数 FP 人月 生産性小規模 工数<3.5 353 16,355 903 18.1中規模 3.5<=工数<12.6 710 74,847 4,614 16.2大規模 工数>=12.6 358 142,124 13,321 10.7

1,421 233,326 18,838 12.4注: 実データを元に作成していますが、数値は変更しています

合計

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

16.0

18.0

20.0

小規模 中規模 大規模

規模別生産性

Page 31: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

31(C) 2015 株式会社 ワイハット

生産性は規模が大きいほど、向上します。大規模ソフトウェアでは、多くの機能を効率的に開発できるためです。

規模 区分(FP) 件数 FP 人月 生産性小規模 FP<36 356 7,849 1,480 5.3中規模 36≦FP<161 710 57,328 5,928 9.7大規模 FP≧161 355 168,149 11,430 14.7

1,421 233,326 18,838 12.4注: 実データを元に作成していますが、数値は変更しています

合計

0.0

2.0

4.0

6.0

8.0

10.0

12.0

14.0

16.0

小規模 中規模 大規模

規模別生産性

生産性は規模が大きいほど低下する!(2/2)

Page 32: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

32(C) 2015 株式会社 ワイハット

ソフトウェアの規模と生産性の関係は?

開発する機能が多いほど工数が大きくなるのは当然。

従って、大規模になるほど生産性も低いはず。

どちらを信じればよいのか!

Page 33: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

33(C) 2015 株式会社 ワイハット

生産性分布

生産性0

10

20

30

40

50

60

70

80

90

100

度数

1. 生産性裾長い分布 になっている。そのため低生産性または高生産性の基準を明確にすることができない.

2. 生産性の異常値を検出するための基準を決定することができない.

Page 34: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

34(C) 2015 株式会社 ワイハット

貯蓄現在高は右裾が長い歪んだ分布となる。

貯蓄現在高階級別世帯分布

(総務省統計局HPより引用)

Page 35: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

35(C) 2015 株式会社 ワイハット

生産性は対数を取ると正規分布に従う。従って、生産性は対数正規分布に従うと言える。

LN(生産性)分布

正規分布

0

5

10

15

20

25

30

35

40

45

度数

Page 36: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

36(C) 2015 株式会社 ワイハット

正規確率プロット

1. 累積密度関数を求め,正規確率紙にプロットする。 (正規確率プロット)

2. 分布が正規分布に近ければ点が概ね一直線にならぶ.

3. 正規期待値 が 0 の直線と交わる点が平均 (µ) 、1 の直線と交わる点 が平均+標準偏差( µ+σ ) になる。

4. データ数が少ない場合(30未満)に、数値的に正規性を確認する方法として.シャピロ-ウィルク正規性検定(Shapiro-Wilk normality test)があります。

正規分布

0

5

10

15

20

25

30

35

40

45

度数

正規 分布に近ければ点がほぼ一直線上にならぶ.

正規確率プロット

-4

-3

-2

-1

0

1

2

3

4

正規期待値

Page 37: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

37(C) 2015 株式会社 ワイハット

正規分布

0

5

10

15

20

25

30

35

40

45

度数

生産性0

10

20

30

40

50

60

70

80

90

100

度数生産性の分布と性質

【分析結果】

1. 生産性(FP)は右裾が長い歪んだ分布である。

2. 生産性(FP)の対数はベル型の分布となり、正規分布に従うことが確認されている。

【計算例】

FP生産性10 [FP/人月] の自然対数は LN(10)=2.3である。生産性の自然対数 LN(生産性) はどのような分布となるだろうか?

FP生産性分布 (左: 直値、右: 対数)

生産性の対数は正規分布に従う性質がある。

正規分布として扱うことにより、統計解析の知見を活用できる。

10LN(10)=2.3

生産性分布 LN(生産性)分布

Page 38: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

38(C) 2015 株式会社 ワイハット

正規分布と対数正規分布は何故重要か?

0 を超える値をとる確率変数

が正規分布に従うとき、その変数の大きさに比例するゆらぎを受けると次第に対数正規分布に近づく

どのような分布に従う確率変数であってもその平均の分布は正規分布に近づく

(中心極限定理)。

世の中の多くの量は正規分布または対数正規分布に従うことが多い。

例:血中成分の血糖、尿酸は正規分布、コレステロール、尿素は対数正規分布に従う。

例:給与所得の分布

「富者は富み貧者は窮する。」

例:2項分布で Nが30以上の場合

Page 39: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

39(C) 2015 株式会社 ワイハット

層別とバラツキの関係 (1/2)

特性で層別するとバラツキが低減し予測の精度が向上する。

COBOL生産性は平均より低い。

7.7

言語を区分しない全体の平均生産性

COBOL生産性

7.7 12.8

言語で区分しないと生産性は大きくばらつく

出典: ソフトウェア開発データ白書 2012-2013

注: 月160時間で [FP/人時]

を「FP/人月]に変換した値を示しています。

言語FP生産性[FP/人月]

COBOL 7.7C 10.4VB 15.8Java 13.4全体 12.8

Page 40: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

40(C) 2015 株式会社 ワイハット

COBOL生産性は平均より低い。

7.7 15.0

言語を区分しない全体の平均生産性

COBOL生産性 VB生産性

VB生産性は平均より高い。

7.7 15.812.8

言語で区分しないと生産性は大きくばらつく

特性による生産性の差は中央値の差として捉えることができる。

出典: ソフトウェア開発データ白書 2012-2013

注: 月160時間で [FP/人時]

を「FP/人月]に変換した値を示しています。

言語FP生産性[FP/人月]

COBOL 7.7C 10.4VB 15.8Java 13.4全体 12.8

層別とバラツキの関係 (2/2)

Page 41: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

41(C) 2015 株式会社 ワイハット

回帰の意味は?(1/2)

ゴールトンは親と子の身長を調べ、生まれる子供の身長は平均に近づくことを示し、このことを「平均への回帰現象」と呼んだ。

親の身長 X

子の身長Y

直線 Y=X

子は親と同じくらいの身長になるのだろうか

Page 42: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

42(C) 2015 株式会社 ワイハット

あてはめた直線

背の高い親から生まれる子供は親よりも背が低く、背の低い親から生まれる子供は親より背が高くなる傾向がある。

ゴールトンは親と子の身長を調べ、生まれる子供の身長は平均に近づくことを示し、このことを「平均への回帰現象」と呼んだ。

親の身長 X

子の身長Y

直線 Y=X

回帰の意味は?(2/2)

Page 43: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

43(C) 2015 株式会社 ワイハット

ソフトウェアの規模と生産性の関係は?

生産性区分図

FP

工数

FPの工数に対する回帰

工数のFPに対する回帰

Page 44: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

44(C) 2015 株式会社 ワイハット

それでも、生産性は規模が大きいほど低下する!

生産性区分図

FP

工数

Page 45: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

45(C) 2015 株式会社 ワイハット

まとめ

�統計にだまされるな!

�統計解析の裏付けのない分析は危険

�固有技術を反映しない統計解析は不毛

�ビッグデータはそのままでは分析できない

�手近にあるデータを有効活用することが重要

�データの活用には基礎統計の理解も大切

�役立つ情報成果物を提供することが成功のポイント

�常識にまどわされるな!

Page 46: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

46(C) 2015 株式会社 ワイハット

参考資料(発表年度順)

[1] Capers Jones著 鶴保征城 富野 壽 監訳,ソフトウェア開発の定量化手法第2版,共立出版,ISBN4-320-09722-X、P206-207,1998

[2] John McGarry et Al. 著, 古川恒夫, 富野壽 監訳: “実践的ソフトウェア測定,”共立出版, ISBN4-320-09741-6, pp. 120-135, 2004.

[3] 金子英一, 梶山昌之: “アプリケーション・マネジメント・サービス(AMS)における開発生産性評価プロセスの確立,” IBM ProVISION Winter 2006 No. 48, pp. 100-107, 2006.https://www-304.ibm.com/connections/blogs/ProVISION46_50/resource/no48/48_ppr4.pdf?lang=ja

[4] 金子英一, 梶山昌之: “プロジェクト初期段階のFPによる効果的見積りモデル構築手法の提案,” 2007年度PM学会春季研究発表大会予稿集, pp. 116-121, 2007.http://ci.nii.ac.jp/els/110007602625.pdf?id=ART0009420557&type=pdf&lang=jp&host=cinii&order_no=&ppv_type=0&lang_sw=&no=1412471269&cp=

[5] JIS X 0141-2009 システム及びソフトウェア技術−測定プロセスhttp://kikakurui.com/x0/X0141-2009-01.html

[6] 梶山昌之, 合田英二, 千野智子: “ソフトウェア開発プロジェクトの計数管理フレームワークによる定量的管理,” プロジェクトマネジメント学会誌 Vol.13 No.5, pp. 3-8, 2011.http://ci.nii.ac.jp/els/110008897387.pdf?id=ART0009854808&type=pdf&lang=jp&host=cinii&order_no=&ppv_type=0&lang_sw=&no=1412471411&cp=

[7] 佐藤浩明: “201306_定量的マネジメントを目指したメトリクス分析の実践” ユニシス研究会 BITS 2013 U-5 発表資料, 2013.https://evesys.unisys.co.jp/public/file/document/download/70

[8] ガートナープレスリリース「ガートナー、「日本におけるテクノロジのハイプ・サイクル:2015年」を発表」2015年10月27日http://www.gartner.co.jp/press/html/pr20151027-01.html

Page 47: ITアナリティクス入門 - ipa.go.jp · (c) 2015 株式会社ロアネチテ 1 itアナリティクス入門 2015年11月18日 株式会社ワイハット 梶山昌之 ㅻitメトリクス活用のためのデヸタ解析ㅻ

47(C) 2015 株式会社 ワイハット

参考URL(ベンチマーク)[1] IPA/SEC ソフトウェア開発データ白書http://www.ipa.go.jp/sec/publish/tn12-002.html*バックナンバーは無料でダウンロード可能です。

[2] 経済調査会 「ソフトウェア開発データリポジトリの分析」http://www.zai-keicho.or.jp/pdf/software_metrics/ERA_Repository_Report_download.html

[2] JUAS 「ソフトウェアメトリックス調査」http://www.juas.or.jp/product/detail/445045.htmlhttp://www.juas.or.jp/servey/library/index.html*バックナンバーは無料でダウンロード可能です。