6
38回 データマイニング+WEB @東京 ( #TokyoWebmining 38th) -マーケティング分析活用最前線 祭り- Webスクレイピングセーフor NOT @ nezuq

WebスクレイピングのセーフorNOT

  • Upload
    nezuq

  • View
    4.463

  • Download
    0

Embed Size (px)

DESCRIPTION

第38回 データマイニング+WEB @東京 ( #TokyoWebmining 38th) -マーケティング分析活用最前線 祭り- 発表資料

Citation preview

Page 1: WebスクレイピングのセーフorNOT

第38 回 データマイニング+WEB @東京( #TokyoWebmining 38th)

-マーケティング分析活用最前線 祭り-

Webスクレイピングのセーフor NOT

@nezuq

Page 2: WebスクレイピングのセーフorNOT

【理想】

「データのレバレッジによる、より良い未来の実現」

 人生は意思決定の連続でその先に未来があります。 それぞれの意思決定を確度の高いものにするのがデータです。

 しかし、それぞれの意思決定に沿ったデータを確保するのは、

各社・各人の努力だけでは無理です。

 社会全体でデータを確保する事により、各社・各人がデータのレバレッジを効かせられるようになります。

その為、社会全体からデータをお借りするアプローチである「Webスクレイピング」は必要不可欠なものです。

Page 3: WebスクレイピングのセーフorNOT

【合法性】

「Webスクレイピングは著作権法で許可されます」

 Webスクレイピングとは、Webサイトから欲しいデータを抽出・整形する事です。

Webスクレイピングは、著作権法の47条にて制限付きで許可されていると解釈できます。

[著作権法でWebスクレイピングに関わる箇所]

 47条の6 → Web検索サービス提供目的ならOK

 47条の7 → 情報解析目的ならOK                ※あくまでも願望の入った私的な意訳です。

Page 4: WebスクレイピングのセーフorNOT

【課題】

「前例がないので解釈が難しい」

例) Webスクレイピングは情報解析向けの場合でも47条の6が適用されるのではないか?

 ←47条の6は、"当該事業の一部を行う者"も対象になっている。  【当該事業の定義】   (1)ソフトウェアによるウェブサイト情報の収集・格納(クローリング)   (2)検索用インデックス及び検索結果表示用データの作成・蓄積   (3)検索結果の表示(送信)  【47条の6による制限】   ・robots.txtの遵守が必要です。   ・会員のみが閲覧できるページの場合は、著作権者の許諾が必要です。   ・クロール時に情報収集を禁止する措置がされていた時は、    該当情報の削除が必要です。    etc...

※参考: 47 6 PDF - 著作権法 条の の解説( ) きたおか法律事務所

Page 5: WebスクレイピングのセーフorNOT

【議論内容】

「あなたの解釈を聞きたい」

法律は倫理に基づいて解釈され、倫理は時勢により変わります。又、法律的には規制されていても、暗黙的に許可されている行為もあります。

どのようなデータ取得・データ活用は許されるのか?どのようなプロセスなら安全にWebスクレイピングできるのか?

一緒に考えませんか?

Page 6: WebスクレイピングのセーフorNOT

【議論内容】

「あなたの解釈を聞きたい」

法律は倫理に基づいて解釈され、倫理は時勢により変わります。又、法律的には規制されていても、暗黙的に許可されている行為もあります。

どのようなデータ取得・データ活用は許されるのか?どのようなプロセスなら安全にWebスクレイピングできるのか?

一緒に考えませんか?