40
いいいいい いいいいいいいいいい

いかにしてデータを手に入れるか

Embed Size (px)

Citation preview

Page 1: いかにしてデータを手に入れるか

いかにしてデータを手に入れるか

Page 2: いかにしてデータを手に入れるか

Slideshare 掲載用あらすじ• データの入手から前処理までの上流部分について話します• 入手の部分は既存のジャーナリズムがやってきたことと重複も大きいです。それなりの量のデータを入手することが生む違いは、個々のストーリーをもう少しマクロな視点でみることが可能になることです。• 検索テクニック、公開請求テクニック、オープンデータのリスト(日本バージョン含む)を紹介します• スクレイピングについては情報が古いので、今使えそうなサービスを紹介します• 事例をもとに前処理の実際と使えるツールを紹介します(「データを取得する」の前半5節、「データを理解する」の「データを扱うための基礎的な手順」、「ケーススタディ」の「ニュースにおけるデータ : ウィキリークス」を基に作成しています)

Page 3: いかにしてデータを手に入れるか

講演者プロフィール亀田 尭宙( KAMEDA Akihiro )京都大学 地域研究統合情報センター 助教専門 : • Linked Open Data• 自然言語処理• (最近は人文社会科学を中心とした)各ドメインへの応用

オープンな教科書の共訳は2つめ

Page 4: いかにしてデータを手に入れるか

いかにしてデータを手に入れるか

Page 5: いかにしてデータを手に入れるか

http://spotlight-scoop.com/

Page 6: いかにしてデータを手に入れるか

https://www.bostonglobe.com/metro/2015/11/06/least-clergy-have-been-accused-child-sex-abuse-boston-archdiocese/5cKpjVOPhEh7IYnCwRqIJI/story.html

Page 7: いかにしてデータを手に入れるか

全神父の年鑑が出てる。教会の年鑑、マサチューセッツの全神父。見ろ  1983 年。ジョン・ゲーガン、ドーチェスターの教区。年代と教区が。こっちの彼は…何だ?1980 年 JPを外れた。病気休暇で。理由まで? 1991 年は?リアム・バレット… 読めんな。虐待で教区を外れた。リアム・バレット?そうだ。病気休暇。公式の本なのに。

1 つ 1 つの事件からシステム全体の問題へ

Page 8: いかにしてデータを手に入れるか

検索、公開請求、オープンデータ

Page 9: いかにしてデータを手に入れるか

ウェブ上の情報を見つける• 検索を効率化する• データ形式を指定(例 : filetype:XLS, filetype:CSV )• ドメインの限定(例 : site:go.jp )• “Directory Listing”

Page 10: いかにしてデータを手に入れるか

請求• データの請求権• 情報公開法を使い倒せ!

Page 11: いかにしてデータを手に入れるか

情報源に直接アクセス• 情報公開法による請求• 広報担当者への連絡

• データ保持者へのコンタクト直接ミーティングする機会を設けるのが最善である、と私は知っている。さらに私は、彼らが断りにくい方法でその機会を設けることができる。「彼らに負担をかけたくないんです」「無駄に負担になったり、過剰に広い請求をしたくありません。ミーティングをすることで、どんなデータがあるかを理解し、欲しいものをどのようにリクエストすべきか、私の理解が助けられるのです」

Page 12: いかにしてデータを手に入れるか

http://okfn.jp/2013/08/28/foia-shibuya-vs-california/

Page 13: いかにしてデータを手に入れるか

データポータル•世界、各国• http://dataportals.org/• https://www.data.gov/• https://data.gov.uk/• https://datahub.io/などなど

Page 14: いかにしてデータを手に入れるか

日本だと• http://www.data.go.jp/• http://datameti.go.jp/• http://udct-data.aigid.jp/

(Urban Data Challenge)• 他メタリスト• https://goo.gl/qbF2oZ

(CKAN採用リスト )• From @_shimizu

http://bit.ly/2fE98tn• http://iden-tity.biz/archiv

es/1475

データポータル

Page 15: いかにしてデータを手に入れるか

スクレイピング

Page 16: いかにしてデータを手に入れるか

賞味期限切れ :ScraperWiki

Page 17: いかにしてデータを手に入れるか
Page 18: いかにしてデータを手に入れるか
Page 19: いかにしてデータを手に入れるか
Page 20: いかにしてデータを手に入れるか
Page 21: いかにしてデータを手に入れるか

賞味期限切れ :ScraperWiki

Page 22: いかにしてデータを手に入れるか

賞味期限切れ :ScraperWiki

Page 23: いかにしてデータを手に入れるか

賞味期限切れ :ScraperWiki

Page 24: いかにしてデータを手に入れるか

賞味期限切れ :ScraperWiki• From @AKU_T https://www.import.io/

Page 25: いかにしてデータを手に入れるか

「使える」データに

Page 26: いかにしてデータを手に入れるか

いかにして「使える」データを手に入れるかFrom 「データを扱うための基礎的な手順」• データを求める際に、あなたが答えようとしている質問のリストから始めるべきだ。• データはたいてい汚い状態なので、奇麗にする必要がある。• データには明示的になっていない特徴があるかもしれない。

Page 27: いかにしてデータを手に入れるか

Miami Herald の例酔っ払い運転の量刑データ

Page 28: いかにしてデータを手に入れるか

データ解釈の大事さ•裁判官ごとに異なる酔っ払い運転の逮捕者への判決の重さを分析していた時のことだ。レポーターは有罪判決の記録を裁判所のシステムから引き出し、データ辞書に含まれる3つの要素の数値を分析した。• 拘留期間• 懲役期間• 罰金の量である。

Page 29: いかにしてデータを手に入れるか

データ解釈の大事さ• 本筋と外れたもめごと• 判決の約 1〜 2% で、拘留期間も懲役期間も罰金の量も示していないものがあった結果として "罪に問われない "というケースが少量ながら含まれていた。• この記事と図が出版された時、裁判官達は抗議の声を上げた。 Miami

Herald 紙は、裁判官達が酔っ払い運転で有罪の判決を受けた者は罰を受けなくてはならないという州法を破っていると批判している、として。

Page 30: いかにしてデータを手に入れるか

データ解釈の大事さ• レポーターはデータファイルを作った裁判所書記官のオフィスに戻り、そのエラーの原因について尋ねた。• そして、問題のケースは、初めて逮捕された際の被告の貧困が関わっていると告げられた。通常、被告には罰金が課せられるはずの場合において、彼らにはお金がなかったということだ。そのため裁判官は、道路に沿ってゴミを清掃するといった、社会奉仕を彼らに命じた。後で分かったことだが、データベースの構造が作られた後に、社会奉仕を要求する法が通過していた。• たがって、すべての裁判所書記官は、データの中で、拘留・懲役・罰金の各変数がゼロになっているものは社会奉仕を意味することを知っていた。しかし、これは、データ辞書に記載 されておらず 、そのため Herald 紙は訂正記事を出すこととなった。

Page 31: いかにしてデータを手に入れるか

Guardian の例ウィキリークスのデータ

Page 32: いかにしてデータを手に入れるか

データ処理に手を付ける•始まったばかりのころに取り組んだ重要なことは、データベース全体を公開しないようにすることだった。ウィキリークスは既にそうしようとしていたが、私たちは情報提供者の名前を明かさないことやNATOの部隊を不必要に危険にさらしたりしないことを保障したかった。同時に、 David Leigh や Nick

Davies ( Julian Assange と交渉してデータを公開させたのは彼らだ)率いる我々の調査報道チームがデータを使いやすいようにする必要があった。また、鍵となる情報へのアクセスをよりシンプルにし、できる限り明瞭でオープンな形で白日の下にさらしたかった。

Page 33: いかにしてデータを手に入れるか

データ処理に手を付ける• 私たちのチームはシンプルな内部用のデータベースを SQLを使って構築した。ジャーナリストはそれによってイベントやできごとを手掛かりにストーリーを探索できるようになった。突如として、データセットはアクセス可能なものとなり、ストーリーを生み出すことが容易になったのである。• データはきちんと構造化された。それぞれのできごとには、時間、日時、説明、犠牲者数、―そしてこれがとても重要なものであるが―緯度経度といった鍵となるデータが付された。

Page 34: いかにしてデータを手に入れるか
Page 35: いかにしてデータを手に入れるか

HuTime• http://www.hutime.org/basicdata/calendar/form.html

Page 36: いかにしてデータを手に入れるか

HuTime• http://www.hutime.org/basicdata/calendar/form.html

Page 37: いかにしてデータを手に入れるか

Google Fusion Tables

Page 38: いかにしてデータを手に入れるか

Google Fusion Tables

Page 39: いかにしてデータを手に入れるか

Google Fusion Tables

Page 40: いかにしてデータを手に入れるか

まとめ• データを手に入れる

• デジタル化• 検索• 公開請求• オープンデータ• スクレイピング• クラウドソーシング

• それを使えるものに• 時間情報や地理情報のフォーマッティング• 秘匿すべきものは秘匿する• データ辞書