Upload
-
View
1.727
Download
1
Embed Size (px)
Citation preview
Who am I ?
• Shinichi Nakagawa(@shinyorke)
• Recruit Sumai Company, Ltd.
• Pythonでやきうの人/Agile大好き
• 贔屓チーム
• 北海道日本ハムファイターズ
• オークランド・アスレチックス
野球Hack~Pythonを用いたデータ分析と可視化http://www.slideshare.net/shinyorke/hackpython-pyconjp
【答】ありません!(断言)
• 「ここにデータあるから使ってイイよ!」的なデータは公式・非公式共に存在しない.
• NPB公式は歴史的経緯上色々アレ.
• 個人系のサイトは頑張って自分で集めてるっぽい(拍手)
• 欲しいデータは自分で取りに行くしかない.
Pythonの場合、Beautifulsoupあたりで,,,あっ(察し
【答】絶対無いです!(断言)
• プロ野球・MLB、ひいては他のスポーツも、データを扱うのは非常にコストがかかる→人件費・システム構築・運用とかとか
• Webサイトやアプリのログと同じで、データそのものが宝物、タダでオマイラに使わせるわけねーだろ!、が本音(と思われる)
• ちなみにMLBでは、野球選手そのものがゲームアイテムや金融商品化している(ぐらいにデータがメッチャ大事)
Sean Lahman - 野球選手DB
• http://www.seanlahman.com/baseball-archive/statistics/
• MLB選手のプロフィールと年度別成績、一年に一度更新(CSV/SQL/MS Access)
• 前処理ほぼ不要、カラムを読むだけで使える(と思われる)
Retrosheet - 試合と選手の歴史
• http://retrosheet.org/
• MLBの試合と打席の詳細データ、投球・打撃結果・観客etc…情報凄い
• CSVだが、謎なフォーマットで構成
• スコアラー・審判一歩手前の野球ドメイン知識必要
pitchRx - pitchingを丸裸にする
• https://cran.r-project.org/web/packages/pitchRx/index.html
• Pitch f/xという、超高性能版スピードガンで取得した投球データを公開&ライブラリあり(なおR)
• 日本で使ってるのは専門の野球アナリストor 野球Hackの先駆者@gg_hatano氏ぐらいと思われる
• @gg_hatanoさんのブログで知りました http://gg-hogehoge.hatenablog.com/entry/2013/12/21/075023
まとめ
• 日本の野球データは(今のところ)期待出来ない.
→将来は別だと思う(又は別だと信じたい)
• メジャーリーグは充実している.野球ドメイン知識を鍛えて使ってみよう!
• 他のスポーツは正直しらん.
興味ある人探して&情報共有よろしくオナシャス!