27
Открытые и большие данные на практике Иван Бегтин Директор НП “Информационная культура”

Opendata practice for Global Editors Hackathon

Embed Size (px)

DESCRIPTION

Open Data practice in Russia

Citation preview

Page 1: Opendata practice for Global Editors Hackathon

Открытые  и  большие  данные  на  практике  

Иван  Бегтин  Директор  НП  “Информационная  культура”      

     

Page 2: Opendata practice for Global Editors Hackathon

Типовые  ситуации  в  data-­‐журналистике  

Page 3: Opendata practice for Global Editors Hackathon

Есть  данные  -­‐  нет  идеи  

Page 4: Opendata practice for Global Editors Hackathon

Есть  идея  –  нет  данных  

Page 5: Opendata practice for Global Editors Hackathon

Нет  ни  данных,  ни  идеи,  но  сделать  надо  завтра!  

Page 6: Opendata practice for Global Editors Hackathon

Идеальная  ситуация  

Это  когда  есть:  ü  Идея  ü  Данные  ü  Время  ü  +  Технологии    

Page 7: Opendata practice for Global Editors Hackathon

Что  делать?  

Page 8: Opendata practice for Global Editors Hackathon

Готовимся  заранее:  Данные  

•  Большие  данные:  знаем  где  искать,  знаем  что  делать  

•  Ключевые  онлайн  API  и  наборы  данных  •  Screen  Scraping  •  Основные  инструменты  очистки  данных    

Page 9: Opendata practice for Global Editors Hackathon

Как  быстро  найти  данные?  

•  Спросить:  •  Quora.com  •  StackOverclow  -­‐  http://opendata.stackexchange.com/  •  Рассылки  OKF,  группы  в  Facebook  и  тд.  

•  Каталоги  •  The  Data  hub  –  http://thedatahub.org    •  Хаб  открытых  данных  –  http://hubofdata.ru    •  Data  Catalogs  –  http://datacatalogs.org/    

Page 10: Opendata practice for Global Editors Hackathon

Wikipedia  

Page 11: Opendata practice for Global Editors Hackathon

Wikipedia  

•  Wikipedia:  •  API  -­‐  http://en.wikipedia.org/w/api.php    •  Дампы  –  http://download.wikimedia.org  •  DBPedia  –  http://dbpedia.org  •  Wikidata  –  http://wikidata.org    •  FreeBase  -­‐  http://www.freebase.com/  

 

Page 12: Opendata practice for Global Editors Hackathon

Основные  базы  данных  онлайн  

•  Международные:  •  The  Data  Hub  –  http://thedatahub.org  •  Всемирный  банк  –  http://data.worldbank.org  •  ООН  –  http://data.un.org  

•  Национальные  •  Хаб  открытых  данных  –  http://hubofdata.ru    •  США  –  http://data.gov  •  UK  –  http://data.gov.uk      

Page 13: Opendata practice for Global Editors Hackathon

Основные  способы  работы  с  большими  данными  •  Выкачивать  целиком  под  задачу  •  Найти  и  использовать  чужое  API  •  Сделать  своё  API    

Page 14: Opendata practice for Global Editors Hackathon

Web  /  Screen  scraping  

Page 15: Opendata practice for Global Editors Hackathon

Что  такое  Web/Screen/Data  Scraping?  

•  не  ждем  данных  –  собираем  их  сами  •  извлекаем  их  из  веб-­‐страниц,  файлов  и  печатных  документов  •  переводим  неструктуриованное  в  базы  данных  

 

Page 16: Opendata practice for Global Editors Hackathon

Инструменты  

•  Программирование  •  Python  +  lxml  or  BeautifulSoup  +  база  данных  •  Или  …любой  другой  язык  программирования  

•  Платформы:  •  ScraperWiki.com  –  тоже  Python,  но  проще  

•  Abbyy  PDFTransformer  +  Finereader  

 

Page 17: Opendata practice for Global Editors Hackathon

Технологии  

Page 18: Opendata practice for Global Editors Hackathon

Технологии  

•  Открытый  код  •  Инструменты  визуализации  •  Обработка  данных  

 

Page 19: Opendata practice for Global Editors Hackathon

Government.github.com  

Page 20: Opendata practice for Global Editors Hackathon

Selection.datavizualisation.ch  

Page 21: Opendata practice for Global Editors Hackathon

Developers.google.com  

Page 22: Opendata practice for Global Editors Hackathon

Tech.yandex.ru  

Page 23: Opendata practice for Global Editors Hackathon

Пример:  Российская  общественная  

инициатива  

Page 24: Opendata practice for Global Editors Hackathon

Сайт  РОИ  

Page 25: Opendata practice for Global Editors Hackathon

Как  действовать  

•  Собрать  идеи  •  Написать  scraper  и  посмотреть  данные  •  Посмотреть  что  сделали  другие:  •  WeThePeople  –  http://petitions.whitehouse.gov  •  E-­‐Petitions  http://petitions.direct.gov.uk    

 

Page 26: Opendata practice for Global Editors Hackathon

Что  есть?  

•  Анализ  данных  РОИ  и  аналогичных  проектов  –  http://habrahabr.ru/company/infoculture/  

•  Код  на  Python  -­‐  https://github.com/ivbeg/apiroi  •  Дамп  базы  -­‐  http://hubofdata.ru/dataset/roi-­‐dump    

 

Page 27: Opendata practice for Global Editors Hackathon

Вопросы?  

Иван  Бегтин  Email:  [email protected]  Сайт:  http://ivan.begtin.name    Facebook:  facebook.com/ibegtin  twitter.:  ibegtin