64
Большой кравлинг на фронтирах Денис Тимофеев. Скрапингхаб

How to-build-google

Embed Size (px)

Citation preview

Page 1: How to-build-google

Большой кравлинг

на фронтирахДенис Тимофеев. Скрапингхаб

Page 2: How to-build-google

Скрапингхаб

Page 3: How to-build-google

Scrapy

Page 4: How to-build-google
Page 5: How to-build-google
Page 6: How to-build-google
Page 7: How to-build-google

Инфраструктура

Page 8: How to-build-google
Page 9: How to-build-google

Архитектура

Page 10: How to-build-google

Requests + Beautifulsoup

Page 11: How to-build-google

Scrapy

Page 12: How to-build-google
Page 13: How to-build-google

Docker

Page 14: How to-build-google

MesosKubernetos

Swarm

Page 15: How to-build-google
Page 16: How to-build-google

Где хранить результаты?

Page 17: How to-build-google
Page 18: How to-build-google

Хочется процессинга

Page 19: How to-build-google
Page 20: How to-build-google

Фронтир готов!

Page 21: How to-build-google
Page 22: How to-build-google

Что же внутри?

Page 23: How to-build-google

СУБД

Page 24: How to-build-google

SQLAlchemy & RDBMSили

HBase

Page 25: How to-build-google

Почему HBase

Page 26: How to-build-google

Реализация BigTable

Page 27: How to-build-google

MapReduce

Page 28: How to-build-google

HyperTable Cassandra

Accumulo HBase

Page 29: How to-build-google
Page 30: How to-build-google
Page 31: How to-build-google

Очереди сообщений

Page 32: How to-build-google

ZeroMQили

Kafka

Page 33: How to-build-google

Почему Kafka

Page 34: How to-build-google

Вежливый обход

Page 35: How to-build-google

Топики и разделы

Page 36: How to-build-google
Page 37: How to-build-google

СмещенияОффсеты

Page 38: How to-build-google
Page 39: How to-build-google
Page 40: How to-build-google
Page 41: How to-build-google

Стратегии обхода

Page 42: How to-build-google
Page 43: How to-build-google
Page 44: How to-build-google

Состояния URLНе пройденоВ очереде

ПройденоОшибка

Page 45: How to-build-google

Переобход

Page 46: How to-build-google

Ограничение числа

страниц

Page 47: How to-build-google

Тематический обход

Page 48: How to-build-google

В реальном мире

Page 49: How to-build-google

DNS

Page 50: How to-build-google
Page 51: How to-build-google

Ключ в HBase

Page 52: How to-build-google

Лексографическая сортировка

Page 53: How to-build-google

И блочное чтение

Page 54: How to-build-google

ru. rannts/news/2016/8/meetup-12/

Page 55: How to-build-google

ru. rannts/news/2016/8/meetup-12/

crc32 md5↓↓

Page 56: How to-build-google

Локальный кэш

Page 57: How to-build-google

dict

Page 58: How to-build-google

4K & 1M

Page 59: How to-build-google

.es

Page 60: How to-build-google

70K доменов

Page 61: How to-build-google

46.5М страниц

Page 62: How to-build-google

1.5 месяца

Page 63: How to-build-google

8 серверов

24 CPU 160G RAM

Page 64: How to-build-google