14
Apache Kafka and stream processing peculiarities

Apache Kafka and stream processing peculiarities [ru]

Embed Size (px)

Citation preview

Page 1: Apache Kafka and stream processing peculiarities [ru]

Apache Kafka and stream processing

peculiarities

Page 2: Apache Kafka and stream processing peculiarities [ru]

Предисловие – Hadoop?

– Storm?

– Onyx?

– Dryad?..

Нет, не слышал

Page 3: Apache Kafka and stream processing peculiarities [ru]

KafkaЛог сообщений:

– Хранимый и надёжный – Распределенный – Масштабируемый – ну и всё самое хорошее

Page 4: Apache Kafka and stream processing peculiarities [ru]

Turning database inside outДоклад Мартина Клеппмана

на Strange Loop’14:https://www.youtube.com/watch?v=fU9hR3kiOK0

App State = Processing(log)

Page 5: Apache Kafka and stream processing peculiarities [ru]

Stream processing

Page 6: Apache Kafka and stream processing peculiarities [ru]

Состояние

Page 7: Apache Kafka and stream processing peculiarities [ru]

Task

process window

Timer

Page 8: Apache Kafka and stream processing peculiarities [ru]

Плюсы – Можно пересчитать заново – Низкая связанность (coupling)

– Легко тестировать

Page 9: Apache Kafka and stream processing peculiarities [ru]

2 недели

Page 10: Apache Kafka and stream processing peculiarities [ru]
Page 11: Apache Kafka and stream processing peculiarities [ru]

Всё вручную – WHERE

– Индексы – JOIN

– Идентификаторы – Агрегация – JOIN!!!

Page 12: Apache Kafka and stream processing peculiarities [ru]

JOIN, Aggregatetweet-idurl

url

url/tidurl

url

sum

Page 13: Apache Kafka and stream processing peculiarities [ru]

А ещё – Разломанный конвеер - не

беда – Обработка шага заново

Page 14: Apache Kafka and stream processing peculiarities [ru]

Хочу!Kafka

Samza – для JVMhttp://wiki.apache.org/samza/PapersAndTalks

Pymza – для Python