22
Telstra Kaggle Competition Станислав Семёнов, 2016 г.

Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Embed Size (px)

Citation preview

Page 1: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Telstra KaggleCompetitionСтанислав Семёнов, 2016 г.

Page 2: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Задача

Page 3: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Метрика качества

Page 4: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Данные

Page 5: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Данные

Page 6: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Данные

Page 7: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Наблюдения

Page 8: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Наблюдения

Page 9: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

“Magic Feature”

Page 10: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Кросс-валидация

5-Fold Stratified CV

Page 11: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

Severity:

1. Severity_type

Resource:

1. Resource min

2. Resource max

3. Resource count

Page 12: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

Event:

1. Event min

2. Event max

3. Event count

Log:

1. Log min

2. Log max

3. Log count

Page 13: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

Log:

1. Volume min

2. Volume max

3. Volume min / volume sum

4. Volume max / volume sum

5. Volume mean

6. Volume median

7. Volume sum

8. Volume std

Page 14: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

Order

1. Absolute order

2. Location

3. Order in location from the beginning

4. Order in location from the end

5. Size of location

6. Order in location from the beginning / Size of location

7. Order in location from the end / Size of location

Page 15: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

Location

1. Location id

One-Hot-Encode

1. Severity

2. Resource

3. Event

4. Log

5. Location

Page 16: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

TF-IDF

1. Resource

2. Event

3. Log

One-Hot-Encode sets for one id

1. Resource

2. Event

Page 17: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

2-way interactions

1. Event-event

2. Resource-resource

3. Event-resource

Group order

1. Severity

2. Event

3. Resource

4. Log

Page 18: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Признаки

Cumulative sum from the beginning

1. Severity

2. Resource

3. Event

Cumulative sum from the end

1. Severity

2. Resource

3. Event

Page 19: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Схема решения

Data

5-fold

5 XGBs2 ETs

Stacking

Blending

Result

Page 20: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Stacking-Blending

Page 21: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Результаты

Page 22: Станислав Семенов, Data Scientist, Kaggle top-3, «О соревновании Telstra Kaggle Competition»

Вопросы

Спасибо за внимание!