Kaggle Tradeshift Challenge

Kaggle Tradeshift ChallengeParis ML Meetup

12 novembre 2014

Romain Ayres - OCTOEric Biernat - OCTO

Matthieu Scordia - Dataiku

Le challenge en 2 mots

Les données à disposition

Train :

1 700 000 lignes représentant des zones de textes

33 labels à prédire (data, adresse, champs libres, nom, etc.)

145 features : float, int, catégorielles hachées avec nombreuses modalitées

(> 200 000)

Test :

540 000 lignes

540 000 * 33 = 17 000 000 millions de prédictions

La métrique d’évaluation

Le log-loss

Zone de

1. Online learning

1. Two-stage learning

1. Vowpal Wabbit

Modélisation

● Descente de gradient stochastique

● Learning rate adaptatif :

● Hashing trick

● Gros avantage : passage à l’échelle (20min, <400MB)

● Problème : modèle linéaire, ne capte pas les

interactions entre les variables

http://www.kaggle.com/c/tradeshift-text-classification/forums/t/10537/beat-the-benchmark-with-less-than-400mb-of-memory

Online learning

● Random Forest (librairie sklearn)

Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu, Tao Xu, Yanxin Shi, Antoine Atallah, Ralf Herbrich, Stuart Bowers and Joaquin

Quinonero Candela, Practical Lessons from Predicting Clicks on Ads at Facebook, ADKDD'14.

rf.fit(X,y) rf.apply(X)

id tree_1 tree_2

id x1 ... x145

0 3.7 ... 204

1 -5.0 ... 4

2 12 ... 35

3 0.1 ... 83

4 -2.3 ... 56

Online learning - ajout non linéarité

Le script construit 33 modèles disjoints alors que les labels

à prédire ne sont pas indépendants

Exemple : quand y33 == 1 alors y1,...,y32 == 0

Online learning - problème

● Séparation du dataset en deux :

● Apprentissage de 33 modèles sur X_base

● P = prédictions de ces modèles sur X_meta

● Concaténation de P et X_meta et

apprentissage du meta modèle :

X_base

X_meta

P X_meta

Two-stage learning

Vowpal Wabbit

[Label] [Importance [Tag]]|Namespace Features |Namespace

Features ... |Namespace Features

Focus sur une dizaine de labels seulement

Un peu différent de sklearn

rf.fit(X_train, y_train)

Eviter de switcher entre le notebook et le terminal

Un peu de cuisine pour la fin

Log_loss

0.0043350

Evolution du leaderboard

14 minutes avant la fin…

Et à une heure du mat’

Et parce qu’on aime se faire du mal…

Merci de votre attention!

Romain Ayres - OCTO

Eric Biernat - OCTO

Matthieu Scordia - Dataiku

Kaggle Tradeshift Challenge

Data & Analytics

Tradeshift Corporate Presentation

ОСОБЕННОСТИ СОРЕВНОВАНИЙ KAGGLE

Kaggle - Higgs Boson ML Challenge project report

Andrej Karpathy - 텐서 플로우 블로그 (Tensor · ConvNets are everywhere… Whale recognition, Kaggle Challenge Satellite image analysis Mnih and Hinton, 2010 Galaxy Challenge

Kaggle: Coupon Purchase Prediction

Microsoft Malware Classification Challenge 上位手法の紹介 (in Kaggle Study Meetup)

Kaggle Higgs Boson Machine Learning Challenge

陳琤 20160106 kaggle

stories behind kaggle competitions

Opening Data With Kaggle

Kaggle bosch presentation material for Kaggle Tokyo Meetup #2

West-Nile-Virus | Kaggle

Intro to kaggle

Million Song Dataset Challenge€¦ · · 2017-03-12The Million Song Dataset Challenge (MSDC) is a large scale, music recommendation challenge posted in Kaggle, ... Microsoft Word

Kaggle Competition: Product Classification

CM UTaipei Kaggle Share

Tradeshift, Hackett Group & sharedserviceslink - P2P Webinar

ProcureCon Indirect East 2016: Tradeshift CEO Keynote

뉴스를이용한주식시장 예측(with Kaggle)뉴스를이용한주식시장 예측(with Kaggle) 직방부동산데이터팀서범석 발표자및발표내용 발표자:직방데이터노동자

Tradeshift Supplier Training Guide (1) - Amazon Web … Supplier Training... · Tradeshift!Status!Meanings!! TRADESHIFT STATUS Invoice Status STATUS DETAILS SENT Invoice has passed