Upload
cornec
View
1.459
Download
0
Embed Size (px)
DESCRIPTION
Gilles Stoltz (CNRS, HEC
Citation preview
Framework A simple strategy Non stationarity Empirical studies References
Robust sequential learningwith applications to the forecasting of air quality
and of electricity consumption
Gilles Stoltz
CNRS — École normale supérieure — INRIA, équipe CLASSIC
& HEC Paris
Framework A simple strategy Non stationarity Empirical studies References
A statistician has to predict a sequence y1, y2, . . . of observationslying in some set Y.His predictions y1, y2, . . . are picked in a set X .
Observations and predictions (1) are made in a sequential fashionand (2) rely on no stochastic modeling.
(1) means that for each instance, the prediction yt of yt isdetermined
– solely based on the past observations y t−11 =
(y1, . . . , yt−1
),
– before getting to know the actual value yt .
(2) indicates that the methods at hand will not resort to theestimation of some parameters of some stochastic process to builda good model and get some accurate forecasts from it.
Framework A simple strategy Non stationarity Empirical studies References
To make the problem meaningful, finitely many expert forecasts arecalled for.
At each instance t, expert j ∈ {1, . . . ,N} outputs a forecast
fj ,t = fj ,t(y t−11)∈ X
The statistician now determines yt based– on the past observations y t−1
1 = (y1, . . . , yt−1),– and the current and past expert forecasts fj ,s , where
s ∈ {1, . . . , t} and j ∈ {1, . . . ,N}.
Framework A simple strategy Non stationarity Empirical studies References
We assume that the set X of predictions is convex and we restrictthe statistician to form convex combinations of the expert forecasts.
At each instance t, the statistician thus picks a convex weightvector pt =
(p1,t , . . . , pN,t
)and forms
yt =N∑
j=1
pj ,t fj ,t
The aim of the statistician is to predict –on average– as well as thebest constant convex combination of the expert forecasts.
... But we need first to indicate how to assess the accuracy of agiven prediction!
Framework A simple strategy Non stationarity Empirical studies References
To that end, we consider a convex loss function ` : X × Y → R+.
When X ⊆ R and Y ⊆ R, possible choices are
– the square loss `(x , y) = (x − y)2;
– the absolute loss `(x , y) = |x − y |;– the absolute percentage of error `(x , y) = |x − y |
/|y |.
The cumulative losses of the statistician and of the constant convexcombinations q = (q1, . . . , qN) of the expert forecasts equal
LT =T∑
t=1
`
N∑j=1
pj,t fj,t , yt
and LT (q) =T∑
t=1
`
N∑j=1
qj fj,t , yt
The regret is defined as the difference
RT = LT −minq
LT (q)
Framework A simple strategy Non stationarity Empirical studies References
Recall that the regret RT is defined as the difference
LT −minq
LT (q) =T∑
t=1
`
N∑j=1
pj,t fj,t , yt
−minq
T∑t=1
`
N∑j=1
qj fj,t , yt
We are interested in aggregation rules with (uniformly) vanishingper-round regret,
lim supT→∞
1T
sup{
LT −minq
LT (q)}6 0
where the supremum is over all possible sequences of observationsand of expert forecasts.
This is why this framework is referred to as prediction of individualsequences or as robust aggregation of expert forecasts.
Note that the best convex combination q? can only be determinedin hindsight whereas the statistician has to predict in a sequentialfashion.
Framework A simple strategy Non stationarity Empirical studies References
This framework leads to a meta-statistical interpretation:– each series of expert forecasts may be given by a statistical
forecasting method, possibly tuned with some given set ofparameters;
– these base forecasts relying on some stochastic model are thencombined in a robust and deterministic manner.
The cumulative loss of the statistician can be decomposed as
LT = minq
LT (q) + RT
This leads to the following interpretations:– the term indicating the performance of the best convex
combination of the expert forecasts is an approximation error;– the regret term measures a sequential estimation error.
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Exponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
1 Agrégation séquentielle de prédicteursCadre mathématiqueLa philosophie sous-jacente à ce cadreRésumé du cadre
2 Applications à des données réellesPrédiction de la qualité de l’airAutres domaines
3 Deux familles d’algorithmes d’agrégation séquentielleExponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
4 Travaux récents et perspectivesCalibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Exponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
TheoremLe regret de EG face à toute combinaison convexe constante q estuniformément borné (en q et en les suites y1, y2, . . .) selon
n∑t=1
`
N∑j=1
pj,t fj,t , yt
− n∑t=1
`
N∑j=1
qj fj,t , yt
6 lnNη
+ηn2
B2
où B est une borne sur les gradients,ww∇˜tww∞ 6 B pour tout t.
Deux éléments de démonstration : par convexité,
`
N∑j=1
pj,t fj,t , yt
− ` N∑
j=1
qj fj,t , yt
6 ∇˜t(pt) ·(pt − q
)et l’analyse de ce majorant (linéaire en q) repose sur le lemme deHoeffding.
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Exponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
La version fenêtrée repose sur une largeur de fenêtre T et produitles combinaisons convexes données par
pj,t =
exp(−η ∑t−1
s =max{1, t−T}
(∇˜s(ps)
)j
)∑N
i=1 exp(−η ∑t−1
s =max{1, t−T}
(∇˜s(ps)
)i
)La version escomptée utilise une suite décroissante (βs) pourformer
pj,t =
exp(−ηt
∑t−1s=1
(1+ βt−s
) (∇˜s(ps)
)j
)∑N
i=1 exp(−ηt
∑t−1s=1
(1+ βt−s
) (∇˜s(ps)
)i
)On peut exhiber une borne théorique sur le regret de la versionescomptée, dépendant de (βs).
Pour la prédiction de la qualité de l’air, nous avons utilisé desescomptes assez forts, βs = 100/s2.
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Exponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
1 Agrégation séquentielle de prédicteursCadre mathématiqueLa philosophie sous-jacente à ce cadreRésumé du cadre
2 Applications à des données réellesPrédiction de la qualité de l’airAutres domaines
3 Deux familles d’algorithmes d’agrégation séquentielleExponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
4 Travaux récents et perspectivesCalibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Exponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
La régression ridge a été introduite dans les années 70 par Hoerl etKennard et intensivement étudiée depuis dans un cadrestochastique.
Vovk ’01 et Azoury et Warmuth ’01 en proposent une analyse pourdes suites individuelles.
Formellement, en perte quadratique, la régression ridge choisit descombinaisons linéaires ut des prédictions des experts données, àl’échéance t > 2, par un critère de moindres carrés pénalisés,
ut ∈ argminu∈RN
λ ‖u‖22 + t−1∑s=1
ys −N∑
j=1
uj fj ,s
2 Elle peut être mise en œuvre efficacement de manière séquentielleet assure que son regret est O(ln n).
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Exponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
Une propriété tout à fait sympathique de la régression ridge estqu’elle semble débiaiser automatiquement les experts.
On peut en effet la faire tourner sur un seul expert (proposant lesprédictions f s
j ,t) et faire ainsi presqu’aussi bien que le meilleur desexperts, indexés chacun par γ, proposant les prédictions γ f s
j ,t .
S’il y a un facteur de biais multiplicatif à-peu-près contant 1/γ, ilest donc corrigé.
Sur les données d’ozone, cela donne les erreurs quadratiquesmoyennes suivantes, par exemple sur le meilleur et le moins bonmodèle :
Sans Ridge Avec Ridge Sans Ridge Avec Ridge35.79 24.78 22.43 21.66
Gilles Stoltz Prédiction avec experts
Framework A simple strategy Non stationarity Empirical studies References
Two empirical studies– Prediction of air quality
– Forecasting of the electricity consumption
Framework A simple strategy Non stationarity Empirical studies References
Two empirical studies
The methodology of our studies is in four steps:
1 Build the experts (possibly on a training data set) and pickanother data set for the evaluation of our methods;
2 Compute some benchmarks and some reference oracles;
3 Evaluate our strategies when run with fixed parameters (i.e.,with the best parameters in hindsight);
4 The performance of interest is actually the one of thedata-driven meta-strategies.
Framework A simple strategy Non stationarity Empirical studies References
First study:
Prediction of air quality
Joint work with Vivien Mallet (INRIA) and M.Sc. students;published in the Journal of Geophysical Research
Some characteristics of one among the studied data sets:
– 126 days during summer ’01; one-day ahead prediction
– 241 stations in France and Germany
– Typical ozone concentrations between 40 µgm−3 and150 µgm−3; sometimes above the values 180 µgm−3 or 240µgm−3
– 48 experts, built in Mallet et Sportisse ’06 by choosing aphysical and chemical formulation, a numerical approximationscheme to solve the involved PDEs, and a set of input data(among many)
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
On dispose d’un réseau S de stations à travers l’Europe et chaquemodèle j = 1, . . . , 48 procure une prédiction f s
j ,t pour le pic à lastation s et au jour t, qui est ensuite comparée au pic réalisé y s
t .
Le statisticien détermine chaque jour une unique combinaisonconvexe pt = (p1,t , . . . , pN,t) à utiliser en toutes les stations pouragréger les prédictions (et obtenir ainsi un champ de prévisions).
Les écarts sont mesurés en perte quadratique moyenne, ce quirevient à considérer la fonction de perte
`(pt , (y
st )s∈St
)=∑s∈St
48∑j=1
pj ,t f sj ,t − y s
t
2
où St est le sous-ensemble des stations actives au jour t.
La définition s’étend au cas des combinaisons linéaires ut (quipermettent par exemple de réduire le biais des modèles).
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
Les figures ci-dessous montrent que tous les experts sont utiles etapportent de l’information.
-10 -5 0 5 10 15 20
42
44
46
48
50
52
54
56
0 5 10 15 20 25 30 35 40 45 0 5 10 15 20
Hour
30
40
50
60
70
80
90
100
110
Concentration
Figure: A gauche : Coloration de l’Europe en fonction de l’indice dumeilleur expert local. A droite : Profils moyens de prédiction sur unejournée (moyennes spatiales et temporelles, en µg/m3).
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
Les erreurs cumulées de la méthode d’agrégation et de lacombinaison linéaire constante induite par u valent respectivement
Ln =n∑
t=1
∑s∈St
48∑j=1
uj,t f sj,t − y s
t
2
et Ln(u) =n∑
t=1
∑s∈St
48∑j=1
uj f sj,t − y s
t
2
où St est le sous-ensemble des stations actives au jour t.
Les erreurs quadratiques moyennes associées sont données par
rn =
√Ln∑n
t=1 |St |et rn(u) =
√Ln(u)∑nt=1 |St |
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
L’espoir est qu’un bon ensemble d’experts et la considération d’uneprocédure avec un faible regret entraînent à leur tour une faibleerreur quadratique moyenne.
En effet,Ln 6 inf
u∈ULn(u) + o(n)
se ré-écrit comme (rn)26 inf
u∈U
(rn(u)
)2+ o(1)
(U est par exemple le simplexe des probabilités ou une boule `1).
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
Moyenne M. fondamental M. convexe M. linéaire Prescient24.41 22.43 21.45 19.24 11.99
Ci-dessus, les erreurs quadratiques moyennes (en µg/m3)
– de la moyenne des prédictions des 48 modèles, i.e.,rn((1/48, . . . , 1/48)
),
– du meilleur modèle fondamental parmi j = 1, . . . , 48,
– de la meilleure combinaison convexe q des 48 modèles, i.e.,minq rn(q),
– de la meilleure combinaison linéaire u (parmi tous les vecteursde R48) des 48 modèles, i.e., minu rn(u),
– du prédicteur prescient qui aurait connaissance des y st avant de
former sa prédiction et ne serait contraint que par l’obligationde choisir une combinaison linéaire des prédictions desmodèles.
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
Nous avons mis en œuvre environ 20 méthodes d’agrégationdifférentes et nous concentrons ici sur deux familles qui ont obtenude bons résultats, EG et la régression ridge (et leurs variantes).
EG est l’abréviation d’exponentielle des gradients. Cette méthodeforme des combinaisons convexes dont les composantes sontdonnées par une pondération exponentielle des sommes descomposantes des gradients des pertes passées.
Son regret moyen par rapport à l’ensemble des combinaisonsconvexes constantes est plus petit que 1/
√n.
La régression ridge est une méthode d’estimation classique en pertequadratique et qui utilise la meilleure combinaison linéaire pénaliséesur les données passées (pénalisation en terme de norme `2).
Son regret moyen par rapport à toute combinaison linéaireconstante est plus petite qu’une quantité de l’ordre de (ln n)/n.
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
Les versions fenêtrées n’utilisent qu’un nombre fixe des plusrécentes pertes passées, pour ensuite pondérer exponentiellementleurs gradients (EG) ou calculer sur elles seulement une meilleurecombinaison linéaire pénalisée (régression ridge).
L’escompte multiplie chaque perte passée par un facteur d’autantplus petit que ce passé est lointain.
EG EG fenêtré EG esc. Ridge Ridge fenêtrée Ridge esc.21.47 21.37 21.31 20.77 20.03 19.45
La meilleure combinaison convexe constante est battue et la versionescomptée de la régression ridge a des performances très proches decelles de la meilleure combinaison linéaire constante.
Moyenne M. fondamental M. convexe M. linéaire Prescient24.41 22.43 21.45 19.24 11.99
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Prédiction de la qualité de l’airAutres domaines
Les méthodes d’agrégation séquentielle ne se concentrent pas surun seul expert.
Les poids attribués aux modèles peuvent changer rapidement et demanière significative au cours du temps.
0 20 40 60 80 100 120
Step
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
Weight
0 20 40 60 80 100 120
Step
-15
-10
-5
0
5
10
Weight
Figure: Poids produits au cours du temps par (à gauche) EG et la versionescomptée de la régression ridge (à droite).
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Calibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
1 Agrégation séquentielle de prédicteursCadre mathématiqueLa philosophie sous-jacente à ce cadreRésumé du cadre
2 Applications à des données réellesPrédiction de la qualité de l’airAutres domaines
3 Deux familles d’algorithmes d’agrégation séquentielleExponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
4 Travaux récents et perspectivesCalibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Calibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
On rappelle que l’exponentielle des gradients prédit, pour t > 2,avec pt défini, composante j par composante j selon
pj,t(η) =
exp(−η ∑t−1
s=1
(∇˜s(ps)
)j
)∑N
i=1 exp(−η ∑t−1
s=1
(∇˜s(ps)
)i
)L’idée ici est de faire varier η en fonction de t et considérer pour ηtle meilleur paramètre η sur les échéances 1, . . . , t − 1,
ηt ∈ argminη>0
t−1∑s=1
`s(ps(η)
).
On utilise alors pt(ηt) pour la prédiction au jour t.
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Calibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
On peut définir de manière similaire une calibration automatique deRidge. Sur les données d’ozone :
Meilleure convexe 21.45EG avec meilleur η 21.47EG avec (ηt) 21.80Meilleure linéaire 19.24Ridge avec meilleur λ 20.77Ridge avec (λt) 20.81
Le “meilleur” paramètre désigne le paramètre constant η ou λ,choisi de manière rétrospective, qui aurait donné les meilleursrésultats en termes d’erreur quadratique.
Il n’y a pas encore de borne théorique pour cette méthode decalibration, mais nous y travaillons !
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Calibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
1 Agrégation séquentielle de prédicteursCadre mathématiqueLa philosophie sous-jacente à ce cadreRésumé du cadre
2 Applications à des données réellesPrédiction de la qualité de l’airAutres domaines
3 Deux familles d’algorithmes d’agrégation séquentielleExponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge
4 Travaux récents et perspectivesCalibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Calibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
Pour obtenir des combinaisons linéaires ou convexes n’utilisantqu’un nombre restreint de modèles, on peut seuiller lescombinaisons proposées (pour EG) ou changer le type de pénalité(pour Ridge).
La méthode LASSO (Tibshirani, ’96) choisit des combinaisonslinéaires ut des prédictions des experts données, à l’échéance t > 2,par un critère de moindres carrés pénalisés en norme `1,
ut = argminu∈RN
λ ‖u‖1 + t−1∑s=1
ys −N∑
j=1
uj fj ,s
2 Les combinaisons qui en résultent ont en général de nombreuxcoefficients nuls (et sont dites lacunaires).
Gilles Stoltz Prédiction avec experts
Agrégation séquentielle de prédicteursApplications à des données réelles
Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives
Calibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats
Une version escomptée de LASSO conduit ainsi à une très fortesélection parmi les modèles (une vingtaine est éliminée sur lesdonnées d’ozone).
Ridge esc. LASSO esc. M. linéaire19.45 19.31 19.24
0 20 40 60 80 100 120Step
�25�20�15�10�50510
Weight
0 20 40 60 80 100 120Step
0
10
20
30
40
Indic
es
of
zero
weig
hts
Gilles Stoltz Prédiction avec experts
Framework A simple strategy Non stationarity Empirical studies References
Second study:
Forecasting of the electricity consumption
Joint work with Yannig Goude (EDF R&D) and M.Sc. students (MarieDevaine, Pierre Gaillard); submitted
Specialized experts are available: each of them only outputs a forecastwhen specific conditions are met (working day vs. week end,temperature, etc.).
The definitions and strategies need to be generalized to this setting.
Exhaustive list of references: Blum ’97; Freund et al. ’97; Cesa-Bianchi andLugosi ’03; Blum and Mansour ’07... This is it!
On our data set,
– 3 families of experts, 24 experts in total;
– [operational constraint:] one-day ahead prediction at a half-hourstep, i.e., the next 48 half-hour instances are to be predicted everyday at noon
Framework A simple strategy Non stationarity Empirical studies References
Month
Co
nsu
mpt
ion
(G
W)
9 11 12 1 3 4 5 7 8
30
40
50
60
70
80
90
Day in the weekC
on
sum
ptio
n (
GW
)
Mon Tue Wed Thu Fri Sat Sun
35
40
45
50
55
Electricity consumption in France– Year 2007–08 (left)– Typical summer week (right)
Framework A simple strategy Non stationarity Empirical studies References
Some orders of magnitude for the prediction problem at hand areindicated below.
Time intervals Every 30 minutes
Number of days D 320Time instances T 15 360 (= 320× 48)Number of experts N 24 (= 15+ 8+ 1)
Median of the yt 56 330 MWBound B on the yt 92 760 MW
Framework A simple strategy Non stationarity Empirical studies References
We indicate RMSE (average errors and 95% standard errors).
Best expert Uniform mean Best p782± 10 724± 11 658± 9
Exp. weights Best parameter Adaptive629± 8 637± 9
Shifts m = T − 1 = 15 359 m = 200 m = 50223± ? 414± ? 534± ?
Fixed-Share Best parameter Adaptive599± 9 629± 8
Framework A simple strategy Non stationarity Empirical studies References
0 5 10 15 20
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Hour
RM
SE
(G
W) —— Best expert
- - - - Best p� Exp. weights• Fixed-share
Average RMSEs (in GW / not in MW) according to the half hours
A picture is worth thousand tables, right?
The average RMSE were similar but the behaviors seem different bythe half-hours.
Framework A simple strategy Non stationarity Empirical studies References
ReferencesIn case you’re not bored to death (yet) by this topic!
Framework A simple strategy Non stationarity Empirical studies References
The so-called “red bible!”
Prediction, Learning, and Games
Nicolò Cesa-Bianchi et Gábor Lugosi
Framework A simple strategy Non stationarity Empirical studies References
I published a survey paper (containing this talk!) one year ago inthe Journal de la Société Française de Statistique
Journal de la Société Française de StatistiqueVol. 151 No. 2 (2010)
Agrégation séquentielle de prédicteurs :méthodologie générale et applications à la
prévision de la qualité de l’air et à celle de laconsommation électrique
Title: Sequential aggregation of predictors: General methodology and application to air-quality forecastingand to the prediction of electricity consumption
Gilles Stoltz *
Résumé : Cet article fait suite à la conférence que j’ai eu l’honneur de donner lors de la réception du prix Marie-JeanneLaurent-Duhamel, dans le cadre des XLe Journées de Statistique à Ottawa, en 2008. Il passe en revue les résultatsfondamentaux, ainsi que quelques résultats récents, en prévision séquentielle de suites arbitraires par agrégationd’experts. Il décline ensuite la méthodologie ainsi décrite sur deux jeux de données, l’un pour un problème de prévisionde qualité de l’air, l’autre pour une question de prévision de consommation électrique. La plupart des résultatsmentionnés dans cet article reposent sur des travaux en collaboration avec Yannig Goude (EDF R&D) et Vivien Mallet(INRIA), ainsi qu’avec les stagiaires de master que nous avons co-encadrés : Marie Devaine, Sébastien Gerchinovitz etBoris Mauricette.
Abstract: This paper is an extended written version of the talk I delivered at the “XLe Journées de Statistique”in Ottawa, 2004, when being awarded the Marie-Jeanne Laurent-Duhamel prize. It is devoted to surveying somefundamental as well as some more recent results in the field of sequential prediction of individual sequences with expertadvice. It then performs two empirical studies following the stated general methodology: the first one to air-qualityforecasting and the second one to the prediction of electricity consumption. Most results mentioned in the paper arebased on joint works with Yannig Goude (EDF R&D) and Vivien Mallet (INRIA), together with some students whomwe co-supervised for their M.Sc. theses: Marie Devaine, Sébastien Gerchinovitz and Boris Mauricette.
Classification AMS 2000 : primaire 62-02, 62L99, 62P12, 62P30
Mots-clés : Agrégation séquentielle, prévision avec experts, suites individuelles, prévision de la qualité de l’air,prévision de la consommation électrique
Keywords: Sequential aggregation of predictors, prediction with expert advice, individual sequences, air-qualityforecasting, prediction of electricity consumption
Ecole normale supérieure, CNRS, 45 rue d’Ulm, 75005 Paris& HEC Paris, CNRS, 1 rue de la Libération, 78350 Jouy-en-JosasE-mail : [email protected] : http://www.math.ens.fr/∼stoltz
* L’auteur remercie l’Agence nationale de la recherche pour son soutien à travers le projet JCJC06-137444 ATLAS(“From applications to theory in learning and adaptive statistics”).
† Ces recherches ont été menées dans le cadre du projet CLASSIC de l’INRIA, hébergé par l’Ecole normale supérieureet le CNRS.
Journal de la Société Française de Statistique, Vol. 151 No. 2 66-106http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2010) ISSN: 2102-6238
Even better (or worse)—it is in French!