Robust sequentiel learning

Framework A simple strategy Non stationarity Empirical studies References

Robust sequential learningwith applications to the forecasting of air quality

and of electricity consumption

Gilles Stoltz

CNRS — École normale supérieure — INRIA, équipe CLASSIC

& HEC Paris


A statistician has to predict a sequence y1, y2, . . . of observationslying in some set Y.His predictions y1, y2, . . . are picked in a set X .

Observations and predictions (1) are made in a sequential fashionand (2) rely on no stochastic modeling.

(1) means that for each instance, the prediction yt of yt isdetermined

– solely based on the past observations y t−11 =

(y1, . . . , yt−1

),

– before getting to know the actual value yt .

(2) indicates that the methods at hand will not resort to theestimation of some parameters of some stochastic process to builda good model and get some accurate forecasts from it.


To make the problem meaningful, finitely many expert forecasts arecalled for.

At each instance t, expert j ∈ {1, . . . ,N} outputs a forecast

fj ,t = fj ,t(y t−11)∈ X

The statistician now determines yt based– on the past observations y t−1

1 = (y1, . . . , yt−1),– and the current and past expert forecasts fj ,s , where

s ∈ {1, . . . , t} and j ∈ {1, . . . ,N}.


We assume that the set X of predictions is convex and we restrictthe statistician to form convex combinations of the expert forecasts.

At each instance t, the statistician thus picks a convex weightvector pt =

(p1,t , . . . , pN,t

)and forms

yt =N∑

j=1

pj ,t fj ,t

The aim of the statistician is to predict –on average– as well as thebest constant convex combination of the expert forecasts.

... But we need first to indicate how to assess the accuracy of agiven prediction!


To that end, we consider a convex loss function ` : X × Y → R+.

When X ⊆ R and Y ⊆ R, possible choices are

– the square loss `(x , y) = (x − y)2;

– the absolute loss `(x , y) = |x − y |;– the absolute percentage of error `(x , y) = |x − y |

/|y |.

The cumulative losses of the statistician and of the constant convexcombinations q = (q1, . . . , qN) of the expert forecasts equal

LT =T∑

t=1

`

N∑j=1

pj,t fj,t , yt

and LT (q) =T∑

t=1

`

N∑j=1

qj fj,t , yt

The regret is defined as the difference

RT = LT −minq

LT (q)


Recall that the regret RT is defined as the difference

LT −minq

LT (q) =T∑

t=1

`

N∑j=1

pj,t fj,t , yt

−minq

T∑t=1

`

N∑j=1

qj fj,t , yt

We are interested in aggregation rules with (uniformly) vanishingper-round regret,

lim supT→∞

1T

sup{

LT −minq

LT (q)}6 0

where the supremum is over all possible sequences of observationsand of expert forecasts.

This is why this framework is referred to as prediction of individualsequences or as robust aggregation of expert forecasts.

Note that the best convex combination q? can only be determinedin hindsight whereas the statistician has to predict in a sequentialfashion.


This framework leads to a meta-statistical interpretation:– each series of expert forecasts may be given by a statistical

forecasting method, possibly tuned with some given set ofparameters;

– these base forecasts relying on some stochastic model are thencombined in a robust and deterministic manner.

The cumulative loss of the statistician can be decomposed as

LT = minq

LT (q) + RT

This leads to the following interpretations:– the term indicating the performance of the best convex

combination of the expert forecasts is an approximation error;– the regret term measures a sequential estimation error.

Agrégation séquentielle de prédicteursApplications à des données réelles

Deux familles d’algorithmes d’agrégation séquentielleTravaux récents et perspectives

Exponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge

1 Agrégation séquentielle de prédicteursCadre mathématiqueLa philosophie sous-jacente à ce cadreRésumé du cadre

2 Applications à des données réellesPrédiction de la qualité de l’airAutres domaines

3 Deux familles d’algorithmes d’agrégation séquentielleExponentielle des gradientsUne pondération exponentielle sans gradientsLa régression ridge

4 Travaux récents et perspectivesCalibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats

Gilles Stoltz Prédiction avec experts




TheoremLe regret de EG face à toute combinaison convexe constante q estuniformément borné (en q et en les suites y1, y2, . . .) selon

n∑t=1

`

N∑j=1

pj,t fj,t , yt

− n∑t=1

`

N∑j=1

qj fj,t , yt

6 lnNη

+ηn2

B2

où B est une borne sur les gradients,ww∇˜tww∞ 6 B pour tout t.

Deux éléments de démonstration : par convexité,

`

N∑j=1

pj,t fj,t , yt

− ` N∑

j=1

qj fj,t , yt

6 ∇˜t(pt) ·(pt − q

)et l’analyse de ce majorant (linéaire en q) repose sur le lemme deHoeffding.





La version fenêtrée repose sur une largeur de fenêtre T et produitles combinaisons convexes données par

pj,t =

exp(−η ∑t−1

s =max{1, t−T}

(∇˜s(ps)

)j

)∑N

i=1 exp(−η ∑t−1

s =max{1, t−T}

(∇˜s(ps)

)i

)La version escomptée utilise une suite décroissante (βs) pourformer

pj,t =

exp(−ηt

∑t−1s=1

(1+ βt−s

) (∇˜s(ps)

)j

)∑N

i=1 exp(−ηt

∑t−1s=1

(1+ βt−s

) (∇˜s(ps)

)i

)On peut exhiber une borne théorique sur le regret de la versionescomptée, dépendant de (βs).

Pour la prédiction de la qualité de l’air, nous avons utilisé desescomptes assez forts, βs = 100/s2.













La régression ridge a été introduite dans les années 70 par Hoerl etKennard et intensivement étudiée depuis dans un cadrestochastique.

Vovk ’01 et Azoury et Warmuth ’01 en proposent une analyse pourdes suites individuelles.

Formellement, en perte quadratique, la régression ridge choisit descombinaisons linéaires ut des prédictions des experts données, àl’échéance t > 2, par un critère de moindres carrés pénalisés,

ut ∈ argminu∈RN

λ ‖u‖22 + t−1∑s=1

ys −N∑

j=1

uj fj ,s

2 Elle peut être mise en œuvre efficacement de manière séquentielleet assure que son regret est O(ln n).





Une propriété tout à fait sympathique de la régression ridge estqu’elle semble débiaiser automatiquement les experts.

On peut en effet la faire tourner sur un seul expert (proposant lesprédictions f s

j ,t) et faire ainsi presqu’aussi bien que le meilleur desexperts, indexés chacun par γ, proposant les prédictions γ f s

j ,t .

S’il y a un facteur de biais multiplicatif à-peu-près contant 1/γ, ilest donc corrigé.

Sur les données d’ozone, cela donne les erreurs quadratiquesmoyennes suivantes, par exemple sur le meilleur et le moins bonmodèle :

Sans Ridge Avec Ridge Sans Ridge Avec Ridge35.79 24.78 22.43 21.66



Two empirical studies– Prediction of air quality

– Forecasting of the electricity consumption


Two empirical studies

The methodology of our studies is in four steps:

1 Build the experts (possibly on a training data set) and pickanother data set for the evaluation of our methods;

2 Compute some benchmarks and some reference oracles;

3 Evaluate our strategies when run with fixed parameters (i.e.,with the best parameters in hindsight);

4 The performance of interest is actually the one of thedata-driven meta-strategies.


First study:

Prediction of air quality

Joint work with Vivien Mallet (INRIA) and M.Sc. students;published in the Journal of Geophysical Research

Some characteristics of one among the studied data sets:

– 126 days during summer ’01; one-day ahead prediction

– 241 stations in France and Germany

– Typical ozone concentrations between 40 µgm−3 and150 µgm−3; sometimes above the values 180 µgm−3 or 240µgm−3

– 48 experts, built in Mallet et Sportisse ’06 by choosing aphysical and chemical formulation, a numerical approximationscheme to solve the involved PDEs, and a set of input data(among many)



Prédiction de la qualité de l’airAutres domaines

On dispose d’un réseau S de stations à travers l’Europe et chaquemodèle j = 1, . . . , 48 procure une prédiction f s

j ,t pour le pic à lastation s et au jour t, qui est ensuite comparée au pic réalisé y s

t .

Le statisticien détermine chaque jour une unique combinaisonconvexe pt = (p1,t , . . . , pN,t) à utiliser en toutes les stations pouragréger les prédictions (et obtenir ainsi un champ de prévisions).

Les écarts sont mesurés en perte quadratique moyenne, ce quirevient à considérer la fonction de perte

`(pt , (y

st )s∈St

)=∑s∈St

48∑j=1

pj ,t f sj ,t − y s

t

2

où St est le sous-ensemble des stations actives au jour t.

La définition s’étend au cas des combinaisons linéaires ut (quipermettent par exemple de réduire le biais des modèles).





Les figures ci-dessous montrent que tous les experts sont utiles etapportent de l’information.

-10 -5 0 5 10 15 20

42

44

46

48

50

52

54

56

0 5 10 15 20 25 30 35 40 45 0 5 10 15 20

Hour

30

40

50

60

70

80

90

100

110

Concentration

Figure: A gauche : Coloration de l’Europe en fonction de l’indice dumeilleur expert local. A droite : Profils moyens de prédiction sur unejournée (moyennes spatiales et temporelles, en µg/m3).





Les erreurs cumulées de la méthode d’agrégation et de lacombinaison linéaire constante induite par u valent respectivement

Ln =n∑

t=1

∑s∈St

48∑j=1

uj,t f sj,t − y s

t

2

et Ln(u) =n∑

t=1

∑s∈St

48∑j=1

uj f sj,t − y s

t

2

où St est le sous-ensemble des stations actives au jour t.

Les erreurs quadratiques moyennes associées sont données par

rn =

√Ln∑n

t=1 |St |et rn(u) =

√Ln(u)∑nt=1 |St |





L’espoir est qu’un bon ensemble d’experts et la considération d’uneprocédure avec un faible regret entraînent à leur tour une faibleerreur quadratique moyenne.

En effet,Ln 6 inf

u∈ULn(u) + o(n)

se ré-écrit comme (rn)26 inf

u∈U

(rn(u)

)2+ o(1)

(U est par exemple le simplexe des probabilités ou une boule `1).





Moyenne M. fondamental M. convexe M. linéaire Prescient24.41 22.43 21.45 19.24 11.99

Ci-dessus, les erreurs quadratiques moyennes (en µg/m3)

– de la moyenne des prédictions des 48 modèles, i.e.,rn((1/48, . . . , 1/48)

),

– du meilleur modèle fondamental parmi j = 1, . . . , 48,

– de la meilleure combinaison convexe q des 48 modèles, i.e.,minq rn(q),

– de la meilleure combinaison linéaire u (parmi tous les vecteursde R48) des 48 modèles, i.e., minu rn(u),

– du prédicteur prescient qui aurait connaissance des y st avant de

former sa prédiction et ne serait contraint que par l’obligationde choisir une combinaison linéaire des prédictions desmodèles.





Nous avons mis en œuvre environ 20 méthodes d’agrégationdifférentes et nous concentrons ici sur deux familles qui ont obtenude bons résultats, EG et la régression ridge (et leurs variantes).

EG est l’abréviation d’exponentielle des gradients. Cette méthodeforme des combinaisons convexes dont les composantes sontdonnées par une pondération exponentielle des sommes descomposantes des gradients des pertes passées.

Son regret moyen par rapport à l’ensemble des combinaisonsconvexes constantes est plus petit que 1/

√n.

La régression ridge est une méthode d’estimation classique en pertequadratique et qui utilise la meilleure combinaison linéaire pénaliséesur les données passées (pénalisation en terme de norme `2).

Son regret moyen par rapport à toute combinaison linéaireconstante est plus petite qu’une quantité de l’ordre de (ln n)/n.


Gilles

Zone de texte




Les versions fenêtrées n’utilisent qu’un nombre fixe des plusrécentes pertes passées, pour ensuite pondérer exponentiellementleurs gradients (EG) ou calculer sur elles seulement une meilleurecombinaison linéaire pénalisée (régression ridge).

L’escompte multiplie chaque perte passée par un facteur d’autantplus petit que ce passé est lointain.

EG EG fenêtré EG esc. Ridge Ridge fenêtrée Ridge esc.21.47 21.37 21.31 20.77 20.03 19.45

La meilleure combinaison convexe constante est battue et la versionescomptée de la régression ridge a des performances très proches decelles de la meilleure combinaison linéaire constante.

Moyenne M. fondamental M. convexe M. linéaire Prescient24.41 22.43 21.45 19.24 11.99





Les méthodes d’agrégation séquentielle ne se concentrent pas surun seul expert.

Les poids attribués aux modèles peuvent changer rapidement et demanière significative au cours du temps.

0 20 40 60 80 100 120

Step

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

Weight

0 20 40 60 80 100 120

Step

-15

-10

-5

0

5

10

Weight

Figure: Poids produits au cours du temps par (à gauche) EG et la versionescomptée de la régression ridge (à droite).




Calibration des algorithmesAgrégation lacunaireAutres objectifs ou autres résultats









On rappelle que l’exponentielle des gradients prédit, pour t > 2,avec pt défini, composante j par composante j selon

pj,t(η) =

exp(−η ∑t−1

s=1

(∇˜s(ps)

)j

)∑N

i=1 exp(−η ∑t−1

s=1

(∇˜s(ps)

)i

)L’idée ici est de faire varier η en fonction de t et considérer pour ηtle meilleur paramètre η sur les échéances 1, . . . , t − 1,

ηt ∈ argminη>0

t−1∑s=1

`s(ps(η)

).

On utilise alors pt(ηt) pour la prédiction au jour t.





On peut définir de manière similaire une calibration automatique deRidge. Sur les données d’ozone :

Meilleure convexe 21.45EG avec meilleur η 21.47EG avec (ηt) 21.80Meilleure linéaire 19.24Ridge avec meilleur λ 20.77Ridge avec (λt) 20.81

Le “meilleur” paramètre désigne le paramètre constant η ou λ,choisi de manière rétrospective, qui aurait donné les meilleursrésultats en termes d’erreur quadratique.

Il n’y a pas encore de borne théorique pour cette méthode decalibration, mais nous y travaillons !













Pour obtenir des combinaisons linéaires ou convexes n’utilisantqu’un nombre restreint de modèles, on peut seuiller lescombinaisons proposées (pour EG) ou changer le type de pénalité(pour Ridge).

La méthode LASSO (Tibshirani, ’96) choisit des combinaisonslinéaires ut des prédictions des experts données, à l’échéance t > 2,par un critère de moindres carrés pénalisés en norme `1,

ut = argminu∈RN

λ ‖u‖1 + t−1∑s=1

ys −N∑

j=1

uj fj ,s

2 Les combinaisons qui en résultent ont en général de nombreuxcoefficients nuls (et sont dites lacunaires).





Une version escomptée de LASSO conduit ainsi à une très fortesélection parmi les modèles (une vingtaine est éliminée sur lesdonnées d’ozone).

Ridge esc. LASSO esc. M. linéaire19.45 19.31 19.24

0 20 40 60 80 100 120Step

�25�20�15�10�50510

Weight

0 20 40 60 80 100 120Step

0

10

20

30

40

Indic

es

of

zero

weig

hts



Second study:

Forecasting of the electricity consumption

Joint work with Yannig Goude (EDF R&D) and M.Sc. students (MarieDevaine, Pierre Gaillard); submitted

Specialized experts are available: each of them only outputs a forecastwhen specific conditions are met (working day vs. week end,temperature, etc.).

The definitions and strategies need to be generalized to this setting.

Exhaustive list of references: Blum ’97; Freund et al. ’97; Cesa-Bianchi andLugosi ’03; Blum and Mansour ’07... This is it!

On our data set,

– 3 families of experts, 24 experts in total;

– [operational constraint:] one-day ahead prediction at a half-hourstep, i.e., the next 48 half-hour instances are to be predicted everyday at noon


Month

Co

nsu

mpt

ion

(G

W)

9 11 12 1 3 4 5 7 8

30

40

50

60

70

80

90

Day in the weekC

on

sum

ptio

n (

GW

)

Mon Tue Wed Thu Fri Sat Sun

35

40

45

50

55

Electricity consumption in France– Year 2007–08 (left)– Typical summer week (right)


Some orders of magnitude for the prediction problem at hand areindicated below.

Time intervals Every 30 minutes

Number of days D 320Time instances T 15 360 (= 320× 48)Number of experts N 24 (= 15+ 8+ 1)

Median of the yt 56 330 MWBound B on the yt 92 760 MW


We indicate RMSE (average errors and 95% standard errors).

Best expert Uniform mean Best p782± 10 724± 11 658± 9

Exp. weights Best parameter Adaptive629± 8 637± 9

Shifts m = T − 1 = 15 359 m = 200 m = 50223± ? 414± ? 534± ?

Fixed-Share Best parameter Adaptive599± 9 629± 8


0 5 10 15 20

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Hour

RM

SE

(G

W) —— Best expert

- - - - Best p� Exp. weights• Fixed-share

Average RMSEs (in GW / not in MW) according to the half hours

A picture is worth thousand tables, right?

The average RMSE were similar but the behaviors seem different bythe half-hours.


ReferencesIn case you’re not bored to death (yet) by this topic!


The so-called “red bible!”

Prediction, Learning, and Games

Nicolò Cesa-Bianchi et Gábor Lugosi


I published a survey paper (containing this talk!) one year ago inthe Journal de la Société Française de Statistique

Journal de la Société Française de StatistiqueVol. 151 No. 2 (2010)

Agrégation séquentielle de prédicteurs :méthodologie générale et applications à la

prévision de la qualité de l’air et à celle de laconsommation électrique

Title: Sequential aggregation of predictors: General methodology and application to air-quality forecastingand to the prediction of electricity consumption

Gilles Stoltz *

Résumé : Cet article fait suite à la conférence que j’ai eu l’honneur de donner lors de la réception du prix Marie-JeanneLaurent-Duhamel, dans le cadre des XLe Journées de Statistique à Ottawa, en 2008. Il passe en revue les résultatsfondamentaux, ainsi que quelques résultats récents, en prévision séquentielle de suites arbitraires par agrégationd’experts. Il décline ensuite la méthodologie ainsi décrite sur deux jeux de données, l’un pour un problème de prévisionde qualité de l’air, l’autre pour une question de prévision de consommation électrique. La plupart des résultatsmentionnés dans cet article reposent sur des travaux en collaboration avec Yannig Goude (EDF R&D) et Vivien Mallet(INRIA), ainsi qu’avec les stagiaires de master que nous avons co-encadrés : Marie Devaine, Sébastien Gerchinovitz etBoris Mauricette.

Abstract: This paper is an extended written version of the talk I delivered at the “XLe Journées de Statistique”in Ottawa, 2004, when being awarded the Marie-Jeanne Laurent-Duhamel prize. It is devoted to surveying somefundamental as well as some more recent results in the field of sequential prediction of individual sequences with expertadvice. It then performs two empirical studies following the stated general methodology: the first one to air-qualityforecasting and the second one to the prediction of electricity consumption. Most results mentioned in the paper arebased on joint works with Yannig Goude (EDF R&D) and Vivien Mallet (INRIA), together with some students whomwe co-supervised for their M.Sc. theses: Marie Devaine, Sébastien Gerchinovitz and Boris Mauricette.

Classification AMS 2000 : primaire 62-02, 62L99, 62P12, 62P30

Mots-clés : Agrégation séquentielle, prévision avec experts, suites individuelles, prévision de la qualité de l’air,prévision de la consommation électrique

Keywords: Sequential aggregation of predictors, prediction with expert advice, individual sequences, air-qualityforecasting, prediction of electricity consumption

Ecole normale supérieure, CNRS, 45 rue d’Ulm, 75005 Paris& HEC Paris, CNRS, 1 rue de la Libération, 78350 Jouy-en-JosasE-mail : [email protected] : http://www.math.ens.fr/∼stoltz

* L’auteur remercie l’Agence nationale de la recherche pour son soutien à travers le projet JCJC06-137444 ATLAS(“From applications to theory in learning and adaptive statistics”).

† Ces recherches ont été menées dans le cadre du projet CLASSIC de l’INRIA, hébergé par l’Ecole normale supérieureet le CNRS.

Journal de la Société Française de Statistique, Vol. 151 No. 2 66-106http://www.sfds.asso.fr/journal

© Société Française de Statistique et Société Mathématique de France (2010) ISSN: 2102-6238

Even better (or worse)—it is in French!

Documents

Robust sequentiel learning