25

Slides udm-101110-corrigé

Embed Size (px)

Citation preview

Page 1: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Statistique de l'assurance, STT 6705

Statistique de l'assurance II

Arthur Charpentier

Université Rennes 1 & Université de Montréal

[email protected] ou ou [email protected]

http ://freakonometrics.blog.free.fr/

10 novembre 2010

1

Page 2: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Notations dans les triangles de paiements

0 1 2 3 4 5

0 3209 4372 4411 4428 4435 4456

1 3367 4659 4696 4720 4730

2 3871 5345 5398 5420

3 4239 5917 6020

4 4929 6794

5 5217

Nous avions vu trois présentations des processus de développement,

λj =E(Ci,j+1)E(Ci,j)

et γj =E(Ci,j+1)E(Ci,n)

pour j = 0, · · · , n− 1.

2

Page 3: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Notations dans les triangles de paiements

Rappelons que l'on peut relier ces coe�cients via

λj =γj+1

γjet γj =

n−1∏k=j

1λk.

Comme auparavant, on peut introduire les facteurs de développements empiriques

λ,j =Ci,j+1

Ci,jet γi,j =

Ci,j+1

Ci,n

La méthdode Chain Ladder repose sur

λCLj =∑n−j−1i=0 Ci,j+1∑n−j−1i=0 Ci,j

=n−j−1∑i=0

Ci,j+1∑n−j−1i=0 Ci,j

· λi,j .

3

Page 4: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

On en déduit alors les taux de développement suivants,

γCLj =n−1∏k=j

1

λCLk.

0 1 2 3 4 5

λCLj 1,38093 1,01143 1,00434 1,00186 1,00474 1,0000

γCLj 70,819% 97,796% 98,914% 99,344% 99,529% 100,000%

Table 1 � Facteurs de développement, λ = (λi), exprimés en cadence de paiements

par rapport à la charge utlime, en cumulé (i.e. γ).

4

Page 5: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

La méthode de Bornhutter-Ferguson

La méthode de Bornhutter-Ferguson vise à prédire directement les réserves

Ri = Ci,n − Ci, n− i

de telle sorte que si l'on dipose de développement γ) = (γ0, · · · , γn−1),

E(Ri) = [1− γn−i]E(Ci,n).

Dans l'approche originale, l'estimateur de Ri était alors

Ri = [1− γCLn−i]πiLRi

où γCLn−i est l'estimateur proposé auparavant, πi correspond à un e�et ligne, que

l'on pourra assimiler à la prime acquise, et LRi une prédiction du loss ratio, où

LRi = E(Ci,n)/πi.

La charge ultime prédite est alors

Ci,n = Ci,n−i + [1− γCLn−i]πiLRi.

5

Page 6: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Cette idée peut se généraliser, en notant que

Ci,n = Ci,n−i + [1− γn−i]Ci,n,

où l'on peut remplacer l'estimateur Chain Ladder du taux de cadence par un

autre, γn−i et remplacer la charge ultime cible πiLRi par un autre estimateur

Ci,n.

6

Page 7: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

La méthode de Bornhutter-Ferguson généralisée

Supposons que l'on dispose

• d'estimations a priori des cadences de paiements γ) = (γ0, · · · , γn−1),• d'estimations a priori des charges ultimes α) = (α0, · · · , αn),(provenant d'autres modèles, d'informations exogènes, etc), alors

E(Ci,n) = Ci,n−i + [1− γn−i]αi.

Remarque si on travaillait sur les incréments φj on aurait ϕj = E(Yi,j+1)E(Ci,n) . Cette

méthode revient alors à considérer un modèle intégrant des facteurs ligne αi et

des facteurs colonnes ϕj pour modéliser les incréments de paiements Yi,j+1.

7

Page 8: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

La méthode dite Loss Development

On n'utilise ici que des a priori sur les cadences, et on réécrit

E(Ci,k) = γkCi,n−iγn−i

aussi

CLDi,n = γk

Ci,n−iγn−i

i.e. on considère ici αLDi = Ci,n−i/γn−i.

Remarque rappelons que CCLi,k = Ci,n−i

k−1∏j=n−i

λCLj , c'est à dire

CCLi,k = γCLk

Ci,n−iγCLn−i

donc si γLDk = γCLk , on retombe sur l'estimateur proposé par la méthode Chain

Ladder.

8

Page 9: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

La méthode dite Cape Code

On dispose ici d'estimations a priori des cadences de paiements

γ) = (γ0, · · · , γn−1), et on suppose que pour toutes les années de survenance, il

existe un loss ratio cible,

LR =E(Ci,n)πi

pour tout i

Soit LRCC

un estimateur de cette quantité, alors

CCCi,k =

Ci,n−i+

[γk − γn−i]πiLRCC.

Dans la méthode originale, LRCC

=∑n

i=0 Ci,n−i∑ni=0 πiγn−i

.

9

Page 10: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Comment estimer a priori les γj ?

Nous avons vu que la méthode Chain Ladder pouvait permettre de récupérer des

prédictions γCLj .

Parmi les autres méthodes on peut utiliser le Panning ratio. Pour cela, on

cherche à modéliser les facteurs incrémentaux βj = E(Yi,j)/E(Yi,0). On peut

repasser aux γj en notant que

γk =

∑kj=0 βj∑nj=0 βj

Posons βi,j =Yi,jYi,0

et considérons une moyenne pondérée

βj =n−j∑i=1

ωi,jβi,j .

10

Page 11: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Le Panning ratio est obtenu en considérant les poids suivants

βPRj =n−j∑i=1

Y 2i,0∑n−i

h=0 Y2h,0

βi,j .

Et on pose alors

γPRj =

∑jk=0 β

PRj∑n

k=0 βPRj

.

Il est aussi possible d'utiliser les incréments de loss ratios,

Li,j =Yi,jπi

et là aussi, on pose

Lj =n−j∑i=1

ωi,jLi,j .

11

Page 12: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Un estimateur usuel est donné par

LADj =n−j∑i=1

πi∑n−jk=0 πk

Li,j .

correspondant à un modèle additif. Et on pose alors

γADj =

∑jk=0 L

PRj∑n

k=0 LPRj

.

Modèles bayésiens et Chain Ladder

De manière générale, un méthode bayésienne repose sur deux hypothèses

• une loi a priori pour les paramètres du modèle (Xi,j , Ci,j , λi,j ,

LRi,j = Ci,j/Pj , etc)

• une technique pour calculer les lois a posteriori, qui sont en général assez

complexes.

12

Page 13: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Modèles bayésiens pour les nombres de sinistres

Soit Ni,j l'incrément du nombre de sinistres, i.e. le nombre de sinistres survenus

l'année i, déclarés l'année i+ j.

On note Mi le nombre total de sinistres par année de survenance, i.e.

Mi = Ni,0 +Ni,1 + · · · . Supposons que Mi ∼ P(λi), et que p = (p0, p1, · · · , pn)désigne les proprotions des paiments par année de déroulé.

Conditionnellement à Mi = mi, les années de survenance sont indépenantes, et le

vecteur du nombre de sinistres survenus année l'année i suit une loi multinomiale

M(mi,p).

La vraisemblance est alors

L(M0,M1, · · · ,Mn,p|Ni,j) =n∏i=0

Mi!(Mi −N?

n−i)!Ni,0!Ni,1! · · ·Ni,n−i![1−p?n−i]Mi−N?

n−ipNi,00 p

Ni,11 · · · pNi,n−i

n−i

où N?n−i = N0 +N1 + · · ·+Nn−i et p

?n−i = p0 + p1 + · · ·+ pn−i.

Il faut ensuite de donner une loi a priori pour les paramètres. La loi a posteriori

sera alors proportionnelle produit entre la vraisemblance et cette loi a priori.

13

Page 14: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Modèles bayésiens pour les montants agrégés

On pose Yi,j = log(Ci,j), et on suppose que Yi,j = µ+ αi + βj + εi,j , où

εi,j ∼ N (0, σ2). Aussi, Yi,j suit une loi normale,

f(yi,j |µ,α,β, σ2) ∝ 1σ

exp(− 1

2σ2[yi,j − µ− αi − βj ]2

),

et la vraisemblance est alors

L(θ, σ|Y ) ∝ σ−m exp

∑i,j

[yi,j − µ− αi − βj ]2

où m = (n(n+ 1)/2 désigne le nombre d'observations passées. La di�culté est

alors de spéci�er une loi a priori pour (θ, σ2), i.e. (µ,α,β, σ2).

14

Page 15: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Modèles bayésiens et Chain Ladder

Dans le cadre des modèles de provisionnement, on suppose

λi,j |λj , σ2j , Ci,j ∼ N

(λj ,

σ2j

Ci,j

)Notons γj = log(λj). λ désigne l'ensemble des observations, i.e. λi,j , et le

paramètre que l'on cherche à estimer est γ. La log-vraisemblance est alors

logL(λ|γ,C, σ2) =∑i,j

(log

(Ci,jσ2j

)− Ci,j

σ2j

[λi,j − exp(γj)]2

)En utilisant le théorème de Bayes

logL(λ|γ,C, σ2)︸ ︷︷ ︸a posteriori

= log π(γ)︸ ︷︷ ︸a priori

+ logL(γ|λ,C, σ2)︸ ︷︷ ︸log vraisemblance

+constante

Si on utilise une loi uniforme comme loi a priori, on obtient

logL(λ|γ,C, σ2) = logL(γ|λ,C, σ2) + constante

15

Page 16: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Les calculs de lois conditionnelles peuvent être simples dans certains cas (très

limités). De manière gérérale, on utilise des méthodes de simulation pour

approcher les lois. En particulier, on peut utiliser les algorithmes de Gibbs ou

d'Hastings-Metropolis.

On part d'un vecteur initial γ(0) = (γ(0)1 , · · · , γ(0)

m ), puis

γ(k+1)1 ∼ f(·|γ(k)

2 , · · · , γ(k)m , λ, C, σ)

γ(k+1)2 ∼ f(·|γ(k+1)

1 , γ(k)3 , · · · , γ(k)

m , λ, C, σ)

γ(k+1)3 ∼ f(·|γ(k+1)

1 , γ(k+1)2 , γ

(k)4 , · · · , γ(k)

m , λ, C, σ)...

γ(k+1)m−1 ∼ f(·|γ(k+1)

1 , γ(k+1)2 , · · · , γ(k+1)

m−2 , γ(k)m , λ, C, σ)

γ(k+1)m ∼ f(·|γ(k+1)

1 , γ(k+1)2 , · · · , γ(k+1)

m−1 , λ, C, σ)

A l'aide de cet algorithme, on simule alors de triangles C, puis on estime la

process error.

L'algorithme d'adaptative rejection metropolis sampling peut alors être utiliser

16

Page 17: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

pour simuler ces di�érentes lois conditionnelle (cf Balson (2008)).

La méthode de rejet est basé sur l'idée suivante

• on souhaite tirer (indépendemment) suivant une loi f , qu'on ne sait pas simuler

• on sait simuler suivant une loi g qui véri�e f(x) ≤Mg(x), pour tout x, où Mpeut être calculée.

L'agorithme pour tirer suivant f est alors le suivant

• faire une boucle

◦ tirer Y selon la loi g

◦ tirer U selon la loi uniforme sur [0, 1], indépendamment de Y ,

• tant que U >f(Y )Mg(Y )

.

• poser X = Y .

On peut utiliser cette technique pour simuler une loi normale à partir d'une loi

de Laplace, de densité g(x) = 0.5 · exp(−|x|), avec M =√

2eπ−1. Mais cet

algorithme est très couteux en temps s'il y a beaucoup de rejets,

17

Page 18: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

●●

●●

●●

●●

●●

● ●

●●

●● ●

●●

● ●

●●

●●●

● ●

●●●

● ●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

● ●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

● ●

● ●●

●●

●●

●●

●●

●●

●●●

●●

●● ●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

● ●

● ●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

● ●

● ●

●●●

●●

●●

●●

●●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

● ●

●●

●●

●●

● ●● ●

●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

●●

● ●

● ●

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

● ●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

● ●

● ●

●●

●●

●●

● ●

●●

●●●

● ●

●●

●●

● ●

●●

●●

●●

● ●

● ●

●●

●●

● ●

●●

● ●

●●

●●

●●

●●●

●●

●●

●●

●●●

● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

● ●●

●●

● ●

●●

● ●

●●

● ●

●●

● ●

● ●●

●●

●●

● ●●

● ●

●●

●●

● ●

● ●

●●

●●

● ●●

●●

●●

● ●

● ●

●●

●●

●●

●●

● ●

L'adaptative rejection sampling est une extension de cet algorithme, à condition

d'avoir une densité log-concave. On parle aussi de méthode des cordes.

On majore localement la fonction log f par des fonctions linéaires. On construit

alors une enveloppe à log f .

On majore alors f par une fonction gn qui va dépendre du pas.

18

Page 19: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

−6 −4 −2 0 2 4 6 8

−20

−15

−10

−5

05

● ●

Formellement, on construit Li,j(x) la droite reliant les points (xi, log(f(xi))) et(xj , log(f(xj))). On pose alors

hn(x) = min {Li−1,i(x), Li+1,i+2(x)} ,

19

Page 20: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

qui dé�nie alors une enveloppe de log(f) (par concavité de log(f). On utilise

alors un algorithme de rejet avec comme fonction de référence

gn(x) =exp(hn(x))∫exp(hn(t))dt

normalisée pour dé�nir une densité.

• faire une boucle

◦ tirer Y selon la loi gn

◦ tirer U selon la loi uniforme sur [0, 1], indépendamment de Y ,

• tant que U >f(Y )

exp(hn(Y )).

• poser X = Y .

En�n, l'adaptative rejection metropolis sampling rajoute une étape

suppl �mentaire, dans le cas des densité non log-concave. L'idée est d'utiliser la

technique préc�dante, même si hn n'est plus forcément une enveloppe de log(f),puis de rajouter une étape de rejet supplémenataire. Rappelons que l'on cherche

à implénter un algorithme de Gibbs, c'est à dire créér une suite de variables

X1, X2, · · · .

20

Page 21: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Supposons que l'on dispose de Xk−1. Pour tirer Xk, on utilise l'algorithme

précédant, et la nouvelle étape de rejet est la suivante

• tirer U selon la loi uniforme sur [0, 1], indépendamment de X et de Xk−1,

◦ si U > min{

1,f(X) min{f(Xk−1), exp(hn(Xk−1))}f(Xk−1) min{f(X), exp(hn(X))}

}alors garder

Xk = Xk−1

◦ sinon poser Xk = X

21

Page 22: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Code R pour l'algorihtme ARMS

Ces fonctions exponentielles par morceaux sont inéressantes car elles sont faciles

à simuler. La fonction hn est linéaires par morceaux, avec comme noeuds Nk, de

telle sorte que

hn(x) = akx+ bk pour tout x ∈ [Nk, Nk+1].

Alors gn(x) =exp(hn(x))

Inoù

In =∫

exp(hn(t))dt =∑ exp[hn(Nk+1)]− exp[hn(Nk)]

ak. On calcule alors Gn, la

fonction de répartition associée à gn, et on fait utilise une méthode d'inversion

pour tirer suivant Gn.

22

Page 23: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Bayesian estimation for reserves

0 200 400 600 800 1000

2200

2300

2400

2500

2600

2700

iteration

rese

rves

(to

tal)

23

Page 24: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Bayesian estimation for reserves

2100 2200 2300 2400 2500 2600 2700

0.00

00.

001

0.00

20.

003

0.00

40.

005

reserves (total)

2500 2550 2600 2650 2700 27500.

900.

920.

940.

960.

981.

00

reserves (total)

24

Page 25: Slides udm-101110-corrigé

Arthur CHARPENTIER, Statistique de l'assurance, sujets spéciaux, STT 6705V

Bayesian estimation for reserves

0 2000 4000 6000 8000 10000

2500

2520

2540

2560

2580

2600

95%

Val

ue−

at−

Ris

k

25