View
54
Download
8
Category
Preview:
Citation preview
PARTIE 2: ACTUARIAT NON VIE
Compagnies d’assurance
Fixation des primes
Analyse de la sinistralité
Scoring des courtiers
Calculs des provisions
Satisfaction des exigences réglementaires en matière de solvabilité
Banques
Les méthodes actuarielles de l’estimation du risque sont nécessaires pour l’application des dispositions du comité de Bâle ainsi que pour une gestion dynamique du risque bancaire
Analyse risque crédit
Analyse risque marché
Sociétés de financement
Recours indispensable aux méthodes de segmentation et de notations (scoring) de la clientèle pour se prémunir contre le risque de contrepartie
Etudes de marché, sociologique, épidémiologiques, …
Probabilité de survenance d’un événement
Facteurs explicatifs
….
Domaines d’application des techniques actuariat non vie
La présentation des différentes méthodes de modélisation du risque actuariel sedéroulera en prenant comme exemple, le risque en assurance dommage.
Ces méthodes sont utilisables au niveau d’autres institutions/organismesprécités, à condition , bien entendu, que les données relatives au risque étudiérespectent les hypothèses sous jacentes des modèles théoriques.
La ligne directrice de cette partie du cours a été définie en admettant quel’actuaire va travailler dans un environnement disposant de logiciels statistiques demodélisation/segmentation/notation, comme il est le cas actuellement.
Démarche
PLAN
Introduction
Première partie: Actuariat Vie
Deuxième partie : Actuariat non vie
Chapitre 1: Cadre théorique général
A. Modèle de tarification
B. Modèles linéaires généralisés
C. Segmentation
Chapitre 2: Modélisation de la fréquence
Chapitre 3: Modélisation du coût individuel du sinistre
Chapitre 4: Estimation des provisions pour sinistres à payer
CHAPITRE 1: CADRE THEORIQUE GENERAL
Partie 2: Actuariat non Vie
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique général
A. MODÈLE DE TARIFICATION
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Afin de contracter une garantie dommage (Automobile, incendie, …) le client doit payer une prime, appelée, en actuariat, prime commerciale.
Les primes commerciales doivent servir à financer les sinistres, les frais et le bénéfice de l’assureur.L’usage actuariel traduit cette préoccupation en décomposant chaque prime commerciale P’’ en trois parties :
Prime pure P :Avec l’ensemble des primes pures, l’assureur espère faire face à la charge totale des prestations
Un chargement de gestion proportionnel à la prime commerciale g.P’’ Un chargement de sécurité proportionnel à la prime pure β.P .
En appliquant ce chargement, l’assureur espère faire face à un écart éventuel entre la chargeréelle et la charge probable et donc dégager un bénéfice.
P’’ = P + g.P’’ +β.P
Prime commerciale
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Les compagnies d'assurances utilisent quotidiennement des modèles statistiques pour évaluer les risques auxquels elles doivent faire face.
C’est sur la base de cette évaluation, que le tarif est estimé
En effet, A l’image de l’actuariat vie, le calcul de prime dans l’actuariat non vie revient à évaluer les engagements de l’assureur, donc à déterminer le tarif à proposer en échange du transfert de risque.
Prime pure = coût du risque
Prime Pure
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Pris individuellement, chacun de ces transferts de risque s’assimile à un pari.
En effet, si un individu transfère le risque à une autre personne, moyennant une contrepartie, il nepourrait être certain de la capacité de celui-ci à tenir son engagement en cas de réalisation durisque.Néanmoins, lorsque de nombreux risques comparables peuvent être mis en commun lesstatistiques nous apprennent que le niveau d’incertitude relative diminue (le théorème de la loi desgrands nombre).
Dans le cadre de la mutualisation des risques au sein d’un portefeuille de clients, on cherche àappliquer une prime moyenne qui permettra d’atteindre l’équilibre du portefeuille, en l’appliquantsur l’ensemble des assurés pour un contrat donné
Mutualisation
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Se plaçant au début de la période d’assurance, l’assureur doit, pour chaque portefeuille de risquescomparables, prévoir la charge totale des prestations probables, ou ce qui revient à prévoir lacharge moyenne pour les n contrats dudit portefeuille
Soit S : la variable aléatoire qui représente le montant total des sinistres par contrat.
la prime pure = E (S)
La prime correspond au montant espéré du coût d’un contrat. Lors de la survenance d’un sinistre, le résultat de l’assureur pour le contrat est égal à : E(S)-S
Pour l’ensemble du portefeuille des assurés, le résultat est égal à E (E(S)-S)=0: le portefeuille est équilibré.
Espérance mathématique de la charge totale d’un contrat d’assurance
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Afin de calculer E(S) , la compagnie d’assurance dispose d’une base de données sur plusieursannées, laquelle donne pour chacun de ces contrats, le montant des sinistres payés (Si)
L’actuaire va s’intéresser à la modélisation de la variable S: Etude du modèle probabiliste qui aengendré les données (définition de la loi de répartition, estimation des paramètres, validation)
Les données considérées doivent êtres relatives aux contrats qui font partie d’une catégoriehomogène en terme de garanties et durées assurées.
Le nombre de risque doit être suffisamment grand pour que l’approximation soit valable, c’estune condition tout à fait respectée en « assurance de masse » (Multi-risques habitation,Automobile)
Espérance mathématique de la charge totale d’un contrat d’assurance
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Par exemple, pour la garantie automobile RC , la compagnie d’assurance dispose de 10.000 contrats enregistrés sur les 5 dernières années.
Quand le contrat automobile, comprend plusieurs risques, le calcul de prime se fait par risque. Le tarif proposé correspondra au total des primes par risque.
N°contrat
Montant sinistres
1 5000 Dhs
2 30.000 Dhs
3 0 Dhs
4 1500 Dhs
5 2500 Dhs
6 3000 Dhs
7 15.000 Dhs
8 7000 Dhs
…… …
10.000 7600 Dhs
Espérance mathématique de la charge totale d’un contrat d’assurance
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
La charge globale d’un portefeuille peut s’écrire de deux manières:
la somme, sur le nombre de polices (M), du montant de sinistre total engendré par chaque police
S= S1+S2+……+SM
la somme, sur le nombre de sinistres (N), des montants de chaque sinistre Yi
S = Y1+ Y2…..+ YN
La charge totale par police est difficilement modélisable. Pour la plupart des cas, il est difficiled’adosser S à une loi connue.
Le modèle collectif est le modèle généralement appliqué pour la tarification
Modèle individuel
Modèle collectif
Deux modèles de tarification: Modèle individuel et modèle collectif
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Rappelons que l’on s’intéresse à calculer la prime pure , qui est égale à E(S)
E(S)= E ( si N≥1, sinon 0
Sous hypothèse que les Yi sont i.i.d et indépendants de N
E(S)= E(N). E(Y)
N: la variable aléatoire qui représente le nombre de sinistre (variable de comptage ou dénombrement)
Y: la variable aléatoire qui représente la charge de sinistre individuelle (variable de sévérité) E(N) : la fréquence E(Y) : le cout moyen
L’actuaire va s’intéresser à la modélisation des variables aléatoire N et Y
∑i=1
N
Yi)
Modèle collectif de tarification, appelé aussi approche fréquence/sévérité
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
N° contrat N°sinistre
Charge individuelle
1 1 2000 Dhs
2 3000 Dhs
2 1 500 Dhs
2 10.000 Dhs
3 5500 Dhs
4 14.000 Dhs
3
4 1 1500 Dhs
… …. …..
10.000 1 7600 Dhs
N°contrat
Nombre de sinistres
1 2
2 4
3 0
4 1
…… …
10.000 1
N° sinistre Montant
1/1 2000 Dhs
1/2 3000 Dhs
2/1 500 Dhs
2/2 10.000 Dhs
2/3 5500 Dhs
2/4 14.000 Dhs
4/1 1500 Dhs
…. …..
10000/1 7600 Dhs
Modélisation de la fréquenceModélisation de la charge
individuelle
Modèle collectif de tarification: type de base de données
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Modèle collectif de tarification: hypothèses d’application
Pour pouvoir travailler avec le modèle collectif, c’est-à-dire, sur la base de données historiques quireflètent la charge par sinistre et non par police, les données de charge et de fréquence doivent avoir lespropriétés suivantes:
Yi sont i.i.d et indépendants de N
En d’autres termes:
Le nombre de sinistres n’a pas d’incidence sur les montants individuels des sinistres. Les montants de chaque sinistre ont le même comportement aléatoire. Le montant du premier sinistre n’a pas d’incidence sur le montant du deuxième sinistre et ainsi de suite
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Contrainte technique:
Le travail de modélisation des lois de distribution N et X ne conduit pas facilement à identifier unetendance générale qui permet de proposer un tarif unique, lequel doit garantir une variance minimalepar rapport au risque réalisé ( grande différence entre les observations et le prédictions)
Généralement, il s’agit de plusieurs lois.
Besoin de décomposer la tendance et procéder à une modélisation par segment, d’où la nécessité d’intégrer des informations supplémentaires qui permettront de prédire pour un nouvel assuré, le segment sur lequel il va se situer.
Contraintes d’application d’une même prime à l’ensemble des contrats relatifs à une garantie
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Contrainte commerciale:
Admettons que la compagnie d’assurance arrive à identifier les lois de répartition de la fréquence et dumontant pour une garantie auto et a calculé des espérances respectives de 2 et 2000 Dhs.Le tarif unique proposé est alors de l’ordre de 4000 Dhs
Pour un nouvel client : il a le choix de s’assurer ou non.
Pour se décider, il compare le tarif proposé avec son risque potentiel, qu’il connait mieux que lacompagnie d’assurance, puisqu’il dispose d’information intrinsèque à son risque individuel (respect ducode de la route, ses habitudes de conduite, la marque de la voiture,…).
Si le client présente un grand risque, il va choisir de s’assurer. S’il juge qu’il est un bon assuré et que le prix est trop élevé, il va préférer ne pas s’assurer.
Contraintes d’application d’une même prime à l’ensemble des contrats relatifs à une garantie
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Principe de la valeur espérée
Contrainte commerciale:
Donc, à la fin, l’entreprise en proposant un tarif unique, ne va attirer que les mauvais assurés, son CA et ses marges vont commencer à se réduire.
Se rendant compte de la différence entre le risque prévu et le risque réalisé, elle va augmenter ses tarifs, s’attirant davantage les plus mauvais assurés
La solution étant de proposer un tarif adapté à chaque profil de client
Besoin de tenir compte des informations surle risque individuel des assurés
Contraintes d’application d’une même prime à l’ensemble des contrats relatifs à une garantie
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Espérance conditionnelle
En général, la compagnie d’assurance dispose de beaucoup plus qu’un historique de sinistres, elle aune base de données qui contient des informations sur l’assuré, qu’elle doit actualiser et enrichir aufil des années
Ces informations peuvent être des variables explicatives qui détermine le comportement du risqueactuariel en termes de fréquence et montant du sinistre.
Au lieu d’estimer une valeur espérée surla base de l’espérance mathématique,l’actuaire doit l’estimer sur la base d’uneespérance conditionnelle
Type de données historiques
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Espérance conditionnelle
On classe les variables explicatives selon deux types:• Variables endogènes: Apportent des informations sur les réalisations individuelles passées du
risque• Variables exogènes : Apportent des informations relatives au risque, par ex dans l’assurance
auto (âge de l’assuré, ancienneté de permis, type du véhicule,……)
Soit X= (X1, X2, …Xp) un ensemble de variables explicatives (non aléatoire et mesurables sanserreur)
L’espérance conditionnelle s’écrit : E(S/X)= E(N/X) . E(Y/X)
Le travail de l’actuaire consiste donc, à établir la relation entre ces variables explicatives et la variable à expliquer ( fréquence/ charge)
Régression.les modèles fréquemment utilisés sont les modèles linéaires généralisés
Type de données historiques
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèle de tarification/Espérance conditionnelle
La tarification a priori : l’assureur essaie de prévoir, dès l’entrée d’un nouvel assuré, sasinistralité future.
La tarification a posteriori : le tarif initial de l’assuré est adapté, au cours de la vie de soncontrat, à sa sinistralité individuelle, d’où le système bonus malus.
2 types de tarification selon les données historiques
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique général
B. MODÈLES LINÉAIRES GÉNÉRALISÉS
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/limite d’une régression linéaire
Hypothèses contraignantes pour l’application de la régression linéaire
Or, le comportement de la fréquence et la charge du sinistre n’est pas linéaire. Les coûts dessinistres par exemple, quand ils se concrétisent, suivent une densité très asymétrique clairementnon gaussienne.Souvent, les données montrent aussi un coefficient de variation σ/µ constant plutôt qu’unevariance constante (propriété fondamentale dans le modèle linéaire)
L’estimation de l’espérance conditionnelle de la fréquence ou de la charge revient à identifier lafonction φ tel que : E(N/X=x) = φ (x)
N= φ (X1, X2, …Xp) + ε
où : φ : Rp→ R
Cette écriture suppose un modèle linéaire . Cette hypothèse provient du fait que l’estimation d’unefonction sur Rk est trop complexe numériquement.
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/limite d’une régression linéaire
Les données d’assurance ne suivent pas la loi normale
Loi de distribution du nombre de sinistre Lois de distribution de la charge individuelle du sinistre
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/conditions d’application
Lois autorisées et rétablissement de la linéarité
Soit Y la variable Aléatoire à expliquer avec, µ= E (Y/X)φ : prédicteur linéaire constitué par une fonction linéaire des variables explicatives Xφ (X1, X2, …Xp) = Xβ
On alors besoin d’une fonction de lien g pour établir le lien linéaire entre µ et les variables explicatives X :
g(µ) = φ (X1, X2, …Xp)
Les modèles linéaires généralisés sont une extension du modèle linéaire Gaussien, obtenu enautorisant d'autres lois (conditionnelles) que la loi Gaussienne.
La théorie des GLM bénéficie d’un avantage par rapport aux modèles linéaires classiques : lecaractère normal de la variable à expliquer n’est plus imposé ainsi que la normalité desdistributions des résidus. Seule l’appartenance à une famille exponentielle est indispensable.
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/conditions d’application
Avec a(·), b(·) et c(·) des fonctions spécifiques
Le paramètre θ est appelé paramètre naturel de la famille exponentielle.
Le paramètre φ est appelé paramètre de dispersion. Il s’agit d’un paramètre de nuisance ne dépendant pas de l’observation yi
Lois autorisées: la famille des lois exponentielles
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Conditions d’application
Cette formulation inclut la plupart des lois usuelles comportant un ou deux paramètres : gaussienne, gaussienne inverse, gamma, Poisson, binomiale.... , en remplaçant θ, ϕ , a(.), b(.) et c(.) par les paramètres de ces lois de la manière suivante:
Lois autorisées: la famille des lois exponentielles
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Conditions d’application
Maintenant que N ou Y peuvent suivre n’importe quelle loi exponentielle, on a besoin d’une fonction de lien appropriée g qui peut les lier à un prédicteur linéaire.
Il existe plusieurs fonctions de lien, celles qu’on utilise fréquemment est la fonction de lien canonique.C’est-à-dire la fonction g qui permet de relier l’espérance au paramètre naturel θ: g(µ)= θ
Chacune des lois de la famille exponentielle possède sa propre fonction de lien canonique
Exemple : La loi normale : le lien est « identity », µ= θ La loi de poisson : le lien est « log », log(µ)= θ La loi gamma: le lien est « inverse », 1/µ= θ
Rétablissement de la linéarité: Fonction de lien
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Objectif : Prévoir la fréquence / la charge du sinistre (N/Y) pour un client
Méthode : Trouver le lien entre (N ou Y) avec les variables explicatives disponibles au niveau de la base de données
En d’autres termes, trouver le prédicteur linéaire β(β1, β2 … βp) qui répond à la relation suivante:
E(N/X)= µ=g-1 (Xβ)
Définition
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 0 : Préparation de la base de données
Choix des variables explicatives: quantitatives, qualitatives, binaires.Critère de choix: Disponibilité de l’information, période d’observation, expérience de l’actuaire, analyse de corrélations.
Cas d’étude : Estimation de la fréquence de vol de voiture à appliquer pour un nouveau client.
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 1: Spécification de la loi
L’objectif est d’ajuster des lois de probabilité connues sur les statistiques dont on dispose.Il faut choisir la loi adéquate parmi l’ensemble des lois possiblesLes courbes de densité permettent à l’actuaire de cibler certaines lois de probabilités
Test d’adéquation : Test de Kolmogorov-Smirnov
Pour cet exemple: la loi de distribution est la loi de poisson
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etapes de la régression dans le cadre des modèles linéaires généralisés
Etape 2: Choix de la fonction de lien
La loi étant spécifiée, on détermine la fonction de lien canonique à associer à la loi.Pour notre exemple, la fonction de lien canonique est log
Donc: E(N/X)= µ=g-1 (Xβ)
Va s’écrire:
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 3: Estimation des paramètres βi
Etapes de la régression dans le cadre des modèles linéaires généralisés
• Le logiciel donne la prédiction des paramètres ainsi qu'un intervalle de confiance à un seuil donné,généralement à 95%, dans lequel pourrait se trouver le paramètre inconnu avec une certaine probabilité.
• Les IC de β peuvent être construits selon deux types: Wald ou likelihood
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 3: Estimation des paramètres βi
Dans un MLG, l’estimation est calculée par maximisation de log vraisemblance (en maximisant en β lalog vraisemblance)
La vraisemblance d’un n-échantillon y1,y2,…,yn est définie comme la probabilité d’observer cetéchantillon.
Pour n observations, la log vraisemblance s’écrit:
Avec l (θ,ϕ, yi) : la contribution de l’observation yi dans le modèle
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 3: Estimation des paramètres βi
Dans le cas gaussien, le modèle s’écrivant µ = Xβ avec la fonction de lien canonique identité.La solution avec la maximisation de vraisemblance coïncide avec celle obtenue par minimisation des moindres carrés.
ε’ε= (N- Xβ)’(N- Xβ)
Dans les MLG, les logiciels calculent les estimations en utilisant un algorithme itératif pour la résolution d’équations non linéaires.
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 4:Intérprétation des résultats
Pour qu’il y ait une relation entre Y et une variable explicative Xi, le βi correspondant doit êtredifférents de 0Mais avec quelle marge on peut dire que βi est différent de 0?
On va donc tester l’hypothèse H0 contre H1 avec:
H1: est significativement différent de 0H0: étant l’hypothèse nulle
On construit un test wald ou likelihood qui se base sur une statistique S qui doit suivre une loi Khideux si on veut rejeter H0
^βi
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 4:Intérprétation des résultats
On souhaite vérifier si le nombre de sinistre dépend réellement de l’âgeOn teste l’hypothèse H0: β1 =β2 = β3 = β4 = β5 =0
On pose la statistique de likelihood
S doit suivre une loi Khi deux de ddl de 5 Le nombre de ddl correspond à la différence en nombre
de paramètres par application de H0 (7-2)
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 5: validation de la qualité d’ajustement de la régression
Pour mesurer la qualité d’ajustement d’une régression, il faut se donner une fonction de risque quimesure la distance entre N et sa prédiction N
1-Test de déviance:Le modèle estimé est comparé avec le modèle dit saturé, c’est-à-dire le modèle possédant autant deparamètres que d’observations et estimant donc exactement les données. Cette comparaison estbasée sur l’expression de la déviance D des log-vraisemblances L et Lsat
D = −2(L −Lsat)
Lorsque le modèle est exact, D suit une loi de χ2 ( Khi deux) à n − p degrés de liberté ( n: nombred’observation, p : nombre de paramètres), ce qui permet de construire un test de rejet oud’acceptation du modèle.
^
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression
Etape 5: validation de la qualité d’ajustement de la régression
2-Test de pearson:
Les résidus sont obtenus en comparant valeurs observées Ni et valeurs prédites Ni et sont pondérés par leur précision estimée par l’écart-type: Ni - Ni
Le test est conduit sur la somme des carrés des résidus de pearson.Comme la déviance, cette statistique est distribuée approximativement selon une loi du khi-deux à n-p degrés de liberté si le modèle étudié est exact.
En pratique, les deux tests doivent conduire à des résultats peu différents. Dans le cas contraire, c’est une indication de mauvaise approximation de la loi asymptotique.
^
^
Si
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 5: validation de la qualité d’ajustement de la régression
Pour notre exemple:
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 6: validation du choix du modèle
Quand on a plusieurs variables explicatives, on a besoin de valider le nombre de variables retenues. La question posée: Est ce qu’on gagne en précision en augmentant le nombre de variables explicatives retenues par rapport à un modèle plus réduit?
Pour notre exemple, on peut se poser la question quant au découpage qu’on a fait de la variable âge (six tranches).
Est ce que deux tranches d’âge différentes déterminent de manière différente le comportement du nombre de sinistres?
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 6: validation du choix du modèle
Test du rapport de vraisemblance
Le rapport de vraisemblance ou la différence de déviance est une évaluation de l’apport des variables explicatives supplémentaires dans l’ajustement du modèle.
D2 −D1 = 2(L1 −Lsat )- 2(L2 −Lsat )= 2(L1 −L2 )
suit approximativement une loi du χ2 à (p2 − p1) degrés de liberté pour les lois à 1 paramètre (Poisson) et une loi de Fisher pour les lois à deux paramètres (gaussienne).
Ceci permet donc de tester le degré de signification de la diminution de la déviance par l’ajout de variables explicatives.
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape 6: validation du choix du modèle
On va tester s’il est pertinent de prendre deux intervalles d’âge distincts ou non
Il s’agit alors de tester les hypothèses
H0: « 35-44 vs 45-54 » : H0 : 2 = 3
H0: « 55-64 vs 65-74 » : H0 : 4 = 5
Etapes de la régression dans le cadre des modèles linéaires généralisés
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape finale: calcul de l’espérance (la fréquence estimée dans notre exemple)
Etapes de la régression dans le cadre des modèles linéaires généralisés
Tranché d’âge/Région Nord Sud
< 35 ans 0,002% 0,005%
35-44 0,014% 0,03%
45-54 0,02% 0,04%
55-64 0,02% 0,05%
65-74 0,03% 0,06%
≥ 75 0,04% 0,1%
Par application des coefficients estimés, les fréquences prévisionnelles par tranche d’âge et région sont comme suit:
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Régression
Etape finale: calcul de l’espérance (la fréquence estimée dans notre exemple)
Etapes de la régression dans le cadre des modèles linéaires généralisés
Les coefficients de régression estimés, appliqués à la population observée (historique) doivent permettre de retrouver le même nombre de sinistres total, mais avec une distribution légèrement différente
Tranche d’âge/Région
Nombre d’assurés Nombre sinistres
Nord Sud Nord Sud
< 35 ans 2 880 262 1 074 246 61 64
35-44 564 535 220 407 76 75
45-54 592 983 198 119 98 68
55-64 450 740 134 084 104 63
65-74 270 908 70 708 63 45
≥ 75 161 850 34 233 80 27
Tranche d’âge/Région
Nombre d’assurés Nombre sinistres
Nord Sud Nord Sud
< 35 ans 2 880 262 1 074 246 68 57
35-44 564 535 220 407 80 71
45-54 592 983 198 119 94 72
55-64 450 740 134 084 100 67
65-74 270 908 70 708 68 40
≥ 75 161 850 34 233 72 35
Nombre de sinistres observé Nombre de sinistres estimé
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle multiplicatif vs Modèle additif
Le modèle de régression qu’on avait retenu est un modèle multiplicatifC’est-à-dire, que le passage d’une fréquence d’une classe à la fréquence d’une autre classe, se fait par multiplication de la fréquence de référence par un coefficient.
Le modèle multiplicatif:
E(N/X)= exp(β0 ) x exp(β1 ) x exp(β2 ) x exp(β3 ) x exp(β4 ) x exp(β5 ) x exp(β6 )
Siâge<35 ans
Siâge:35-44
Siâge:45-54
Siâge:55-64
Siâge:65-74
Sirégion: nord
Fréquence de référence:
Sud et âge≥75
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle multiplicatif vs Modèle additif
En fait la régression peut être menée selon deux modèles distincts:
Le modèle multiplicatif:
Le modèle additif :
L’idée du modèle est de relâcher l’hypothèse de linéarité du prédicteur que l’on impose dans la régression en MLG, en supposant une forme plus générale
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle multiplicatif vs Modèle additif
Le remplacement d’une voiture roulant dans une zone urbaine par une voiture roulant dans unezone rurale, sans changer le paramètre de l’ancienneté de l’assuré, se traduira par uneréduction du nombre moyen de sinistres ( fréquence estimée) par: un pourcentage fixe, dans le modèle multiplicatif un montant fixe, dans le modèle additif.
Etude de cas: Nombre d’accidents sachant la zone et l’ancienneté de permis
Nbre moyen de sinistre (empirique)
Ancienneté permis <5 ans
Ancienneté permis ≥ 5ans
Total ancienneté
Zone urbaine 3 2 2,33
Zone rurale 1 0,5 0,6
Total Zone 2,54 1,44 1,76
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle multiplicatif:
Nombreassurés
Ancienneté permis < 5 ans
Ancienneté permis ≥ 5 ans
Totalancienneté
Zone urbaine 5000 10.000 15.000
Zone rurale 1500 6000 7500
Total Zone 6500 16.000 22.500
Nombre de sinistre
Ancienneté permis <5 ans
Ancienneté permis ≥ 5ans
Totalancienneté
Zone urbaine 15.000 20.000 35.000
Zone rurale 1500 3000 4500
Total Zone 16500 23.000 39.500
Nombre moyen de sinistre (prévu)
Ancienneté permis <5 ans
Ancienneté permis ≥ 5ans
Zone urbaine a1.b1 a1.b2
Zone rurale a2.b1 a2.b2
L’objectif est de trouver a1, a2, b1, b2 lesquels , en les appliquant sur le nombre d’assurés de chaque segment, nous permettent d’avoir les totaux marginaux du nombre de sinistre
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle multiplicatif
Algorithme d’itération
a1 x b1 x 5000 + a1 x b2 x 10.000 = 35.000a2 x b1 x 1500 + a2 x b2 x 6000 = 4500
a1 x b1 x 5000 + a2 x b1 x 1500 = 16.500A1 x b2 x 10.000 + a2 x b2 x 6000 = 23.000
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle multiplicatif Utilisation
Nombre moyen de sinistre (prévu)
Ancienneté permis <5 ans
Ancienneté permis ≥ 5ans
Zone urbaine Fréquence de référence (FB)
FB .b2/b1
Zone rurale FB.a2/a1 FB.a2.b2/a1b1
Admettons que la fréquence de référence est de 3,3 et b2=1, b1= 2
Donc pour un assuré roulant en zone urbaine et ayant une ancienneté de permis de 3 ans , on applique une fréquence estimée à 3,3Pour un autre assuré roulant aussi en zone urbaine mais avec une ancienneté de permis de 10 ans , on va diminuer la fréquence de base de la moitié , pour lui appliquer une valeur de 1,65
Nombre moyen de sinistre (prévu)
Ancienneté permis <5 ans
Ancienneté permis ≥ 5ans
Zone urbaine a1.b1 a1.b2
Zone rurale a2.b1 a2.b2
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle additif:
Nombreassurés
Ancienneté permis < 5 ans
Ancienneté permis ≥ 5 ans
Totalancienneté
Zone urbaine 5000 10.000 15.000
Zone rurale 1500 6000 7500
Total Zone 6500 16.000 22.500
Nombre de sinistre
Ancienneté permis <5 ans
Ancienneté permis ≥ 5ans
Totalancienneté
Zone urbaine 15.000 20.000 35.000
Zone rurale 1500 3000 4500
Total Zone 16500 23.000 39.500
Nombre moyen de sinistre (prévu)
Ancienneté permis <5 ans
Ancienneté permis ≥ 5ans
Zone urbaine FM+a1+b1 FM+a1+b2
Zone rurale FM+a2+b1 FM+a2+b2
Avec FM: fréquence moyenne observée sur total portefeuille, ici égale à 1,76L’objectif étant de trouver a1, a2, b1, b2 lesquels , en les appliquant sur le nombre d’assurés de chaque segment, nous permettent d’avoir les totaux marginaux du nombre de sinistre
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle additif
Algorithme d’itération
(a1+ b1+ FM) x 5000 + (a1+b2 +FM ) x 10.000 = 35.000(a2 +b1+ FM) x 1500 + (a2+b2+ FM) x 6000 = 4500
(a1 + b1+ FM) x 5000 + (a2+b1+ FM) x 1500 = 16.500(a1 + b2 + FM ) x 10.000 + (a2 +b2+ FM) x 6000 = 23.000
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle additifUtilisation
Nombre moyen de sinistre (prévu)
Ancienneté permis < 5 ans
Ancienneté permis ≥ 5ans
Zone urbaine FB FB +b2-b1
Zone rurale FB+a2-a1 FB+a2+b2-a1-b1
Admettons que la fréquence de référence est de 3,3 et b2=1, b1= 2
Donc pour un assuré roulant en zone urbaine et ayant une ancienneté de permis de 3 ans , onapplique une fréquence estimée à 3,3Pour un autre assuré roulant aussi en zone urbaine mais avec une ancienneté de permis de 10 ans,on va diminuer la fréquence de 1 pour lui appliquer une valeur de 2,3
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Modèle multiplicatif vs Modèle additif
Les phénomènes à modéliser sont rarement additifs.Un modèle multiplicatif peut être beaucoup plus plausible.
C’est le modèle le plus couramment utilisé étant donnée ses bonnes propriétés en termes derobustesse.
C’est le modèle que nous retiendrons pour la suite de ce cours.
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/Modèles de régression
Cas d’application dans d’autres secteurs que celui des assurances dommages?
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
Utilité
La régression logistique s’applique au cas où la variable à expliquer est qualitative à 2modalités
On dit que la variable à expliquer est une variable indicatrice.
Les variables explicatives Xk peuvent être qualitatives ou quantitatives
Ce type de régression est très utilisée pour la segmentation des clients, dans des études demarché et dans les enquêtes/ sondages
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
On définit une variable Y comme suit:
Y=0 si le client rembourse son créditY= 1 si le client ne rembourse pas son crédit ( créances en souffrances)
Cela permettra à la banque de pouvoir refuser catégoriquement d’octroyer un prêt à un nouveauclient qui, de par ses caractéristiques, correspond à la catégorie Y=1
Cas d’application
Application dans les banques: Segmentation des clients
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
Le ratio de perte (loss ratio) est défini comme étant le montant total des sinistres payés pendant l’année, divisé par le montant total des primes reçues pendant l’année (S/P)Une compagnie d’assurance souhaite bien entendu conserver ce ratio sous un certain niveau pour ne pas être en difficulté financière.
On définit une variable Y comme suit:
• 1 si un assuré est un bon client : S/P <100%• 0 s’il est mauvais client : S/P ≥ 100%
On cherche à comprendre quels sont les paramètres X=x qui font qu’un assuré soit bon oumauvais.
Cas d’application
Application dans les assurances: Ratio de perte
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
Cas d’application
Application dans les études de marché:
On définit une variable Y comme suit:
Y=0 si le produit exposé dans les rayons est vendu dans un délai d’une semaineY= 1 si le produit exposé dans les rayons est vendu dans un délai excédant une semaine
Cela permettra à un entreprise de produits laitiers par exemple d’adapter sa distribution en termede quantité ou de type de produit par rapport à l’emplacement du point de vente, sa superficie, lataille de la population de la zone, le pouvoir d’achat,……
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
Cas d’application
Application dans les sondages:
Dans les sondages de popularité, l’utilité est de savoir auprès de quel type de population, unepersonnalité politique par exemple, a la cote la plus faible.Ceci lui permettra bien entendu, d’avoir une approche ciblée pour capter cette catégorie depopulation
On définitY=1 , la personnalité est mal appréciéeY=0, la personnalité est bien appréciée
Comme variables explicatives, on peut avoir: le sexe, l’âge, l’appartenance religieuse, le niveaud’éducation, le niveau de salaire,….
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
DémarcheOn écrit alors la relation telle que :E(Y/X) = f(X1, X2 , ….Xk )
Avec Xi variables exogènes.
La relation ne peut pas être linéaire puisque Y ne prendque deux valeurs.
En fait Y est une variable de Bernoulli de paramètre p, avec
p si y=1F(y)= (1-p) si y =0 avec E(y)=p
0 sinon
On cherche la fonction qui permettra de p d’être approchée par une droite.On utilise la fonction logit : logit(p) =ln(p/(1-p))
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
Interprétation des résultats
La régression logistique s’écrit alors: Logit (E(y))=βX
Reprenons l’exemple du bon (Y=1) / mauvais assuré (Y=0)Les variables explicatives retenues sont l’âge et le genre.• Age: variable quantitative• Genre: variable quantitative avec
genre=1 si genre=femmegenre = 0 si genre = homme
Le modèle de régression logistique donne Logit [P(yi =1|âge, femme]=β0+β1.âge+β2.femme
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralModèles linéaires généralisés/ Régression logistique
Interprétation des résultatsLe modèle donne l’estimation des coefficients β0, β1,+β2
Posons:
β0= 1,3982 ; β1= 0,4118 ; β2= 0,6708
Pour interpréter ses estimateurs , on calcule ce qu’on appelle les RC (rapport des cotes ou encore oddsratio) pour chaque coefficient, tel quel RC= exp(β) et on compare le RC avec 1
Dans notre exemple:
RC= exp (β1) =1,5069 > 1 si l’âge augmente d’une unité, la probabilité d’être un bon clientaugmente
RC= exp (β2) =1,9558> 1 si l’assuré est une femme, la probabilité d’être un bon client augmente
^ ^ ^
^
^
^
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique général
C. SEGMENTATION
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation
Risque d’anti sélection
Reprenons l’exemple de la compagnie d’assurance A qui proposait un tarif de 4000 dh à ses clients pourune garantie auto.
Se rendant compte de l’importance de différentier sa prime par rapport au risque individuel, (A) intègre le critère de l’ancienneté de permis.Elle dispose maintenant de deux portefeuilles à analyser: ancienneté< 5 ans, ancienneté≥5Les tarifs proposés sont mieux adaptés aux profils individuels des assurés
Sauf que la concurrence choisi de procéder autrement
Assurance A Ancienneté < 5 ans Ancienneté ≥ 5 ans
Nombre de contrats 120.000 100.000
Fréquence 2 2
Coût moyen du sinistre 1600 dh 2500 dh
Tarif 3200 dh 5000 dh
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation
Risque d’anti sélection
La compagnie d’assurance B, choisi d’introduire 2 critères :ancienneté de la voiture et ancienneté du permis. Elle dispose maintenant de 4 portefeuilles à analyser: ancienneté< 5 ans, ancienneté≥5, voiture< 3 ans, voiture ≥3 Les tarifs proposés:
Le client de A, ayant une ancienneté de voiture ≥ 7 ans ( moins risqué) , va choisir de s’assurer chez B puisque elle propose un tarif moins élevé.
Le client de B, ayant une ancienneté de voiture < 7 ans ( plus risqué) va choisir de s’assurer chez A
La compagnie A, n’attire que les mauvais clients au profit de la compagnie B :
Assurance B Ancienneté < 5 ans Ancienneté ≥ 5 ans
Voiture < 7 ans 4000 dh 5500 dh
voiture ≥ 7 ans 2400 dh 4500 dh
Assurance A 3200 dh 5000 dh
Risque d’anti sélection
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation
Risque d’anti sélection
Pour l’assureur, la qualité de l’estimation de la prime pure pour un portefeuille se heurte aux deux risques:
Interne : lié à la dissymétrie de l’information entre l’assuré et l’assureur Externe : lié à la diversité des segmentations pratiquées par la concurrence
L'amélioration de la segmentation d'un portefeuille d'assurés constitue un enjeu économique et stratégique majeur
Problématique:
Plus le découpage est fin, moins les observations effectuées pour chacune des cases de la grille sont statistiquement significatives et moins l’assureur bénéficiera de l’effet de mutualisation au sein du segment
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation
La segmentation revient à répartir les assurés de manière homogène selon des critères.
Grâce à cette technique , l’assureur différencie la prime, en fonction d’un certain nombre decaractéristiques spécifiques au risque individuel de l’assuré ( variables explicatives)
Le critère d'homogénéité exprime le fait que les risques au sein d'un groupe sont homogènes et qu'iln'est pas possible de subdiviser ce groupe en plusieurs sous groupes ayant des primessignificativement différentes.
Ceci revient à minimiser la variance intra-groupe pour tous les groupes et donc à minimiser lasomme des variances intra-groupe qui est égale à l'erreur de généralisation
La segmentation des risques en tarification est essentielle en ce qu’elle permet d’éviter les erreurs detarification
Définition et utilité
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation
Démarche
Exemple: Afin d’estimer le charge moyenne du sinistre dans une garantie automobile, l’actuaire dispose desinformations suivantes:
• Age de l’assuré: de 18 ans jusqu’au 80 ans• Genre: Femme/Homme• Ancienneté du permis: de 1 an jusqu’à 50 ans• Ancienneté du véhicule: de 1 an jusqu’à 20 ans• Marque de la voiture: Ford/Renault/Toyota/Nissan/Mercedes/BMW/Volsvagen…• Type de carburant: Diesel, essence• …..Avant de commencer sa modélisation, l’actuaire se pose deux questions:1. Comment dois-je découper mes variables quantitatives et qualitatives, de manière à avoir des classes de
risque homogènes et pour lesquelles je dois avoir des primes significativement différentes?
2. A quel niveau dois je pousser la segmentation tout en ne perdant pas l’effet positif de la mutualisation?
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation
Application dans d’autres domaines
Campagnes emailing:
On s’intéresse à comprendre le comportement des utilisateurs vis-à-vis des communications envoyées (mails, SMS,..)
La variable Y prend les valeurs suivantes:0: clients ouvreurs1: clients cliqueurs2: les non clients, seront les personnes n’ouvrant pas les mails ou les personnes ne cliquant pas dans les mails.
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation
Techniques de segmentation
Il existe deux grands outils de segmentation, qui permettent d’identifier les critères discriminants de classification, l’une est explicative, l’autre est descriptive
1. Méthode explicative: Arbre de régression (CART pour Classification et regression tree)
2. Méthode descriptive : L’analyse factorielle discriminante
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Techniques
Arbre de régression: CART
Quand on est en présence d’un nombre important de variables explicatives, le CART se base sur la mesure du degré d’influence de chacune de ces variables.
A l’aide d’un algorithme, le logiciel construit un arbre en ordonnant les variables des plus influentes en haut de l’arbre aux moins influente en bas, de manière à maximiser la variance inter-classes et minimiser la variance intra classe
On prendra l’exemple de la segmentation des assurés en vue d’estimer la charge individuelle du sinistre dans le cas d’un accident
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Arbre de Régression CART
Exemple:
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Arbre de Régression CART
A chaque nœud, l’algorithme recherche la séparation qui maximise le gain de variance, de sorte que la somme des variances intra groupe des nœuds fils soit plus faible que la variance du nœud père.
L’actuaire contrôle la complexité de l’arbre via le nombre de nœuds maximum et l’effectif minimum dans chaque nœud
En principe, la création de l’arbre s ’arrête à un nœud , soit lorsque tous les sous-ensembles ont la même valeur de la variable dépendante, ou lorsque la séparation n'améliore plus la prédiction.
Une fois l’arbre est construit, on doit sélectionner le meilleur sous-arbre.
Pourquoi?
Construction de l’arbre: Nombre des nœuds
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Arbre de Régression CART
En fait , un arbre avec un maximum de nœud conduit à ce qu’on appelle le sur-apprentissage
On cherche donc à construire un arbre qui soit le plus petit possible en assurant la meilleureperformance possible.
Plus un arbre sera petit, plus il sera stable dans ses prévisions futures. Plus l’arbre est raffiné, plus il conduit à modèles de prévision très instables car fortement
dépendants des échantillons qui ont permis sa construction
Il faut réaliser un arbitrage entre performance et complexité dans les modèles utilisés. A performance comparable, on préférera toujours le modèle le plus simple.
Le choix du sous arbre optimal est décrit par le terme technique : Procédure d’élagage (pruning)
Construction de l’arbre: Problème de sur-apprentissage
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Arbre de Régression CART
Il y’a deux manières de procéder à l’élagage:
Pré- élagage:En mettant une condition sur le nombre minimum d’observation au sein de chaque classe.
Post-élagage:En calculant pour chaque sous arbre le nombre des mal-classés au sein de chaque classe.On s’arrête au niveau du sous arbre qui n’améliore pas significativement la déviance
Construction de l’arbre: élagage
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Techniques
Présente l’avantage de traiter un nombre énorme de données, d’attaquer des bases de données multidimensionnelles.
Elle permet de décrire et d’explorer les relations qui existent entre plusieurs variables simultanément à la différence des méthodes bi-variées qui étudient les relations supposées entre deux variables.
Elle permet de donner des valeurs numériques (notes ou scores) aux modalités.
Pour un individu appartenant à une classe donnée, sa note est la somme des notes des critères.
L’analyse factorielle discriminante (AFD)
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Analyse Factorielle Discriminante
Exemple: Scoring crédit
15 000 dossiers de demandes de prêt 1000 passés avec retard de payement
Variables explicatives:
• Taux d’endettement• Revenu par personne du ménage• Situation dans le logement• Statut matrimonial• Nombre d’enfants• Profession• Ancienneté dans l’emploi
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Analyse Factorielle Discriminante
Exemple: Scoring crédit
Sélection des risques
Prévision des impayés
Suivi et contrôle
Intérêt croissant suite à l’application de plus en plus généralisée des accords de Bâle
Partie 2: Actuariat Non VieChapitre 1. Cadre théorique généralSegmentation/ Analyse Factorielle Discriminante
Prérequis et outils
Prérequis:
Techniques d’analyse de données:
- Analyse des composantes principales.- Analyse des correspondances multiples- Analyse factorielles des correspondances
Logiciel : Stat lab / SAS
Fin Chapitre 1
Partie 2: Actuariat non Vie
PLAN
Introduction
Première partie: Actuariat Vie
Deuxième partie : Actuariat non vie
Chapitre 1: Cadre théorique général
Chapitre 2: Modélisation de la fréquence
A. Modèle de poisson
B. Modèle binomiale négative
Chapitre 3: Modélisation du coût individuel du sinistre
Chapitre 4: Estimation des provisions pour sinistres à payer
CHAPITRE 2: Modélisation de la fréquence
Partie 2: Actuariat non Vie
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence
A. MODÈLE DE POISSON
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle de poisson/Loi de poisson
La loi de poisson est une loi qui s’applique à la modélisation des phénomènes dont la survenance n’est pas très fréquente ou bien rare par rapport à la taille de population concernée.
Assurances: Accidents, Incendie,… Banque: Défaut de contrepartie. Usine : Défaut de fabrication Régie d’électricité : Pannes, réclamations ….
Les évènements au sein de la population étudiée doivent être indépendants
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle de poisson/Loi de poisson
La loi de Poisson est fondamentale dans la modélisation du nombre de sinistres pour les risques en assurance IARD. Elle constitue en quelque sorte la loi de base. .
N~ Pois(λ)
La loi de probabilité s’écrit: P[N=k] = k = 0, 1, 2, 3, 4, ….. où k! = k.(k-1).(k-2).2.1 k!
e_λ .λk
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle de poisson/Loi de poisson
L’espérance et la variance de la loi de Poisson sont égales E(N) = V(N) Cette propriété est appelée l’ équidispersion
Quand l’équidispersion n’est pas respectée , c’est-à-dire quand on a une surdispersion, onconsidère une loi quasi poisson, telle que Var(N|X) = φE(N|X), où φ paramètre de dispersion.C’est un paramètre à estimer.
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle de poisson/Loi de poisson
Prenons le cas du nombre de sinistre dans une garantie automobile
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle de poisson/Loi de poisson
L’ajustement des données observées sur une loi de poisson, laisse apparaître une grande différence entre les nombres d’accidents observés et le nombre d’accidents estimés.
Cela nous mène à devoir intégrer des variables explicatives pour comprendre l'hétérogénéité qui existe au sein des données.
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle de poisson/ régression de poisson
Fréquence empirique par âge de conducteur
On introduit alors, la variable âge, pour une régression poissonienne
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle de poisson/ régression de poisson
On dispose d’une autre information concernant le carburant, le graphique nous permetd’observer si l’impact du type de carburant est significatif, auquel cas, il faut l’introduire commevariable explicative dans la régression de poisson.
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence
B. MODÈLE BINOMIALE NÉGATIVE
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle binomiale négative/ Loi binomiale négative
La loi binomiale négative permet de prendre en compte la surdispersion, elle correspond aux donnéesoù la variance est plus grande que la moyenne de l’échantillon. Elle est plus flexible car elle possèdedeux paramètre
Elle peut s’interpréter comme un mélange de lois de Poisson pour la prise en compte d’unehétérogénéité non observable.
N~ Nβ(n,p)
Partie 2: Actuariat Non VieChapitre 2. Modélisation de la fréquence du sinistreModèle binomiale négative/ Régression binomiale négative
Le nombre de sinistre pour une garantie auto suit une loi binomiale négative de paramètre N~ Nβ(n,p):
P[N=k]=Cnn+k-1 pn (1-p)k
E(N)= n(1-p)/p
V(N)= n(1-p)/p2
V(N)>E(N)
La loi binomiale négative appartient à la famille exponentielle.La fonction de lien canonique est le logLa régression binomiale négative se fait dans le cadre des modèles linéaires généralisés
Fin Chapitre 2
Partie 2: Actuariat non Vie
PLAN
Introduction
Première partie: Actuariat Vie
Deuxième partie : Actuariat non vie
Chapitre 1: Cadre théorique général
Chapitre 2: Modélisation de la fréquence
Chapitre 3: Modélisation du coût individuel du sinistre
A. Modèle Gamma
B. Modèle log normal
C. Ecrêtement des grands sinistres
Chapitre 4: Estimation des provisions pour sinistres à payer
CHAPITRE 3: Modélisation du coût individuel du sinistre
Partie 2: Actuariat non Vie
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistre
MODÈLE GAMMA ET MODELE LOG NORMAL
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreLoi Gamma
La fonction de densité de probabilité d’une variable Y qui suit une loi Gamma Γ(α,β) s’écrit comme suit:
E(Y)=α/βV(Y) =α2/β
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreLoi log normale
La fonction de densité de probabilité d’une variable Y qui suit une loi log normale LN (µ,σ) s’écrit comme suit:
Quand une variable Y suit une loi log normale le log (Y) suit une loi normale Ɲ(µ,σ)
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreRégression
Modèle Gamma:
Bien que le lien canonique de la loi Gamma soit la fonction inverse, il est plus fréquent d'utiliser unlien logarithmique. En effet, la forme multiplicative donne des interprétations simples dans le cas desmodèles multiples.
Modèle log normal:
Comme la loi log normale n'appartient pas à la famille exponentielle, la régression log normale peutêtre obtenue en considérant une régression linéaire sur le logarithme du coût
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreRégression Gamma/ Régression log normale
La divergence entre les deux modèles vient du fait que le modèle Gamma est très sensible aux valeursextrêmes. Un avantage du modèle lognormal est qu'en prenant le logarithme des coûts, on atténuel'importance des sinistres de coût exceptionnel.
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistre
C. ECRÊTEMENT DES GRANDS SINISTRES
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreEcrêtement des grands sinistres
Un problème classique en assurance non vie est le poids très important des sinistres extrêmes.Le ratio S/P et très sensible à la présence de grands sinistres.
L’illustration la plus connue de ce phénomène est l’automobiliste qui en 1976 fit dérailler un traindirectement dans le canal voisin. Au final, 16 millions d’euros de dégâts pour moins de 100 eurosde primes soit un S/P supérieur à 100000, pour un conducteur pas spécialement mauvais.
Sinistres extrêmes
L’idée de la méthode d’écrêtement est que le niveau de certains sinistres n’est pasreprésentatif et que la totalité du coût ne doit donc pas être attribuée à l’assuré.
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreEcrêtement des grands sinistres
Le calcul de prime pour une catégorie passe par la définition dumodèle probabiliste qui a engendré les données sur le nombre etle montant des sinistresIl s’agit de proposer une prime qui approche la moyenneempirique.
Cette démarche rencontre des problèmes d’ajustement dés lorsqu’on a des sinistres extrêmes
Pour remédier à cette problématique : on écrête les sinistres:On calcule la prime moyenne par groupe tarifaire en écartant lesgros sinistres, qui seront répartis par la suite sur l'ensemble de lapopulation
Les gros sinistres ou les sinistres extrêmes seront ceux quidépassent un seuil s, que l’on doit définir
Intérêt
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreEcrêtement des grands sinistres
Impact de l’écrêtement
Avec l’écrêtement, les moins de 22 ans paieront moins contrairement aux assurés de 25 à 35 ans
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreEcrêtement des grands sinistres
Démarche
La prédiction sera basée sur trois terme: Le premier terme correspond aux sinistres normaux ( régression gamma ou log normale sur X) Le second terme peut être estimé sans tenir compte du conditionnement sur X, en supposant que le coût
moyen des gros sinistres ne dépend pas des variables explicatives Le terme de probabilité d'avoir un sinistre excédant le seuil s sera calculé par classe tarifaire
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreEcrêtement des grands sinistres/Choix du seuil d’écrêtement
• Le seuil d’écrêtement correspond àun sinistre exceptionnel. Or la notionde gros sinistres est très relative.
• Le choix de ce plafond peut êtredélicat et peut conduire à une sous-estimation ou à une surestimationdes sinistres ordinaires.
• Le cas échéant, la prime pureestimée représenterait mal lasinistralité constatée sur le segmentet conduirait soit à de l’anti-sélection,soit à des tarifs trop élevés et doncpeu compétitifs
Partie 2: Actuariat Non VieChapitre 3. Modélisation du coût individuel du sinistreEcrêtement des grands sinistres/Choix du seuil d’écrêtement
Méthode 1 : la technique peut consister à choisir un montant (d’expérience) forfaitairement. Celle-cidevrait être évitée quand elle n’a pas de fondements techniques.
Méthode 2 : une technique classique consiste à choisir un seuil tel que la sur-crête représente uncertain pourcentage de la charge totale de sinistres.
Méthode 3: Diminution du coefficient de variation de la distribution des sinistres(Ecart type/Espérance)
Méthode 4: on peut aussi écrêter à partir d’un quantile donné, généralement, 1% ou 0,5%
Partie 2: Actuariat Non Vie
FIN CHAPITRE 3
Partie 2: Actuariat Non Vie
CHAPITRE 4: PROVISIONNEMENT
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsPrincipe de provisionnement
A l’image du principe de provisionnement précité au niveau de l’actuariat vie, la compagnie d’assurance procède à la constitution de provision de fin de périodes pour les contrats d’assurance non vie.
Elles doivent représenter les engagements de la compagnie qui vont se réaliser après ladate de clôture et dont les primes sont déjà encaissées.
Les provisions se justifient par le décalage de dates:
La date de souscription et la date de survenance du sinistre La date de survenance du sinistre et la date de déclaration du sinistre La date de déclaration du sinistre et la date de règlement du sinistre
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsType de sinistres en terme de date de survenance
Ces engagements qui vont se réaliser après la date de clôture se reportent à plusieurs situations:
Sinistres survenus avant la date de clôture, déclarés mais non encore payés à la date decalcul de provisions.
Sinistres survenus avant la date de clôture, non déclarés à la date de calcul: les tardifs
Sinistres survenus après la date de clôture: Sinistres à survenir
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsTypes de provisions
1. Provisions pour sinistres à survenir
2. Provisions pour sinistres à payer (PSAP)• provisions pour tardifs : IBNR (incurred but not reported )• provisions pour sinistres survenus et déclarés
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsTechniques de provisionnement: IBNR
Deux principales méthodes:
1. Méthodes déterministes: Méthodes réglementaires ( ex coût moyen)
Ce sont des méthodes qui ont prouvé leur limites à cause des hypothèses de calcul.Généralement les provisions estimées sont insuffisantes, les méthodes réglementaires visent àgarantir un niveau minimum de provisions. Les autorités de régulation sont actuellement entrain deréfléchir sur la possibilité de réviser ces méthodes
Chain-ladder: cadence de règlement
2. Méthode stochastique: Régression linéaire généralisée Régression log-normale
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsChain-ladder
Avantages:
Méthode simple à mettre en œuvre. Peut être ajustée pour tenir compte de l’inflation Non nécessité d’une loi de distribution
Elle sa base sur le calcul de la cadence de paiement des sinistres
La cadence de règlement est le rapport entre les sinistres déjà payés et la charge totale (finale) de sinistres
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsChain-ladder
Cette méthode extrait la cadence de règlement à partir des données historiques et l’utilise pour projeter le développement futur.
Montant cumulé des paiments effectués
Année de survenance 1 2 3 4 5 6
2011 3209 4372 4411 4428 4435 4456
2012 3367 4659 4696 4720 4730
2013 3871 5345 5398 5420
2014 4239 5917 6020
2015 4929 6794
2016 5217
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsChain-ladder
Elle se base sur l’estimation des facteurs de développement (link ratios)
Montant cumulé des paiements effectués
Année de survenance 1 2 3 4 5 6
2011 3209 4372 4411 4428 4435 4456
2012 3367 4659 4696 4720 4730
2013 3871 5345 5398 5420
2014 4239 5917 6020
2015 4929 6794
2016 5217
Facteurs de développement 1,381 1,011 1,004 1,002 1,005
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsChain-ladder
On applique ces facteurs par année de survenance pour estimer la charge totale des sinistres
Inconvénient
La cadence des paiements des sinistres est identique quelle que soit l’année de survenance: Effet multiplicatif du risque d’erreur sur les survenances récentes
Facteurs de développement 1,381 1,011 1,004 1,002 1,005
Année de survenance 1 2 3 4 5 6
2011 3209 4372 4411 4428 4435 4456
2012 3367 4659 4696 4720 4730 4752
2013 3871 5345 5398 5420 5430 5456
2014 4239 5917 6020 6046 6057 6086
2015 4929 6794 6872 6902 6914 6947
2016 5217 7204 7287 7318 7332 7367
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsChain-ladder
Donc
Année de survenance Charge totale Charge payée Provisions
2011 4 456 4 456 -
2012 4 752 4 730 22
2013 5 456 5 420 36
2014 6 086 6 020 66
2015 6 947 6 794 153
2016 7 367 5 217 2150
Partie 2: Actuariat Non VieChapitre 4. Calcul des provisionsAutres techniques de provisionnement
2. Méthode stochastique:
Régression linéaire généralisée Régression log-normale
Modélisation de l’évolution de la charge/paiementModélisation de l’évolution du taux S/P
FIN ACTUARIAT NON VIE
Recommended