Mémoire Master 2 Pro...Par : Reda JARIR Titre : Estimation de la mortalité des assurés à partir de la mortalité nationale et des indicateurs socio - économiques Confidentialité

Mémoire présenté

devant l’Institut de Science Financière et d’Assurances

pour l’obtention du diplôme d’Actuaire de l’Université de Lyon

le 23/11/2012

Par : Reda JARIR

Titre: Estimation de la mortalité des assurés à partir de la mortalité nationale et des

indicateurs socio-économiques

Confidentialité : NON OUI (Durée : 1 an 2 ans)

Membres du jury de l’Institut des Actuaires

Mme Brigitte ECARY

Entreprise :

AXA Global Life

Membres du jury I.S.F.A. Directeur de mémoire en entreprise :

Mme Flavia BARSOTTI M. Paul UNFRIED

M. Alexis BIENVENÜE

M. Areski COUSIN Invité :

Mme Diana DOROBANTU

Mme Anne EYRAUD-LOISEL

M. Nicolas LEBOISNE

M. Stéphane LOISEL Autorisation de mise en ligne sur

un site de diffusion de documents

actuariels (après expiration de

l’éventuel délai de confidentialité)

Mlle Esterina MASIELLO

Mme Véronique MAUME-DESCHAMPS

M. Frédéric PLANCHET

Mme

M.

Béatrice REY-FOURNIER

Pierre RIBEREAU

M. Christian-Yann ROBERT Signature du responsable entreprise

M.

M.

Didier RULLIERE

Pierre THEROND

Secrétariat Signature du candidat

Mme Marie-Claude MOUCHON

Bibliothèque :

Mme Patricia BARTOLO

50 Avenue Tony Garnier 69366 Lyon Cedex 07

Université Claude Bernard – Lyon 1

INSTITUT DE SCIENCE FINANCIERE ET D'ASSURANCES

2

Ré sumé

Mots-clés : Mortalité de la population générale, mortalité des assurés, indicateurs socio-

économiques, Table de mortalité, analyse en composantes principales, Clustering hiérarchique,

Modèles linéaires généralisés, erreur de prédiction, Bootstrap, estimateur +.632, intervalles de

confiance non-paramétriques, méthodes relationnelles, modèle de Brass.

Lors du lancement de produits d’assurance vie dans un pays émergent, l’absence de données fiables

conduit à estimer le risque décès par des tables de mortalité nationale. La mortalité des assurés, qui

sont la population cible, est rarement bien représentée par la mortalité de la population générale. Le

moyen le plus simple pour approcher le niveau de mortalité des assurés est d’appliquer un

coefficient multiplicateur sur la table nationale. Le coefficient appliqué est souvent déterminé a

postériori, car il résulte principalement de l’expérience.

Dans ce document, nous proposons de prédire ce coefficient multiplicateur à partir de certains

indicateurs socio-économiques qui caractérisent le pays concerné. Ainsi, nous proposons deux

modèles prédictifs, un pour les hommes et un pour les femmes. Pour construire ces deux modèles,

nous avons dans un premier temps sélectionné un nombre très limité d’indicateurs socio-

économiques qui serviront de variables explicatives. Pour sélectionner les indicateurs, nous avons

dans un premier temps procédé à une analyse qualitative, ensuite nous avons utilisé la technique

statistique du Clustering hiérarchique combinée à une analyse en composantes principales. Pour

chacun des deux sexes, nous avons ensuite effectué une suite de régressions linaires, de tests et de

mesures d’erreur pour déterminer le meilleur modèle linéaire en matière de prédiction. Pour

mesurer la qualité de prédiction, nous avons choisi l’estimateur +.632 qui fait appel au techniques du

Bootstrap. Cet estimateur à l’avantage de prendre en considération l’effet du sur-ajustement tout en

proposant un bon compromis entre biais et variance dans l’estimation de l’erreur de prédiction. Les

résultats sont très différents entre les hommes et les femmes. Le modèle des hommes est nettement

plus précis que celui des femmes. Pour déterminer une marge de prudence à prendre lors de

l’utilisation des deux modèles, nous avons calculé par bootstrap les bornes supérieures de l’intervalle

de confiance à 95% pour chaque pays de notre échantillon, puis nous avons pris l’écart maximal

observé entre ces derniers et les valeurs réelles du coefficient recherché. Nous proposons ensuite

une cartographie de presque tous les pays du monde en fonction du coefficient multiplicateur à

appliquer sur la mortalité de la population générale. Nous regroupons les pays en six classes. Nous

remarquons que chez les hommes, la majorité des pays se retrouvent dans les classes ayant

un coefficient compris entre 30% et 75%. Tandis que chez les femmes, une grande partie des

pays se retrouvent dans les classes ayant un coefficient supérieur à 75%.

Nous concluons ce document en proposant une piste d’évolution dans l’estimation de la

mortalité des assurés. La piste consiste à appliquer la même approche pour prédire les

paramètres du modèle relationnel de Brass pour chaque pays. Cette méthode permet de

passer directement de la table de mortalité nationale à la table de la population assurée.

3

Abstract

Key-words: Mortality of the general population, mortality of insured population, socio-economic

indicators, mortality table, principal component analysis, hierarchical clustering, generalized linear

model, prediction error, Bootstrap, +.632 error estimator, non-parametric confidence interval,

relational methods, Brass’ s model.

To launch insurance life products in an emerging country, the insurer usually use the national

mortality table to estimate the risk of death because of the lack of a consistent data. The mortality

rate of the population targeted by the insurer is seldom well represented by the one of the general

population. In order to have a better estimation of the insured population’s mortality rates,

companies usually apply a multiplier on the mortality table of the general population. The value of

the multiplier depend on the company’s experience, hence it is estimated few years later.

In this paper, we present two predictive models for the two genders, which estimate the multiplier

for any country using some socio-economic indicators. In order to define the two models we need to

select the variables from a large number of indicators. For this purpose, we did a selection by

qualitative analysis, and we used statistical technics of hierarchical clustering combined with the

principal component analysis. Then we proceeded on multiple linear regressions and predictive error

tests and measurements in order to find the best predictive model for each gender. We choose the

+.632 estimator to measure the predictive error rate. The reason of this choice is the fact that this

estimator, which uses bootstrapping, takes into account the over-fitting effect, and has the best

compromise between bias and variance. The models of the two genders are quite different and

males have the most precise predictive model. We gave for the two final models a risk margin by

calculating the maximum distance in our sample between the real multiplier and the upper range of

the confidence interval at 95%. We used the bootstrapping method to calculate the confidence

interval. We classified almost all the countries in six classes depending on the predicted multiplier.

We noticed that for males, most of the countries have a predicted multiplier between 30% and 75%,

while for females the majority of countries have a predicted multiplier over 75%.

At the end of this paper we present a more elaborated way to estimate the mortality risk of insured

population by using the relational methods. The main idea is to use the same process as previously to

predict the Brass model parameters that make the link between the national mortality table and the

insured mortality table.

4

Rémérciémént

Ce mémoire a été réalisé au sein de la société AXA Global Life, dans l’équipe d’actuariat

produit, sous la direction de M. Paul UNFRIED.

En quelques mots, je tiens à remercier les personnes qui ont contribué à l’élaboration de ce

mémoire.

Merci à M. Paul UNFRIED pour ses conseils avisés et fort enrichissants, son encadrement

d’exception ainsi que sa disponibilité.

Merci à Mme Esterina MASIELLO pour son encadrement et son suivi pédagogique, sa

disponibilité, ses conseils techniques, ainsi que ses relectures minutieuses et précises.

Merci à M. Frédéric PLANCHET pour son soutien et sa disponibilité, ainsi que pour son aide

qui a été capitale pour l’aboutissement de ce mémoire.

Et enfin, merci à toutes les personnes des équipes d’actuariat d’AXA Global Life pour le

partage de leur savoir-faire et leur soutien.

5

Sommairé

INTRODUCTION .................................................................................................................. 7

I. ANALYSE DE LA PROBLEMATIQUE ........................................................................ 8

II. CONSTRUCTION DE LA BASE DE DONNEES .......................................................... 10

A. TABLES DE MORTALITE ................................................................................................................................ 10

1. Tables de mortalité des assurés ........................................................................................................ 10

2. Tables de mortalité nationales ......................................................................................................... 12

B. INDICATEURS SOCIO-ECONOMIQUES .............................................................................................................. 14

III. REDUCTION DU NOMBRE DES INDICATEURS SOCIO-ECONOMIQUES CHOISIS ..... 19

A. ANALYSE EXPLORATOIRE DES DONNEES. .......................................................................................................... 19

1. L’ACP comme prétraitement pour la classification des indicateurs ................................................... 20

2. Classification des indicateurs par arbre hiérarchique ....................................................................... 20

a) Clustering hiérarchique et critère de Ward ..........................................................................................................20

b) Le choix du nombre de classes de l’arbre hiérarchique .......................................................................................21

B. RESULTATS DE L’ANALYSE EXPLORATOIRE ........................................................................................................ 21

IV. ANALYSE DES ECARTS DE LA MORTALITE ENTRE LES ASSURES ET LA POPULATION

GENERALE ........................................................................................................................ 25

A. ANALYSE DES ECARTS DE MORTALITE PAR AGE .................................................................................................. 25

B. ANALYSE DES ECARTS DE MORTALITE EN FONCTION DU SEXE ................................................................................ 26

V. ESTIMATION DE LA MORTALITE DES ASSURES PAR APPLICATION D’UN

COEFFICIENT MULTIPLICATEUR ........................................................................................ 29

A. MODELISATION DU RAPPORT MOYEN TX POUR LES HOMMES ENTRE 35 ANS ET 65 ANS.............................................. 29

1. Modélisation à partir de l’échantillon tronqué des pays d’Afrique subsaharienne ............................ 30

2. Modélisation à partir de l’échantillon contenant l’ensemble des pays étudiés .................................. 36

3. Interprétation des résultats des régressions ..................................................................................... 40

B. MODELISATION DU RAPPORT MOYEN TX POUR LES FEMMES ENTRE 35 ANS ET 65 ANS ............................................... 41

1. Construction des modèles................................................................................................................. 41

2. Interprétation des résultats des régressions ..................................................................................... 45

VI. TESTS DE LA QUALITE DE PREDICTION ET CHOIX DES MODELES .......................... 47

6

A. UNE PREMIERE ESTIMATION DE L’ERREUR DE PREDICTION ................................................................................... 47

B. L’AMELIORATION PAR BOOTSTRAP : L’ESTIMATEUR .632+ ................................................................................. 49

C. APPLICATION DE L’ESTIMATEUR .632+ ET CHOIX DU MODELE .............................................................................. 52

1. Choix du modèle prédictif pour les hommes ..................................................................................... 52

2. Choix du modèle prédictif pour les femmes ...................................................................................... 54

VII. UTILISATION DES MODELES PREDICTIFS DANS L’ESTIMATION DU RISQUE DE

MORTALITE DES ASSURES ................................................................................................ 55

A. ESTIMATION DES PARAMETRES DES MODELES PAR BOOTSTRAP ............................................................................. 56

B. INTERVALLES DE CONFIANCES ET MARGE DE PRUDENCE DES MODELES ................................................................... 58

C. CARTOGRAPHIE DU MONDE EN FONCTION DU RAPPORT ENTRE LA MORTALITE DES ASSURES ET CELLE DE LA POPULATION

GENERALE ........................................................................................................................................................ 61

VIII. PISTES D’AMELIORATION : ESTIMATION DES TAUX DE DECES DES ASSURES PAR

L’UTILISATION DES METHODES RELATIONNELLES ............................................................. 64

A. MODELE DE BRASS ET APPROCHE ADOPTEE POUR LA MODELISATION ..................................................................... 64

B. CONSTRUCTION DE L’ECHANTILLON ............................................................................................................... 66

C. MODELISATION ........................................................................................................................................ 67

1. Modélisation du coefficient ........................................................................................................... 67

2. Modélisation du coefficient : ........................................................................................................ 71

IX. CONCLUSION ...................................................................................................... 74

X. BIBLIOGRAPHIE .................................................................................................. 75

XI. ANNEXES ............................................................................................................ 77

A. TAUX APPLICABLES SUR LA MORTALITE NATIONALE PREDITS PAR LES MODELES ......................................................... 77

1. Taux des hommes ............................................................................................................................ 77

2. Taux des femmes ............................................................................................................................. 78

B. CODE R DU BOOTSTRAP.............................................................................................................................. 78

7

Introduction

Les produits d’assurance vie requièrent l’estimation de la probabilité de décès de la

population couverte. Une mauvaise estimation des niveaux de mortalité impacte

directement le rendement du produit, et expose l’assureur à des risques actuariels qui

peuvent avoir d’importantes conséquences financières.

Idéalement, les assureurs utilisent des tables de mortalité issues des études statistiques

faites sur l’historique de la mortalité des assurés. Cependant, dans le cas de lancement de

produit d’assurance vie dans des pays émergents, les données historiques sur la mortalité

sont souvent défaillantes voire inexistantes.

Pour détourner ce problème, les souscripteurs utilisent dans les meilleurs cas des tables

représentant la mortalité de la population générale du pays ciblé, et parfois, d’anciennes

tables de certains pays développés comme la France ou le Royaume Uni, auxquelles ils

appliquent des abattements qu’ils déterminent par l’expérience des années qui suivent.

Ce procédé d’estimation du niveau de mortalité induit souvent d’importants écarts entre le

risque estimé et le risque réel auquel l’assureur est exposé. Pour certains pays émergents,

les assurés représentent une population minoritaire qui a des conditions de vie

significativement meilleures par rapport à celles de l’ensemble de la population.

Cela justifie donc l’intérêt de trouver un modèle qui permettra d’expliquer les écarts entre la

mortalité de la population générale, et la mortalité de la population assurée.

8

I. Analyse de la problématique

Dans l’article de Kamega et Planchet (2011), la comparaison entre la population générale et

assurée en Afrique subsaharienne francophone, en termes de niveaux de mortalité par pays

et par sexe, a montré que les abattements à effectuer pour le passage de la population

générale à la population assurée sont compris entre 66% et 92%. Ces résultats indiquent que

pour ces pays, le niveau de mortalité des assurés est compris entre 8% et 34% de celui de la

population générale. Cela s’explique principalement par les inégalités observées dans l’accès

aux soins et dans les conditions de vie.

Dans son analyse de l’évolution démographique en France, Landry (1982) affirme que la

France a connu une transition démographique, caractérisée par une baisse significative de la

mortalité en 1934. Parmi les causes de cette transition démographique, il cite l’amélioration

des infrastructures, des soins et de l’hygiène, ainsi que le développement de la médecine.

Ces évolutions ont bénéficié en premier lieu à la minorité la plus aisée de la société. Ainsi, la

mortalité d’une partie de la société se retrouve diminuée de manière significative par

rapport au reste de la population. Landry confirme l’existence des inégalités face à la mort

entre les classes sociales, ainsi que la contribution du développement dans l’accentuation de

ces dernières en mentionnant dans son ouvrage que « quand la médecine et l’hygiène

étaient en enfance, ces inégalités ne devaient pas être très grandes, [mais] lorsqu’au cours

du 19ème siècle la médecine et l’hygiène ont progressé à pas de géant, le profit en a tout

d’abord été pour les gens riches ou aisés, beaucoup plus que pour les pauvres, d’où un

avantage considérable de ceux – là sur ceux-ci ».

En partant du principe que les pays émergeants et quelques pays du tiers monde

connaissent actuellement un développement économique et social rapide, il est alors

naturel de penser que ces derniers soient en pleine transition démographique, similaire à

celle qu’a connue la France en 1934, avec les inégalités face à la mort que cela engendre

entre les différentes classes sociales.

Dans les pays émergents, le taux de pénétration de l’assurance vie est très faible, ce dernier

ne dépasse pas 0,3% dans les pays d’Afrique subsaharienne (Kamega & Planchet, 2011), ce

qui implique que la population assurée n’est qu’une très petite minorité favorisée, qui est

souvent caractérisée par de meilleures conditions de vie comparées à ceux de la population

générale. Ainsi, la mortalité de la population générale n’est pas représentative de celle de la

population assurée. En prenant le niveau de mortalité de la population générale, à partir

des bases de données publiques (O.M.S., 2011), les compagnies d’assurance surestiment, et

de manière significative, le risque de mortalité.

Il faudra donc trouver un moyen simple qui nous permettra d’anticiper les écarts entre la

mortalité des assurées et celle de la population générale sans avoir besoin d’utiliser des

données historiques des assurés.

9

Sachant que le niveau de développement ainsi que la qualité de vie et des soins dans un pays

peuvent être quantifiés par des indicateurs sociaux économiques, nous avons donc pensé à

les utiliser pour expliquer les écarts de mortalité observés entre les assurés et la population

générale, et développer ainsi un modèle mathématique qui nous permettra d’anticiper ces

derniers pour les pays dont nous n’avons pas les données des assurés.

Nous avons donc besoin de constituer une base de données qui soit composée de tables de

mortalité des assurés, de tables de mortalité de la population générale, et de certains

indicateurs socio-économiques.

Dans la suite de ce document, nous allons dans un premier temps expliquer comment nous

avons constitué la base de données des tables de mortalité des assurés et des populations

générales de différents pays, ainsi que les traitements préalables que nous avons effectués

sur ces derniers. Nous donnerons aussi l’ensemble des indicateurs socio-économiques

utilisés dans notre étude, en précisant les raisons pour lesquelles nous les avons choisis.

Dans un deuxième temps, nous analyserons le comportement de la mortalité en fonction de

l’âge, du sexe et du pays, ainsi que de la source d’où la table a été collectée. Par la suite, les

choix de modélisation seront pris suite à notre analyse. Et enfin, nous détaillerons les

différentes étapes de modélisation, et nous testerons les différents modèles que nous avons

développés.

10

II. Construction de la base de données

Comme nous l’avons précisé précédemment, la base de données utilisée dans notre étude

est constituée de tables de mortalités des assurés et de populations générales de plusieurs

pays, ainsi que d’un ensemble d’indicateurs socio-économiques.

A. Tables de mortalité

Une table de mortalité est, d’après l’INSEE, une table annuelle qui suit le cheminement

d'une génération fictive de 100 000 nouveau-nés à qui l'on fait subir aux divers âges les

conditions de mortalité observées sur les diverses générations réelles, durant l'année

étudiée. Pour éviter les aléas des tables annuelles et pour disposer d'une table détaillée par

âge aussi précise que possible, on calcule également une table de mortalité couvrant une

période de trois années. Il existe deux types de tables, les tables du moment et les tables

prospectives qui prennent en compte l’évolution de la mortalité dans le temps.

Les tables nous donnent la probabilité de décès par âge, pour une durée d’un an. Celles

utilisées par les assureurs pour leurs tarifs et leurs provisions sont très encadrées par la

réglementation (Planchet & Thérond, 2006). Les tables de la population générale sont

utilisées par défaut. En France, les contextes et les conditions d’utilisation des tables propres

aux compagnies d’assurance sont prévus par la réglementation. L’article A335-1 du Code des

Assurances précise ces derniers.

Dans cette partie, nous faisons un inventaire des tables que nous avons pu collecter, en

précisant les traitements que nous avons effectués pour avoir les taux de décès par âge

pour certains pays.

1. Tables de mortalité des assurés

La mortalité des assurés est fortement influencée par les conditions de souscription. Elle

varie aussi en fonction du type de la population assurée (classe ouvrière, cadres supérieurs..)

et du type de produit (contrats individuels, contrats groupes…). N’ayant pas suffisamment

de tables de mortalité pour tous les types de contrats, et afin de limiter les biais liés à la

politique de souscription et au type de population, nous allons nous contenter d’étudier la

mortalité des assurés de manière générale. Nous utiliserons alors, pour un même pays, des

tables agrégées de plusieurs compagnies d’assurances, regroupant plusieurs types de

contrats. Notre principale source est la base publique de la SOA (Society Of Actuaries). Vu le

11

nombre limité de tables agrégées que nous avons pu collecter, nous avons aussi utilisé

quelques tables d’expériences propres aux entités d’AXA. Ces dernières sont principalement

des tables utilisées pour tarifier tout type de produits. Les tables d’expériences spécifiques à

un type de contrat déterminé n’ont pas été prises en compte.

Nous avons aussi pu collecter, pour chaque sexe, une table d’assurés agrégée regroupant

trois pays de l’Afrique centrale, qui sont le Togo, le Mali et la Côte d’Ivoire. Dans l’article de

Kamega et Planchet (2011), nous retrouvons des taux de décès pour les assurés avec

l’exposition totale par sexe. Sachant que nous disposons de l’exposition pour les assurés

pour chaque pays et pour les deux sexes, nous avons donc utilisé le taux global pour ajuster

la table agrégée, et avoir ainsi une table par pays et par sexe.

Nous avons ainsi collecté des tables de mortalité d’assurés pour dix-sept pays, pour des

dates différentes (Tableau 1: Sources des tables de la population assurée).

Tableau 1: Sources des tables de la population assurée

Nous prenons soin de préciser l’année d’usage de chaque table, car sachant que la mortalité évolue

avec les années, nous devons comparer chaque table avec la table de mortalité de la population

générale équivalente de l’année la plus proche.

Pays année source des tables de la population assuré

Germany 2008 DÄV (table réglementaire)

Belgium 2007 Assuralia (table réglementaire)

Brazil 2010 Base de données de la SOA

Mexico 2000 AXA

New Zealand 1995 Base de données de la SOA

Finland 1987 Base de données de la SOA

Japan 1991 Base de données de la SOA

Australia 1992 Base de données de la SOA

Canada 1992 Base de données de la SOA

USA 2001 Base de données de la SOA

Malaysia 1996 Base de données de la SOA

China 1993 Base de données de la SOA

UK 2000 Base de données de la SOA

Maroc 2000 Caisse de retraite CIMR

Italy 2000 AXA

Mali 2006 Table (ajustée) issue de données d'assurés

Togo 2006 Table (ajustée) issue de données d'assurés

Côte d'Ivoire 2006 Table (ajustée) issue de données d'assurés

Kenya 2006 Table (ajustée) issue de données d'assurés

12

2. Tables de mortalité nationales

Notre principale source de données des tables de mortalité de la population générale est la

base HMD (Human Mortality Database). HMD a été créée par le département des études

démographiques à l’université de Berkeley en collaboration avec l’institut Max Planck.

Cependant, les données ne concernent qu’un nombre limité de pays. Les tables issues du

site HMD sont complètes, elles représentent des taux de décès bruts par âge. Les expositions

au risque décès qui ont servi pour construire les tables de mortalité sont importantes, ce qui

a permis d’avoir des sauts des taux négligeables entre chaque âge (Figure 1 : Taux bruts de la

mortalité de la population du Japon issus de la base HMD). Ainsi il n’était pas nécessaire de

procéder à un traitement particulier.

Figure 1 : Taux bruts de la mortalité de la population du Japon issus de la base HMD

En ce qui concerne les pays pour lesquels nous ne retrouvons pas de table dans la base de

données HMD, nous récupérons l’information sur les taux de mortalité à partir de la base de

données de l’Organisation Mondiale de la Santé (O.M.S.). Les données de l’O.M.S. sont sous

forme de tables de mortalité sur cinq ans, donnant pour chaque âge x, la probabilité de

décès entre x et x+5, que nous notons . Nous avons alors procédé à un traitement

préliminaire des données pour avoir la probabilité de décès sur un an pour chaque âge que

nous notons usuellement .

Nous supposons que le taux du hasard que nous notons ( ) suit une loi de Gompertz-

Makeham

( )

0,00%

0,50%

1,00%

1,50%

2,00%

2,50%

3,00%

qx

Age

13

Où a, b et c sont trois constantes que nous estimerons pour chaque pays.

Sachant que la fonction de survie ( ) est liée au taux du hasard par l’égalité suivante

( ) ( ∫ ( )

)

Et puisque pour

( )

( )

Alors

(

( ) ( ))

(1)

Nous estimons ensuite les paramètres (a,b,c) par la méthode des moindres carrés ordinaires

en minimisant la somme des écarts au carré

( ) ( ) (∑(

)

)

Où est la valeur de la probabilité de décès entre l’âge et l’âge donnée par la

table de l’OMS, et ( ) l’estimation des paramètres ( ).

Nous retrouvons les estimations de ( ) par l’utilisation du module Solveur de l’outil

Excel.

Nous calculons ensuite la probabilité de décès sur un an pour chaque âge en utilisant

l’équation (

( ) ( )) pour n=1. Nous obtenons ainsi les

tables de la population générale équivalentes à celles collectées pour les assurés (Tableau 2:

Sources des tables de la population générale).

14

Tableau 2: Sources des tables de la population générale

Il est à noter que d’après des sources de l’institut national des études démographiques

(I.N.E.D.), les estimations de l’O.M.S. sont presque exclusivement basées sur une

combinaison entre la mortalité infantile et un modèle relationnel de type Logit (modifié),

combinaison à laquelle sont ajoutés ensuite les décès liés au VIH. Toujours d’après des

sources de l’I.N.E.D. , les chiffres de l’O.M.S. (O.M.S., 2011) ont pour but principal d’être

intégrés à des données de prévalence d’incapacité afin de fournir un indicateur d’espérance

de vie en santé qui doit mettre désormais l’accent sur le handicap et non plus sur la maladie

ou la mort. Il est bien indiqué sur le site que ces données résultent de modélisations.

Néanmoins, les niveaux de mortalité proposés par l’O.M.S. pour certains pays sont plutôt

proches de la réalité. Nous utiliserons ces derniers car nous n’avons pas d’autres

alternatives,.

B. Indicateurs socio-économiques

Nous cherchons à expliquer les différences observées entre pays sur les écarts entre

mortalité nationale et mortalité des assurés. Il est donc naturel de penser que les variables

explicatives seront un ensemble d’indicateurs socio-économiques qui donnent une image du

profil de chaque pays en termes d’égalité dans l’accès aux soins et la qualité de vie. Nos

Pays année source des tables de la population générale

Germany 2008 Human Mortality Database

Belgium 2007 Human Mortality Database

Brazil 2008 Organisation Mondiale de la Santé

Mexico 2000 Organisation Mondiale de la Santé

New Zealand 1995 Human Mortality Database

Finland 1987 Human Mortality Database

Japan 1991 Human Mortality Database

Australia 1992 Human Mortality Database

Canada 1992 Human Mortality Database

USA 2001 Human Mortality Database

Malaysia 1996 Organisation Mondiale de la Santé

China 1993 Organisation Mondiale de la Santé

UK 2000 Human Mortality Database

Maroc 2000 Organisation Mondiale de la Santé

Italy 2000 Human Mortality Database

Mali 2008 Organisation Mondiale de la Santé

Togo 2008 Organisation Mondiale de la Santé

Côte d'Ivoire 2008 Organisation Mondiale de la Santé

Kenya 2008 Organisation Mondiale de la Santé

15

principales sources de données seront alors la base de données de l’OMS et celle du PNUD

(Programme des Nations Unies pour le développement). Sachant qu’il existe un très grand

nombre d’indicateurs socio-économiques, nous devons dans un premier temps sélectionner

ceux qui sont potentiellement capables d’expliquer les écarts de mortalité entre les assurés

et la population générale. Ainsi, par une analyse qualitative nous choisissons des indicateurs

qui impactent le niveau de mortalité. Nous donnons dans la suite de ce document la liste des

indicateurs que nous avons retenus pour notre étude, avec la justification du choix.

Dépenses totales de santé par personne [THE: Per capita Total Expenditure on

Health]

Cet indicateur donne le montant total des dépenses de santé par tête. Il représente en

quelque sorte l’importance donnée à la santé dans un pays, et les moyens mis à disposition

pour accéder aux soins. Nous aurons tendance à croire que plus la valeur de cet indice est

élevée, plus les écarts de mortalité seront petits, puisque une valeur élevée de cet indicateur

signifie que la population générale a des moyens importants qui sont mis à disposition pour

garantir la bonne santé du citoyen.

Produit intérieur brut par habitant [GNI: Gross National Income per capita]

Cet indicateur représente le produit intérieur brut par tête. Il donne une idée sur la richesse

du pays. Plus le pays est riche, plus les conditions de vie de manière globale sont bonnes.

D’après le rapport de l’OCDE (2011), qui présente les données les plus récentes et les tendances

de différents aspects des performances des systèmes de santé des pays de l’OCDE, il est mentionné

qu’une augmentation du PIB s’accompagne généralement par une augmentation de

l’espérance de vie à la naissance. Cette affirmation indique une corrélation entre la mortalité

et le PIB, nous pouvons donc espérer retrouver un lien entre cet indice et l’écart de mortalité

entre population générale et population assurée.

Pourcentage de la population vivant en zone urbaine [UA: Population living in Urban

Areas]

Cet indicateur donne le pourcentage de la population vivant dans les zones urbaines. Dans

les pays émergents et les pays sous-développés, les populations vivant dans les zones rurales

ont des conditions particulièrement difficiles, ce qui induit une espérance de vie très faible

comparée à celle de la population vivant dans les zones Urbaines (Pison, Van de Walle, &

Sala-Diakanda, 1989). Dans l’article de Kamega et Planchet (2011), les auteurs observent que

dans la sous-région UEMOA de l’Afrique sub-saharienne, les deux pays ayant les taux

d’urbanisation les plus faibles, le Burkina Faso et le Niger, sont également ceux ayant les

taux de mortalité les plus élevés. Et pour les deux pays ayant les taux d’urbanisation les plus

élevés, le Congo et le Gabon sont ceux qui ont les taux de mortalité les plus faibles. Ainsi le

taux d’urbanisation impacte le niveau de mortalité, d’où la pertinence du choix.

16

Esperance de vie à la naissance [LE: Life Expectancy at birth]

Cet indicateur donne l’espérance de vie à la naissance. Une moyenne nationale d’espérance

de vie élevée, proche de celle d’un individu en bonne santé, signifie qu’une très grande

partie de la population a une espérance élevée. Cela implique que nous retrouverons peu

d’écart entre les différentes classes de populations. Et une espérance de vie moyenne basse,

implique qu’il existe une population significative qui a des taux de décès très élevés. Cela

explique les raisons du choix de cet indicateur.

On peut s’attendre à ce que cet indicateur explique de manière significative les écarts de

mortalité entre population générale et population assurée. Cependant, la mortalité infantile

impacte l’espérance de vie à la naissance. Nous devons donc vérifier si la mortalité infantile

est une information supplémentaire aussi importante que les informations apportées par les

autres indicateurs, pour expliquer la variation du niveau de mortalité.

Mortalité infantile :

Pour les raisons citées précédemment, nous avons besoin d’avoir des indicateurs qui nous

donnerons une image complète de la mortalité infantile. Nous avons donc choisi un

ensemble d’indicateurs comprenant ceux pour certaines maladies qui touchent fortement

les enfants comme la rougeole. Ainsi nous testerons la liste suivante :

o Neonatal mortality rate (per 1000 live births): Cet indicateur donne le taux de

décès des nourrissons, quelques jours après la naissance.

o MDG 4 Infant mortality rate (probability of dying by age 1 per 1000 live

births): Cet indicateur donne le taux de décès des enfants âgés d’un an.

o MDG 4 Under-five mortality rate (probability of dying by age 5 per 1000 live

births): Cet indicateur donne le taux de décès des enfants âgés de moins de

cinq ans.

o Diarrhea: Cet indicateur donne le taux de prévalence de la maladie de la

Diarrhée.

o Malaria: Cet indicateur donne le taux de prévalence de la maladie de la

Malaria.

o Measles: Cet indicateur donne le taux de prévalence de la maladie de la

rougeole

Indice du développement humain (IDH)

Le premier Rapport de la PNUD sur le développement humain a introduit une nouvelle

manière de mesurer le développement en faisant la synthèse des indicateurs d'espérance de

vie, de niveau d'études et de revenu, pour aboutir à un indicateur composite du

développement humain, l'IDH. Le tournant décisif pour l'IDH fut la création d'une statistique

unique destinée à servir de cadre de référence pour le développement économique et

social.

17

Selon le site web de la PNUD (2011), la composante « éducation » de l’IDH est mesurée en

termes d’années de scolarisation des adultes âgés de 25 ans et en termes d’années de

scolarisation escomptées pour les enfants d’âge scolaire. Les années de scolarisation

moyennes sont estimées sur la base de la durée de la scolarité pour chaque niveau éducatif.

La composante « espérance de vie à la naissance » de l’IDH est calculée en utilisant une

valeur minimale de 20 ans et une valeur maximale de 83,4 ans. Pour la composante «

richesse », le plancher pour le revenu minimum est de $100 et le plafond est de $107.721.

L’IDH utilise le logarithme de revenue pour refléter l’importance décroissante du revenu au

fur et à mesure de l’augmentation du revenu national brut. Les scores pour les trois indices

des dimensions de l’IDH sont ensuite combinés dans un indice composite en utilisant une

moyenne géométrique. L’IDH permet d’effectuer des comparaisons instructives des

expériences en matière de développement humain entre différents pays.

Cet indicateur, par sa composante « espérance de vie », est donc fortement corrélé avec la

mortalité. Ce qui explique notre choix. D’autant plus que les composants (niveaux d’étude et

revenu) apportent des compléments d’information qui nous permettent d’avoir une image

de la qualité de vie. Il est donc fort probable que l’indice IDH puisse expliquer les écarts de

mortalité.

Il peut en effet sembler qu’il y a une redondance dans l’information entre l’IDH et

l’espérance de vie. Cependant le premier indice comporte des informations supplémentaires

qui peuvent être utiles pour expliquer les écarts de mortalité. Et si ce n’est pas le cas, nous

isolerons l’information du niveau de mortalité par l’indice de l’espérance de vie à la

naissance.

VIH/SIDA

Cet indicateur donne le taux de prévalence du SIDA. Kamega et Planchet (2011) montrent

que pour les pays avec un fort taux, le phénomène de la surmortalité en zone rurale est

moins marqué. Ils donnent l’exemple du Tchad qui, malgré un taux d’urbanisation plus faible

que ceux de ses voisins, a un niveau de mortalité est plus faible que celui du Cameroun,

caractérisé par un taux de prévalence du SIDA plus important.

Il est donc important d’inclure cet indicateur parmi ceux que nous testerons pour expliquer

les écarts de mortalité entre assurés et la population générale.

Pourcentage des dépenses des foyers nettes d’assurance [Out-of-pocket expenditure

as a percentage of private expenditure on health]

Cet indicateur concerne le pourcentage des dépenses des foyers en santé nettes

d’assurance. Un pays où la valeur de cet indice est élevée signifie que la qualité de la

couverture santé dépend beaucoup de la richesse. Cela implique des écarts importants de la

mortalité entre les classes sociales.

18

Dépenses gouvernementales de santé en pourcentage des dépenses totales de santé

[General government expenditure on health as a percentage of total expenditure on

health]

Cet indicateur établit le pourcentage des dépenses gouvernementales en santé par rapport

aux dépenses totales en santé. Dans un pays, plus ce pourcentage sera important, plus les

moyens publics mis à disposition pour les soins seront importants, ce qui laisse penser que

l’accès aux soins dépendra moins de la richesse de l’individu. Donc cet indicateur peut

expliquer en partie les différences entre pays observées sur les écarts de mortalité.

Dépenses gouvernementales en santé en pourcentage des dépenses

gouvernementales totales [General government expenditure on health as a

percentage of total government expenditure]

Cet indicateur donne le pourcentage des dépenses gouvernementales en santé par rapport

aux dépenses gouvernementales totales. Un pays avec un pourcentage élevé, signifie que ce

dernier bénéficie de solides infrastructures dédiées à la santé, et nous pouvons donc nous

attendre à avoir une bonne espérance de vie de la population générale de ce dernier.

Pourcentage des dépenses en santé couvert par le privé [Private expenditure on

health as a percentage of total expenditure on health]

Cet indicateur donne le pourcentage couvert par le privé des dépenses en santé. Il nous

informe de la part couverte, en termes de soins, par les assurances et les moyens de

l’individu. Il est logique de penser que ce pourcentage peut expliquer des inégalités en

matière d’accès aux soins, et ainsi des inégalités face à la mort.

Degré des inégalités de la distribution des revenus [GINI : indice nommé au nom du

sociologiste Corrado Gini]

Cet indicateur est une mesure du degré d'inégalité de la distribution des revenus dans une

société donnée. Plus la valeur de cet indice est élevée, plus les inégalités sont importantes

en matière de revenu. D’après un rapport de la commission européenne (Bernner &

Hopkins, 2006), les études menées par les investigateurs montre que les inégalités de

revenus ont un effet néfaste sur la mortalité de la population. Les inégalités de revenu,

mesurées par l’indice GINI, constituaient un facteur important d’augmentation des taux de

mortalité.

19

III. Réduction du nombre des indicateurs socio-économiques choisis

Les indicateurs que nous avons choisis précédemment, par une analyse qualitative, sont

destinés à servir de variables explicatives aux modèles linéaires, qui seront développés dans

la suite de ce document. Ainsi, nous avons retenu 17 indicateurs dans un premier temps.

Cependant, nous n’avons que 19 pays pour lesquels nous avons pu collecter des données sur

le taux de décès des assurés. Cela réduit donc la taille de l’échantillon des variables à

expliquer à 18, ce qui est très peu vis-à-vis du nombre des variables explicatives potentielles.

Nous devons donc réduire le nombre des indicateurs choisis, en éliminant ceux qui sont les

moins pertinents pour expliquer les écarts de mortalité.

Pour réduire le nombre de variables explicatives potentielles, nous procédons à une analyse

exploratoire des données, dont nous détaillons dans la suite les techniques statistiques

utilisées, et qui nous permettra de répertorier les indicateurs qui expliquent le plus le

comportement de la mortalité d’un pays à un autre.

Pour pallier le problème de la taille réduite de l’échantillon des rapports de mortalité, nous

supposons que la moyenne de l’espérance de vie à la naissance d’un pays donne une idée

sur les écarts entre la mortalité des assurés et celle de la population générale. Ainsi, nous

pouvons faire l’analyse exploratoire sur l’ensemble des pays disponibles dans la base de

l’OMS, à savoir 120 pays dans notre cas, en prenant comme élément de référence

l’espérance de vie à la naissance pour le choix des indicateurs. Cette taille d’échantillon bien

plus importante, permet alors d’améliorer l’efficience des méthodes statistiques utilisée

pour la classification.

A. Analyse exploratoire des données.

L’objectif de l’analyse exploratoire des données est de répertorier en classes un ensemble

d’individus à partir des valeurs d’un certain nombre de variables. Sachant que dans notre

cas, nous nous intéressons dans un premier temps au regroupement des indicateurs socio-

économiques et non pas à celui des pays, nous allons donc considérer les indicateurs comme

des individus, et les variables dans ce cas seront alors les vecteurs des valeurs de ces

derniers pour chaque pays. Cela suppose bien évidemment de rendre centrés réduits les

vecteurs des indicateurs, puisque ces derniers n’ont pas la même unité de mesure.

Les indicateurs qui se retrouveront dans la même classe que l’espérance de vie seront alors

considérés comme ceux qui sont les plus liés à la mortalité et donc qui ont de plus grandes

chances d’expliquer les écarts observés entre population générale et population assurée.

20

1. L’ACP commé prétraitémént pour la classification dés

indicateurs

Une première méthode est l’analyse en composantes principales (ACP). Les vecteurs des

indicateurs socio-économiques constitués des valeurs standardisées pour différents pays

sont représentés dans un espace euclidien à grande dimension, et l’étude des similarités

entre ces derniers correspond à une étude de la forme du nuage des points. L’analyse en

composantes principales permet de représenter le nuage des points dans un sous-espace de

dimension inférieure, en gardant le plus fidèlement possible les distances entre les

indicateurs. L’ACP permet d’obtenir des composantes principales qui sont des variables

synthétiques orthogonales (Husson, Josse, & Pagès, 2010). Elle peut aussi être présentée

comme la décomposition des données en un signal plus du bruit, les premières dimensions

correspondant au signal et les dernières au bruit. De ce fait, l’ACP peut servir de

prétraitement à la classification (que nous présentons par la suite sous le nom Anglo-Saxon

Clustering). Seules les premières dimensions sont conservées pour calculer de nouvelles

distances entre individus. Sans le bruit, la classification est plus robuste que celle obtenue

sur les distances initiales.

2. Classification des indicateurs par arbre hiérarchique

a) Clustering hiérarchique et critère de Ward

Une deuxième méthode d’étude des rapprochements entre indicateurs est le Clustering

hiérarchique. Cette dernière nécessite la définition d’une distance (distance de Manhattan,

distance euclidienne…) ainsi que d’un critère de regroupement (méthode de Ward, Single…).

La Clustering hiérarchique est représenté par un arbre appelé dendrogramm.

Pour le clustering hiérarchique qui est implémenté dans le package FactoMineR du logiciel R

et que nous avons utilisé, la distance utilisée est la distance Euclidienne, et le critère choisi

est le critère de Ward.

Le critère de Ward, d’après l’article des développeurs du Package FactoMineR (Husson,

Josse, & Pagès, 2010), se base sur le théorème de Huygens de la décomposition de la

variance totale.

∑∑∑( )

∑∑ ( )

∑∑∑( )

21

Avec est la valeur standardisée de l’indicateur i de la classe q du pays k, est la

moyenne des valeurs standardisées des indicateurs de la classe q du pays k, est la

moyenne de toutes les valeurs du pays k et est le nombre d’indices contenus dans la classe

q.

En partant du point où chaque indice est une classe, la méthode de Ward consiste à agréger

deux classes, tel que la croissance de l’inertie (variance) intra classes soit minimum à chaque

étape de l’algorithme. L’inertie intra classe caractérise l’homogénéité de chaque classe. La

hiérarchie des différentes étapes de regroupement est représentée par un dendrogramme

qui est indexé par le gain en inertie intra classes. A la base du dendrogramme nous avons

une inertie intra classe nulle, et cette dernière atteint sa valeur maximale au sommet de

l’arbre où tous les indices standardisés sont dans une seule classe.

Comme précisé précédemment, cette classification hiérarchique est appliquée sur les

composantes principales.

b) Le choix du nombre de classes de l’arbre hiérarchique

Le choix du nombre de classe à retenir est primordial et plusieurs méthodes sont présentées

dans la littérature (Husson, Josse, & Pagès, 2010) . Un arbre hiérarchique peut être considéré

comme une séquence de partitions emboîtées, de la plus précise (un indice par classe) à la

plus grossière (une seule classe). Ainsi une hiérarchie est extrêmement utile pour déterminer

le nombre de classes. Ce choix peut être fait à partir de l’allure générale de l’arbre, du niveau

des nœuds, du nombre de classe (qui doit être ni trop grand ni trop faible), et du graphe « de

barres » représentant le gain en inertie intra classes.

Nous choisissons de diviser les indices en Q classes si le passage de Q classes à Q-1 classes

induit une augmentation de l’inertie inter classes significativement plus importante que celle

du passage de Q+1 à Q classes. En notant ( ) la croissance de l’inertie inter classes entre

Q-1 et Q, la formalisation du critère est alors la suivante :

( ( )

( ))

B. Résultats dé l’analysé éxploratoiré

Nous comprenons d’après la description des techniques statistiques utilisées pour la

classification des indices socio-économiques, dont les valeurs ont été préalablement

22

centrées et réduites, que le regroupement se fait principalement sur la variabilité de ces

derniers d’un pays à un autre. Si deux indices se retrouvent dans la même classe, à un niveau

bas dans l’arbre hiérarchique, cela indique que ces derniers ont le même comportement,

donc ils ont de fortes chances d’être corrélés. Tandis que si deux indices se retrouvent dans

une classe à un niveau très haut dans l’arbre, qu’ils sont très distants et varient

différemment, il y a moins de chance de trouver une corrélation entre les deux.

Figure 2: Résultat de la classification hiérarchique des indicateurs socio-économiques

D’après l’aspect général de l’arbre hiérarchique de la Figure 2: Résultat de la classification

hiérarchique des indicateurs socio-économiques, la méthode décrite dans le paragraphe III.A

propose un regroupement en trois classes distinctes. En effet le graphe des barres

représentant le gain en inertie intra classes présente une décroissance (i.e. une croissance

de l’inertie inter classes) significativement plus importante entre le niveau 2 et 3 que celle

observée entre le niveau 3 et 4. Cela explique donc le choix de trois classes. D’autant plus

23

qu’il est intéressant de voir que l’ensemble des indicateurs des épidémies sont regroupés

dans la même classe que ceux représentant la mortalité infantile. L’espérance de vie quant à

elle se retrouve dans une classe distincte. Nous pouvons interpréter cela comme étant que

la mortalité infantile et les pandémies qui touchent principalement les enfants impactent de

manière moins importante la mortalité générale que la richesse du pays ou les moyens mis à

disposition pour la santé.

Nous allons donc conserver uniquement les indicateurs qui se retrouvent dans la même

classe que ceux de l’espérance de vie à la naissance, à savoir les éléments suivants :

Dépenses totales en santé par personne [THE: Per capita total expenditure on health

(PPP int. $)]

Produit intérieur brut par habitant [GNI: Gross national income per capita (PPP int.

$)]

Indice de développement humain [IDH: HDI value]

Pourcentage de la population vivant en zone urbaine [UA: Population living in urban

areas (%)]

Esperance de vie à la naissance [LE: Life expectancy at birth]

Pourcentage des dépenses des foyers nettes d’assurance [Out-of-pocket expenditure

as a percentage of private expenditure on health]

Dépenses gouvernementales en santé en pourcentage des dépenses totales en santé

[General government expenditure on health as a percentage of total expenditure on

health]


gouvernementales totales [General government expenditure on health as a


Pourcentage des dépenses en santé couvert par le privé [Private expenditure on

health as a percentage of total expenditure on health]

Pour corroborer l’hypothèse que nous avons prise concernant le lien étroit entre l’espérance

de vie à la naissance et le rapport des taux de mortalité entre assurés et population

générale, nous allons effectuer la même analyse exploratoire sur notre échantillon des

rapports des taux pour les hommes noté Tx homme ainsi que sur l’ensemble des indicateurs

que nous avons finalement retenus.

24

Figure 3: Classification hiérarchique sur l’échantillon comprenant les rapports de mortalité assurés / population générale

La Figure 3: Classification hiérarchique sur l’échantillon comprenant les rapports de mortalité

assurés / population générale nous montre que l’indice de l’espérance de vie est regroupé avec

les rapports des taux de mortalité à un niveau bas dans l’arbre hiérarchique, ce qui

confirme notre hypothèse. Ce qui est surprenant c’est la position de l’indice représentant le

taux de la population urbaine, qui se retrouve regroupé avec les rapports des taux à un

niveau encore plus bas. Toujours d’après l’arbre hiérarchique l’indice qui aura le plus de

chance d’expliquer les rapports des taux de mortalité entre assurés et population générale

est celui du développement humain. Ces résultats, malgré leur pertinence, doivent être pris

avec précaution, puisqu’ils résultent d’un échantillon de taille modeste. Cependant ils nous

permettent d’avoir une idée sur les indicateurs à tester en premier comme variables

aléatoires.

25

IV. Analyse des écarts de la mortalité entre les assurés et la population générale

A. Analyse des écarts de mortalité par âge

La probabilité de décès d’une personne dépend principalement de son âge. Ainsi, nous

pouvons penser que l’écart de mortalité observé entre la population générale et la

population assurée variera en fonction de l’âge. Pour confirmer cette hypothèse, nous avons

observé l’évolution des rapports des taux de mortalité entre les deux populations en

fonction de l’âge pour plusieurs pays.

Figure 4 : Evolution du rapport des taux Assurés/Population générale en fonction de l'âge

0,00

0,20

0,40

0,60

0,80

1,00

1,20

Age

Chine 1993

0,00

0,20

0,40

0,60

0,80

1,00

1,20

Age

UK 2000

0,00

0,20

0,40

0,60

0,80

1,00

1,20

Age

Mali 2006

0,00

0,20

0,40

0,60

0,80

1,00

1,20

Age

Côte d'Ivoire

0,00

0,20

0,40

0,60

0,80

1,00

1,20

Age

Brazil 2010

0,00

0,20

0,40

0,60

0,80

1,00

1,20

Age

Australie 1992

26

Nous remarquons que les courbes des rapports des taux évoluent en fonction de l’âge

différemment d’un pays à un autre (Figure 4 : Evolution du rapport des taux Assurés/Population

générale en fonction de l'âge). Nous observons aussi des similitudes très marquées des formes

des courbes entre certains pays, comme la Chine et le Brésil, l’Angleterre et l’Australie, et

enfin le Mali et la Côte d’ivoire. En analysant les sources des tables de mortalité, nous

remarquons que ces dernières sont la principale raison de ces similitudes. En effet, à titre

d’exemple, les sources des tables de mortalité pour la Chine et le Brésil, sont le principal

point commun entre les deux pays, car les tables de la population assurée proviennent de la

base de la SOA, et les tables de la population générale proviennent de la base de l’O.M.S.

Tandis que pour l’Australie et l’Angleterre, la source des tables de la population générale est

la base H.M.D (Voir le Tableau 1: Sources des tables de la population assurée et le Tableau 2:

Sources des tables de la population générale). Nous pouvons donc conclure que la source des

tables de mortalité influence les rapports des taux de décès. Cette influence est plus

prononcée pour les jeunes âges. Pour les âges supérieurs à 35 ans, le phénomène est

atténué. Nous savons aussi que, à cause de la faible exposition des âges élevés, les taux

proposés par les tables sont souvent le résultat des projections et des extrapolations

obtenues en utilisant des méthodes type Lee-Carter et Log-Poisson (Planchet & Lelieur,

2010). Ainsi les taux pour les âges supérieurs à 65 ans (souvent utilisé comme limite d’âge en

souscription en assurance vie) dépendent fortement des méthodes statistiques utilisées.

L’analyse préalable du comportement de mortalité nous a donc conduit à restreindre l’étude

sur les âges compris entre 35 ans et 65 ans.

B. Analyse des écarts de mortalité en fonction du sexe

La distinction entre les hommes et les femmes, que nous retrouvons dans les tables de

tarification des produits d’assurance vie, est principalement justifiée par le comportement

de la mortalité qui varie significativement entre les deux sexes. Nous devons donc vérifier si

ce phénomène impacte les écarts entre la mortalité des assurés et celle de la population

générale. Pour cela, nous calculons les rapports des taux entre les deux populations, pour

différents pays en distinguant les deux sexes. Nous calculons ensuite les moyennes

arithmétiques des rapports des taux, que nous notons , pour les âges compris entre 35

ans et 65 ans tel que :

∑

La figure ci-dessous donne l’ensemble des résultats trouvés par âge et pour les différents

pays.

27

Figure 5: moyennes, par sexe et par pays, des rapports de taux entre population générale et assurée

Nous observons dans la Figure 5: moyennes, par sexe et par pays, des rapports de taux entre

population générale et assurée que les rapports varient d’un pays à un autre différemment

entre les deux sexes. A titre d’exemple, le Mali est caractérisé par un rapport pour les

hommes inférieur à celui du Togo, tandis que nous observons l’inverse pour les femmes.

Nous remarquons aussi que les sont souvent significativement différents entre les

hommes et les femmes dans un même pays. Nous concluons donc que l’écart entre la

mortalité de la population assurée et celle de la population générale dépendra du sexe de la

population concernée. Cela implique que nous devons faire la distinction entre les hommes

et les femmes dans notre étude.

Pour modéliser les variations observées d’un pays à un autre sur les écarts de mortalité

entre la population assurée et la population générale, nous avons utilisé deux approches

différentes.

La première approche consiste à expliquer le rapport moyen des taux de mortalité entre 35

ans et 65 ans par des indicateurs socio-économiques.

Les pays d’Afrique subsaharienne présentent des rapports de taux de mortalité, entre

population assurée et population générale, significativement bas par rapport aux autres

pays. Certains indicateurs, comme le taux de prévalence du SIDA et le taux de mortalité

infantile présentent des valeurs extrêmes. Cela implique que certains facteurs, qui impactent

significativement les écarts de mortalité entre les assurés et la population générale dans les

pays développés, peuvent voir leurs effets atténués et de manière importante face à ceux du

SIDA ou de la mortalité infantile par exemple. Puisque notre échantillon n’est composé que

de 19 pays dont le Mali, le Togo, le Kenya et la Côte d’Ivoire, nous construisons donc, dans

un premier temps, un modèle basé sur des données excluant les quatre pays d’Afrique

0

0,2

0,4

0,6

0,8

1

1,2

Mal

i-20

06

Co

te d

'ivo

ir-2

006

Togo

-20

06

Bra

zil-

201

0

UK

-200

0

Mal

aysi

a-19

96

Ch

ina-

1993

Au

stra

lia-1

992

New

Zea

lan

d-1

995

Bel

giu

m-2

007

Mex

ico

-200

0

Fin

lan

d-1

987

US-

200

1

Ital

y-20

00

Ger

man

y-20

08

Can

ada-

199

2

Jap

an-1

996

Tx femme

Tx homme

28

subsaharienne. Puis dans un deuxième temps, nous testons ce modèle sur l’ensemble des

pays de notre échantillon, et nous l’ajustons si nécessaire pour avoir un modèle plus général.

La deuxième approche fait appel aux modèles relationnels, plus précisément le modèle de

(Brass, On the scale of mortality, 1971), où cette fois ci nous allons chercher à expliquer par

des indicateurs socio-économiques les coefficients de la fonction qui lie la mortalité des

assurés à celle de la population générale.

29

V. Estimation de la mortalité des assurés par application d’un coéfficiént multiplicatéur

L’objectif de l’étude est de trouver un moyen simple qui nous permettra de passer de la

mortalité de la population générale à celle de la population assurée. Une technique simple

sera d’appliquer un coefficient sur les taux de décès de la population générale. Pour chaque

pays de notre échantillon, nous estimons ce coefficient par la moyenne des rapports des

taux notée Tx que nous avons définie dans la partie IV.B.

A. Modélisation du rapport moyen Tx pour les hommes

entre 35 ans et 65 ans

Nous calculons pour chaque pays de la base de données le rapport de mortalité moyen (Tx)

entre les assurés et la population générale. Nous avons alors un vecteur de dix-neuf

éléments, que nous allons essayer d’expliquer par les indicateurs que nous avons

sélectionnés précédemment.

Nous cherchons à construire un modèle prédictif. Ainsi, l’accent est mis sur la qualité des

estimateurs. Ceci conduit à chercher des modèles parcimonieux, c'est-à-dire avec un

nombre volontairement restreint de variables explicatives.

Pour le choix des variables explicatives, nous choisissons le critère BIC (Bayesian Information

Criterion) car il a tendance à retenir les modèles les plus petits. Avec l’hypothèse normale, la

valeur maximale de la log-vraisemblance est la suivante :

( )

(

)

( (

))

Où SCR représente la somme des carrés des écarts entre les prédictions et les observations,

et n la taille de l’échantillon. Les écarts entre les prédictions et les observations sont appelés

des résidus. Nous notons pour la suite p le nombre de variables explicatives du modèle.

L’idée du BIC est d’utiliser l’opposé de cette valeur comme critère de qualité, mais en le

pénalisant par l’addition d’un terme qui augmente avec le nombre de variables du modèle.

On a donc à des constantes près :

(

) ( )

Plus la valeur du BIC sera petite, plus le modèle est bon.

30

Ayant un grand nombre de variables explicatives et une taille réduite des échantillons, nous

allons dans un premier temps effectuer une régression multiple sur l’ensemble des

indicateurs, et ensuite nous allons, par étape, éliminer les variables explicatives afin de

minimiser le critère du BIC. Cette procédure est implémentée dans le logiciel R sous la

fonction Stepwise.

Nous avons remarqué que le résultat de cette procédure de choix des variables explicatives

varie considérablement si nous ôtons les pays de l’Afrique subsaharienne. Dans son étude

sur la stabilisation des processus de sélection de modèle (Breiman, 1996), Breiman classifie

la sélection des modèles emboités en régression linéaire comme un processus instable, où

l’instabilité est définie comme étant le fait qu’un petit changement sur l’échantillon

d’apprentissage a un impact significatif sur les résultats. Dans un premier temps, nous avons

pensé que cela est dû à l’instabilité du processus de sélection. Cependant, les différents tests

effectués montrent que le phénomène sur les autres pays est très modéré par rapport à

celui observé pour les pays d’Afrique subsaharienne. Nous en concluons que certaines

particularités des pays d’Afrique noire, comme le taux de prévalence du VIH qui y est

extrêmement élevé par rapport au reste du monde (68% du total mondial des personnes

atteintes du VIH se trouvent en Afrique subsaharienne selon les chiffres de l’O.M.S. de

2007), rendent l’impact sur la mortalité de certains aspects (la richesse du pays par

exemple) peu significatifs.

Nous avons donc choisi de développer deux modèles dans un premier temps. Un premier

modèle sera construit sur un échantillon d’apprentissage ne contenant pas les données des

pays d’Afrique subsaharienne (à savoir le Togo, le Mali, la Côte d’Ivoire et le Kenya). Un

second modèle sera construit sur un échantillon d’apprentissage englobant l’ensemble des

pays. Nous testerons ensuite le premier modèle sur tous les pays, et si les p-valeurs des

variables explicatives de ce dernier sont significatives, nous procéderons à un arbitrage entre

les deux modèles pour choisir celui qui présente la meilleure qualité de prédiction.

1. Modélisation à partir dé l’échantillon tronqué des pays

d’Afrique subsaharienne

L’échantillon d’apprentissage ne contenant pas les données des pays d’Afrique

subsaharienne est constitué de quinze éléments. Les variables retenues par le processus de

sélection décrit dans le paragraphe précédent sont les suivantes :


areas (%)]

Dépenses totales en santé par personne [THE: Per capita total expenditure on health

(PPP int. $)]


31


$)]

Nous testons dans un premier temps le modèle le plus basique qui est le suivant :

(2)

Avec pour hypothèses

( ) ( ) ( )

Pour déterminer l’hypothèse la plus adéquate pour la loi des erreurs , nous allons étudier la

loi de la variable expliquée. Nous traçons la densité empirique de la variable ( )

√ ( ),

ainsi que le QQ-Plot par rapport à une loi normale centrée réduite. Et nous effectuons par la

suite le test de normalité de Shapiro-Wilk du vecteur . Ce dernier renvoie une p-valeur

de 0.83>0.05, ce qui signifie que l’hypothèse nulle de normalité de n’est pas rejetée au

niveau .

Figure 6

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

density.default(x = yst)

N = 16 Bandwidth = 0.4708

De

nsity

32

Figure 7

Le graphe de densité (Figure 6) ne s’éloigne pas trop de celui de la loi normale. Le Qq-plot

(Figure 7) n’est pas très concluant vu le faible nombre de points représentés, cependant les

points oscillent autour de la droite de pente 1 et d’origine nulle. Nous garderons alors

l’hypothèse de la normalité des Tx, et par la même celle des erreurs.

Nous notons dans la suite ( ) le vecteur des estimations des paramètres

( ).

Nous procédons à la régression par la fonction lm du logiciel R, et cette dernière nous

renvoie les sorties suivantes :

Std. Error t-value p-value

Valeur à l’origine -3.776 7.561e-01 -4.994 0.000542

UA -4.843e-03 1.133e-03 -4.274 0.001627

TEH 1.523e-04 4.256e-05 3.579 0.005018

LE 6.708e-02 1.110e-02 6.044 0.000125

GNI -3.010e-05 7.994e-06 -3.765 0.003690

Nous remarquons que les coefficients des quatre variables aléatoires sont significatifs, ce qui

signifie que nous pouvons rejeter l’hypothèse que ces derniers soient nuls avec une

-2 -1 0 1 2

-10

12

Normal Q-Q Plot

Theoretical Quantiles

Sa

mp

le Q

ua

ntile

s

33

probabilité de 99%. Nous aborderons l’interprétation des signes des coefficients dans la

partie V.A.3

Il faut noter que plus le Tx est petit, plus l’écart de mortalité entre la population générale et

la population assurée est important. Le coefficient de détermination ajusté indique

que 78,34% de la variabilité du rapport moyen de mortalité est expliquée par le modèle.

Nous pouvons dire que la qualité de l’ajustement est plutôt bonne.

Avant de développer l’analyse de la régression, nous allons vérifier les hypothèses que nous

avons prises vis-à-vis des erreurs par le biais de l’analyse des résidus.

Nous traçons les résidus en fonction des valeurs prédites (Figure 8).

Figure 8

La courbe rouge nous donne la tendance des résidus. L’idéal serait que les points soient

répartis uniformément. Il est difficile de conclure sur la tendance des résidus avec peu de

points, nous ne pouvons donc pas valider de manière formelle l’hypothèse de

l’homoscédasticité.

Nous appliquons par la suite des transformations sur les variables expliquées et nous faisons

appel aux modèles linéaires généralisés afin d’améliorer la significativité des p-valeurs et de

stabiliser la variance. Les modèles linéaires se définissent par une loi de probabilité qui n’est

pas forcément gaussienne, ainsi que d’une fonction lien. La fonction lien que nous avons

choisi est la fonction inverse.

Lors de nos recherches, nous avons remarqué que l’ajustement s’améliore en mettant au

carré deux variables explicatives, la variable Life expectancy at birth (LE) et la variable

Population living in urban areas (UA). Nous adoptons finalement le modèle suivant :

0.6 0.7 0.8 0.9

-0.1

0-0

.05

0.0

00

.05

0.1

0

Fitted values

Re

sid

ua

ls

lm(SMR2 ~ Population.living.in.urban.areas.... + Per.capita.total.expenditu ...

Residuals vs Fitted

15

2

11

34

(3)

Nous reprenons les mêmes hypothèses que précédemment. Nous obtenons par régression

sous R les résultats suivants :

5.440e-01 11.024 6.46e-07

7.328e-05 1.472e-05 4.979 0.000554

-3.733e-04 7.269e-05 -5.136 0.000440

-9.604e-04 1.129e-04 -8.504 6.87e-06

7.118e-05 1.336e-05 5.326 0.000335

Nous remarquons que la significativité des coefficients s’est améliorée, nous pouvons rejeter

l’hypothèse nulle avec une probabilité de plus de 99,9%. Les signes des coefficients sont

inversés par rapport au modèle précédent, ce qui est cohérent avec le modèle précédent

puisque la fonction lien est la fonction inverse.

Nous notons la déviance du modèle nul, appelée déviance totale (Null deviance sous R),

qui exprime la variation du logarithme de la fonction de vraisemblance entre le modèle

saturé et le modèle nul. Le modèle saturé, que nous notons , est celui où nous avons

autant de variables explicatives que d’observations, et le modèle nul, que nous notons ,

est celui où tous les facteurs des variables explicatives sont nuls (le modèle ne comprenant

pas de variables explicatives). Nous posons la déviance résiduelle du modèle complet

(Residual deviance sous R), qui exprime la variation du logarithme de la fonction de

vraisemblance entre le modèle saturé et notre modèle que nous notons . Nous notons la

fonction de vraisemblance. Alors nous avons :

( ( ) ( )) ( ( ) ( )) ( ( ) ( ))

( ( ) ( ))

Null deviance 0,207338

Residual deviance 0,018196

AIC -46,151

35

Nous notons enfin par la variation du logarithme de la fonction de vraisemblance entre

notre modèle et le modèle nul. De manière analogue à la décomposition de la variance pour

les modèles linéaires simples, la déviance totale se décompose ainsi :

Ainsi, nous avons une déviance résiduelle ( ) qui est beaucoup plus petite que le

nombre de degrés de libertés résiduels (DDL= 10). Nous n’avons donc pas de phénomène de

surdispersion. La déviance résiduelle représente 9% de la déviance totale . Cela

signifie que le modèle présente une bonne qualité d’ajustement, puisque 91% de la variation

totale de la fonction de vraisemblance est expliquée par notre modèle.

Figure 9

Sur le graphe des résidus de déviance en fonction des valeurs prédites (Figure 9), la courbe

rouge oscille entre 0.02 et -0.02, contre 0.06 et -0.06 pour le modèle précédent. La valeur

des résidus varie entre -0,07 et 0,06 contre -0,08 et 0,1 pour le précédent modèle. Cela

signifie que nous avons une amélioration de l’homoscédasticité, mais nous sommes encore

loin du cas idéal où les points sont uniformément repartis dans le graphe. Cela peut être dû

en partie à la taille réduite de l’échantillon étudié.

Pour corroborer l’hypothèse de l’homoscédasticité et valider l’homogénéité de la variance,

nous effectuons une régression linéaire des valeurs absolues des résidus sur les valeurs

prédites. Cela nous permet de vérifier que les résidus ne présentent pas de tendance

particulière.

1.2 1.4 1.6 1.8

-0.0

8-0

.06

-0.0

4-0

.02

0.0

00

.02

0.0

40

.06

Predicted values

Re

sid

ua

ls

glm(SMR2 ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.exp ...

Residuals vs Fitted

1

15

9

36

0.010762 0.013878 0.775 0.452

0.004527 0.003340 1.356 0.198

0,8564

0,8154

La régression nous renvoie des p-valeurs des facteurs estimés supérieurs à 0,05, ce qui nous

ne permet pas de rejeter l’hypothèse de nullité de ces derniers. Nous pouvons donc retenir

l’hypothèse de l’homoscédasticité et l’homogénéité du modèle.

2. Modélisation à partir dé l’échantillon contenant

l’énsémblé dés pays étudiés

Nous appliquons le même processus que précédemment à l’ensemble de notre échantillon.

Il est maintenant composé de dix-neuf éléments. Les variables retenues par le processus de

sélection décrit précédemment sont les suivantes :


areas (%)]


Nous remarquons que nous ne retenons que deux variables explicatives parmi les quatre

variables retenues pour l’échantillon tronqué des données des pays d’Afrique

subsaharienne. Pour corroborer cette conclusion nous effectuons une régression simple sur

les quatre variables en question pour l’ensemble de l’échantillon. Cela revient donc à tester

le modèle (2).

37

Les résultats renvoyés par R sont les suivants :

-8.765e-01 2.115e-01 -4.144 0.000993

-4.314e-03 1.503e-03 -2.871 0.012331

3.938e-05 4.410e-05 -5.136 0.387068

2.474e-02 3.835e-03 6.450 1.52e-05

-4.726e-06 6.588e-06 -0.717 0.484936

Nous remarquons que pour les deux variables explicatives, l’indicateur des dépenses en

santé par personne (TEH) et celui du produit intérieur brut par individu (GNI), les p-valeurs

ne sont pas significatives. Donc l’hypothèse que leurs coefficients respectifs soient nuls ne

peut pas être rejetée. D’autant plus que le coefficient de détermination ajusté renvoyé

( ) est inférieur à celui renvoyé par la régression du modèle (4), que nous

verrons par la suite, et qui n’utilise pas les deux variables explicatives GNI et TEH. Cela

corrobore ainsi l’idée de ne pas retenir ces derniers dans la construction du modèle.


(4)

Sous les hypothèses classiques du modèle linéaire, La régression linéaire effectuée sous R

nous renvoie le résultat suivant :

-0,823984 0,156407 -5,268 7,65e-05

-0,004212 0,001354 -3,110 0,00673

0,023665 0,003025 7,824 7,39e-07

0,8564

0,8154

0,8474

0,8283

38

Les coefficients des deux variables aléatoires sont significatifs. Le coefficient de

détermination ajusté indique que 82,83% de la variabilité du rapport moyen de mortalité

est expliquée par le modèle. Nous constatons une amélioration de la qualité de

l’ajustement par rapport au modèle (2) .

Nous traçons les résidus en fonction des valeurs prédites , pour vérifier les hypothèses

que nous avons prises vis-à-vis des erreurs.

Figure 10

Nous remarquons d’après la Figure 10 que le nuage des résidus n’est pas réparti de manière

uniforme. D’autant plus que l’évolution de ces derniers en valeur absolue remet en question

l’hypothèse de l’homoscédasticité. Comme dans le paragraphe précédent, nous

appliquerons des transformations sur les variables expliquées pour stabiliser la variance. Nos

recherches montrent que l’ajustement s’améliore en mettant au cube la variable explicative

du taux d’urbanisation (UA). Le coefficient de détermination ajusté s’améliore et devient

alors .

Après plusieurs tests nous adoptons finalement le modèle suivant :

( )

(5)

Nous reprenons les mêmes hypothèses que précédemment.

0.2 0.3 0.4 0.5 0.6 0.7 0.8

-0.1

5-0

.10

-0.0

50

.00

0.0

50

.10

0.1

5

Fitted values

Re

sid

ua

ls

lm(Tx.homme ~ Population.living.in.urban.areas.... + life.expectancy)

Residuals vs Fitted

16

17

5

39

La régression effectuée sur le logiciel R renvoie les sorties suivantes :

-3,457 3,439e-01 -10,052 2,55e-08

-5,188e-07 1,304e-07 -3,978 0,00108

4,301e-02 4,859e-03 8,851 1,46e-07

Les coefficients sont toujours significatifs. Les signes des coefficients sont cohérents avec

ceux des coefficients du modèle précédent (4).

La déviance résiduelle du modèle est égale à , ce qui largement inférieur au

nombre de degrés de liberté résiduels (DLL=16). Nous n’avons donc pas de phénomène de

surdispersion. La déviance résiduelle ne représente que 12% de la déviance totale. Ainsi, 88%

de la variation totale de la fonction de vraisemblance est expliqué par notre modèle. Nous

avons donc une bonne qualité d’ajustement, mais elle est un peu moins bonne que celle du

modèle (3).

La fonction lien « log » apporte quelques améliorations sur les p-valeurs des variables

explicatives par rapport au modèle (4), mais la qualité d’ajustement reste moins bonne que

celle du modèle (3) qui est construit sur un échantillon tronqué des données des pays

d’Afrique subsaharienne.

Le test de normalité de Shapiro-Wilk sur les résidus renvoie une p-valeur de 0.818>0.05, ce

qui signifie que l’hypothèse nulle de la normalité des résidus n’est pas rejetée.

Comme pour le modèle précédent, nous testons l’hypothèse d’homoscédasticité des résidus

en observant l’évolution des résidus de la déviance en fonction des valeurs prédites .



AIC -43,6

40

Figure 11

La Figure 11 montre que la courbe rouge est presque écrasée sur l’axe des abscisses, effet de

l’application de la fonction lien « log ». Nous ne remarquons pas d’amélioration particulière

de l’homoscédasticité par rapport au modèle précédent.

Parallèlement avec ce que nous avons fait dans le paragraphe précédent pour corroborer

l’hypothèse de l’homoscédasticité et valider l’homogénéité de la variance, nous avons

effectué une régression linéaire des valeurs absolues des résidus sur les valeurs prédites. La

régression nous renvoie des p-valeurs des facteurs estimés supérieurs à 0,05, ce qui nous ne

permet pas de rejeter l’hypothèse de nullité de ces derniers. Nous pouvons donc retenir

l’hypothèse de l’homoscédasticité et l’homogénéité du modèle.

3. Interprétation des résultats des régressions

Les recherches effectuées précédemment sur les données des hommes ont permis de

retenir deux modèles. Un premier modèle, développé dans la partie 1 sur l’échantillon ne

contenant pas les données des pays d’Afrique Subsaharienne, est constitué de quatre

variables explicatives. Les quatre variables explicatives sont le pourcentage de la population

vivant en zone urbaine (UA), les dépenses en santé par personne (TEH), l’espérance de vie à

la naissance (LE) et enfin le produit intérieur brut par individu (GNI).

Comme nous pouvons le constater dans les sorties R de la régression du modèle (3), les

coefficients des variables TEH et LE ont un signe négatif. Sachant que la fonction lien est la

fonction inverse, un tel signe signifie que les écarts de mortalité sont décroissants avec

l’espérance de vie et les dépenses en santé par personne. Des dépenses moyennes élevées

-1.4 -1.2 -1.0 -0.8 -0.6 -0.4 -0.2

-0.1

0-0

.05

0.0

00

.05

0.1

00

.15

Predicted values

Re

sid

ua

ls

glm(Tx.homme ~ I(Population.living.in.urban.areas....^3) + life.expectancy)

Residuals vs Fitted

16

5

14

41

en santé par personne sont représentatives d’un bon système de santé et d’un accès aux

soins étendu à un large pourcentage de la population, ce qui implique des inégalités réduites

face à la mort. Une moyenne nationale très élevée de l’espérance de vie à la naissance

reflète des bonnes conditions de vie pour l’ensemble de la population du pays en question,

ce qui explique des écarts de mortalité moins prononcés entre les assurés et les personnes

non couvertes par une assurance.

Cela dit, les signes des coefficients des deux autres variables explicatives ne semblent pas

évidents à expliquer, car ils impliquent que plus le pays est urbanisé et riche, plus l’écart de

mortalité entre les assurés et la population exclue du système d’assurance sera important.

En d’autres termes, l’évolution de l’urbanisation et la croissance de la richesse nationale

creusent les inégalités face à la mort entre les individus. Nous ne pouvons certes conclure si

facilement sur l’effet pervers de la richesse d’un pays sur la mortalité des classes sociales les

moins favorisées, mais il est sûr que dans un modèle capitaliste et libéral, la croissance

économique n’est pas toujours accompagnée par l’évolution du bien être des plus pauvres.

Le deuxième modèle (5), développé sur l’ensemble des pays de notre échantillon, est

composé uniquement de deux indicateurs socio-économiques parmi les quatre retenus dans

le premier modèle (3). Puisque la fonction lien est le logarithme, nous pouvons conclure que

les signes des coefficients des variables explicatives (i.e. des indicateurs) du deuxième

modèle sont cohérents avec ceux du premier modèle, et impliquent ainsi les mêmes

conclusions.

B. Modélisation du rapport moyen Tx pour les femmes

entre 35 ans et 65 ans

1. Construction des modèles

Pour choisir les indicateurs qui serviront de variables explicatives à notre modèle, nous

procédons de la même manière que pour les hommes, en utilisant un algorithme qui élimine

par étape et de manière descendante les variables qui ne contribuent pas à la minimisation

du BIC.

Nous remarquons que le phénomène d’instabilité de la procédure de sélection observé chez les hommes est fortement atténué chez les femmes. La procédure appliquée sur l’échantillon englobant les données de tous les pays étudiés retient les mêmes variables que ceux de la procédure appliquée sur l’échantillon tronqué des données d’Afrique subsaharienne. Une étude de l’INSEE (Monteil & Robert-Bobée, 2005) indique que les différences d’espérance de vie selon les catégories sociales sont beaucoup plus fortes chez les hommes que chez les femmes, telle que si pour chaque catégorie sociale, les hommes et les femmes étaient soumis à chaque âge aux probabilités de décès observées au cours des

42

années 1991-1999, les hommes cadres vivraient 7 ans de plus que les ouvriers, alors que cet écart est de 3 ans entre femmes cadres et ouvrières. Nous pouvons supposer alors que la stabilité de la procédure de sélection des variables explicatives observée chez les femmes, doit être due au fait que la mortalité des femmes est beaucoup plus stable que celle des hommes. La procédure nous renvoie comme variables à utiliser les indicateurs suivants :


areas (%)]

Indice de développement humain [IDH: HDI value]


$)]


gouvernementales totales [GEH :General government expenditure on health as a


Nous remarquons que les variables proposées par la procédure sont différentes de celles

proposées pour les hommes. En effet, nous ne retrouvons que trois indicateurs en commun

sur cinq. Cela corrobore l’idée que la mortalité chez les femmes se comporte différemment

que chez les hommes.


(6)

Avec pour hypothèses ( ) ( ) ( )

Nous procédons à la régression par la fonction « lm » du logiciel R, et cette dernière nous

renvoie les sorties suivantes :

-7,059e-01 1,754e-01 -4,025 0,00125

-6,063e-03 2,192e-03 -2,766 0,01516

2,491 3,537e-01 7,045 5,82e-06

-1,117e-05 5,056e-06 -2,209 0,04431

1,361e-02 5,631e-03 2,417 0,02989

0,8922

0,8614

43

Les coefficients sont significatifs. Les signes des coefficients des variables utilisées

précédemment (taux d’urbanisation et produit intérieur brut) sont cohérents avec les

résultats des régressions effectuées précédemment. L’indicateur des dépenses

gouvernementales en santé en pourcentage des dépenses gouvernementales totales (GEH) a

un signe positif. Cela implique que plus le gouvernement dépense en santé, moins nous

observerons des écarts entre la population assurée et celle non assurée. Cela peut être

expliqué par l’idée que plus les dépenses gouvernementales en santé sont importantes, plus

la part des frais de santé à la charge du citoyen est réduite. Le coefficient de l’indice du

développement humain est positif, ce qui est cohérent avec l’analyse faite dans la partie II.B

de l’impact de ce dernier sur les écarts de mortalité.

Le coefficient de détermination ajusté indique que 86,14% de la variabilité du rapport

moyen de mortalité est expliquée par le modèle. Nous avons ainsi une bonne qualité

d’ajustement.

Le test de normalité de Shapiro-Wilk sur les résidus renvoie une p-valeur de 0.76 > 0.05, ce

qui signifie que l’hypothèse nulle de la normalité des résidus n’est pas rejetée.

Figure 12

Les points représentant les valeurs des résidus en fonction des valeurs (Figure 12) ajustées

oscillent autour de l’axe des abscisses, ce qui montre que nous n’avons pas de tendance

particulière, ce qui corrobore l’hypothèse de l’homoscédasticité.

Cependant, la p-valeurs des dépenses gouvernementales en santé ( ( )

) et celle de produit intérieur brut ( ( ) ) sont proches de 0,05,

valeur choisie comme seuil pour déterminer la non significativité du coefficient. Cela

0.0 0.2 0.4 0.6 0.8 1.0

-0.2

-0.1

0.0

0.1

0.2

Fitted values

Re

sid

ua

ls

lm(Tx.femme ~ Population.living.in.urban.areas.... + IDH + Gross.national.i ...

Residuals vs Fitted

6

19

1

44

implique que l’estimation des coefficients de ces derniers risque d’être caractérisée par une

grande volatilité, ce qui n’est pas souhaitable dans le cas de la construction d’un modèle de

prédiction. La faible significativité des p-valeurs de certains indicateurs, associée au nombre

important des variables explicatives vis-à-vis de la taille réduite de l’échantillon nous a

poussé à penser que le modèle (6) risque d’avoir une mauvaise qualité de prédiction malgré

la bonne qualité de l’ajustement.

Nous avons donc développé un second modèle. L’objectif était de réduire le nombre des

variables explicatives et améliorer éventuellement la qualité de prédiction, sans détériorer

significativement la qualité de l’ajustement (mesurée par le coefficient de détermination

ajusté). Nous avons procédé par étapes en éliminant l’indicateur qui a la plus forte p-valeur

à chaque étape, et nos recherches nous ont menés finalement au modèle suivant :

(7)

La régression nous renvoie les sorties suivantes :

-4,709e-01 1,217e-01 -3,871 0,00135

-5,076e-05 1,900e-05 -2,671 0,01672

1,929 2,558e-01 7,542 1,18e-06

Nous avons donc, avec seulement deux variables explicatives, 82,59% de la variabilité du

taux moyen Tx qui est expliquée par le modèle (7) contre 86,14% pour le modèle (6) qui

utilise 4 variables. La p-valeur du test de normalité de Shapiro-Wilk sur les résidus se

détériore à 0.29, mais elle reste supérieure au seuil de 0,05.

0,8452

0,8259

45

Figure 13

Les valeurs des résidus en fonction des valeurs ajustées (Figure 13) sont réparties de manière

plus uniforme que dans le modèle précédent, ce qui signifie une amélioration de

l’homoscédasticité. Nos recherches montrent que les modèles linéaires généralisés

n’apportent pas d’amélioration significative en terme de qualité d’ajustement et

d’homoscédasticité.

2. Interprétation des résultats des régressions

Contrairement au cas des hommes, le processus de sélection des variables explicatives

donnait le même résultat quelque soient les pays contenus dans l’échantillon. L’étude sur

l’échantillon des femmes a conduit, dans un premier temps, à construire un modèle

constitué de quatre variables explicatives. Seulement deux indicateurs socio-économiques

parmi les quatre retenus sont communs avec ceux retenus dans le modèle prédictif pour les

hommes. Il s’agit du pourcentage de la population vivant en zone urbaine (UA), ainsi que du

produit intérieur brut (GNI). Les résultats de la régression linéaire simple donnent des signes

négatifs aux coefficients de ces deux indicateurs. Cela est cohérent avec les conclusions sur

l’impact de ces derniers sur les écarts de mortalité. Les deux autres indicateurs retenus

comme variables explicatives sont l’indice de développement humain (IDH) et l’indicateur

des dépenses gouvernementales en santé en pourcentage des dépenses gouvernementales

totales (GEH). Les signes des coefficients sont positifs, ce qui indique un effet positif de l’IDH

et du GEH sur la réduction des écarts de mortalité entre les assurés et la population

générale. Ce résultat s’accorde avec l’analyse préalable que nous avons effectuée sur les

indicateurs dans la partie II.B. Nous avons remarqué que pour certains indicateurs, la

0.0 0.2 0.4 0.6 0.8 1.0

-0.2

-0.1

0.0

0.1

0.2

Fitted values

Re

sid

ua

ls

lm(Tx.femme ~ I(Population.living.in.urban.areas....^2) + IDH)

Residuals vs Fitted

18

6

14

46

significativité des p-valeurs était relativement faible. Nous avons donc essayé de réduire le

nombre de variables explicatives en prenant un sous ensemble. Nous avons donc deux

modèles que nous confronterons dans la suite de ce document pour choisir celui qui

présente la meilleure qualité de prédiction.

Pour chacun des deux sexes, nous avons developpé deux modèles. Pour les hommes, le

résultat du processus de selection des variables explicatives variait significativement en

fonction de l’échantillon d’apprentissage utilisé. Nous avons observé que pour celui ne

contenant pas les données des pays d’Afrique subsaharienne, le processus de sélection

retenait quatre indicateurs socio-économiques comme variables explicatives. Tandis qu’en

prenant les données de tous les pays étudiés, seulement deux indicateurs parmi les quatre

sont retenus. Cela nous a conduit à developper deux modèles distincts pour les hommes. En

ce qui concerne la mortalité des femmes, le processus de sélection des variables était plus

stable. Un premier modèle a été construit sur les données de tous les pays étudiés. Ce

dernier était composé de quatre variables explicatives. Cependant la faible significativité des

coefficients de certaines variables nous a conduit à développer un sous-modèle, qui pourra

présenter une meilleure qualité de prédiction sans détériorer significativement la qualité

d’ajustement.

Les tests effectués précédement sur les modèles développés, se basaient principalement sur

la qualité d’ajustement, en calculant le coefficient de détermination ajusté. Les modèles ont

pour principal objectif de prédire les taux d’abattements à appliquer sur la mortalité

nationale pour avoir une estimation de celle des assurés. Pour retenir un modèle, il faudra

donc tester la qualité de prédiction et choisir celui qui offre le meilleur compromis avec la

qualité d’ajustement.

Dans la suite de ce document, nous présentons les différentes mesures et techniques

utilisées pour tester la qualité de prédiction. Nous retiendrons ensuite un seul modèle pour

chaque sexe, et nous utiliserons ces derniers dans un contexte de tarification, en proposant

des simplifications des formules prédictives et en précisant les mesures de précaution a

prendre en fonction des simplifications adoptées.

47

VI. Tests de la qualité de prédiction et choix des modèles

Dans cette partie, nous présentons un ensemble de mesures et techniques proposées dans

la littérature pour tester la qualité de prédiction. Nous détaillerons celle que nous avons

retenue pour notre étude en justifiant l’intérêt de notre choix. Nous testerons ensuite la

qualité de prédiction sur les modèles développés pour les deux sexes, pour retenir celui qui

est le plus adapté à un contexte de prédiction.

A. Uné prémièré éstimation dé l’érréur dé prédiction

Dans la suite de ce document, nous retenons les notations utilisées par Efron B. et Tibshirani

R. (1997) et qui sont les suivantes :

Soit un modèle prédictif, la variable à expliquer, et ( ) un échantillon de

taille n, avec [ ] ( ) représente le vecteur des variables explicatives.

Nous notons la distribution d’où sont issues les observations ( ), qui sont

identiquement et indépendamment distribuées.

Nous désignons par [ ] la distance entre la valeur prédite par le modèle et la vraie

valeur . Nous notons aussi par ( ) [ ( )] la distance calculée au point de

test ( ) pour la fonction de prédiction qui est construite sur l’échantillon

d’apprentissage . L’erreur de prédiction est alors la grandeur définie par :

( ) ( ( )) [ ( )]

Avec désignant l’espérance où ( ) est la seule variable aléatoire, et et

sont fixes.

La qualité de l’ajustement peut être mesurée par la grandeur définie par :

∑ [ ( )]

Cette mesure d’erreur est appelée par l’erreur moyenne apparente (Efron & Tibshirani,

1997). C’est une estimation de l’erreur de prédiction biaisée par optimisme, car le même

échantillon est utilisé pour la construction du modèle prédictif et pour son test. Elle nous

donne donc une bonne information sur la qualité de l’ajustement, mais une mauvaise

estimation de la qualité de prédiction.

48

Ainsi, pour éviter ce problème dans le cadre de la construction d’un modèle prédictif, nous

devons disposer idéalement de suffisamment de données pour pouvoir les séparer en deux

échantillons distincts. Un premier échantillon, souvent appelé dans la littérature

« échantillon d’apprentissage », servira pour construire le modèle et estimer les coefficients

des variables explicatives. Et un second échantillon, nommé « échantillon de validation »,

servira ensuite pour tester la qualité de prédiction, par le calcul de la distance entre les

valeurs prédites et celles réellement observées. L’erreur quadratique est usuellement

utilisée comme mesure de distance dans ce cas.

Quand la taille de l’échantillon collecté est réduite, la technique de la validation croisée reste

un principe simple et largement utilisé pour estimer l’erreur de prédiction moyenne,

moyennant un surplus de calcul. L’idée est d’extraire successivement plusieurs petits

échantillons de validation à partir de l’échantillon initial, et de calculer ensuite l’erreur de

prédiction moyenne. C’est indispensable pour réduire la variance et ainsi améliorer la

précision lorsque la taille de l’échantillon initial est trop réduite pour en extraire des

échantillons de validation et test de taille suffisante. L’algorithme de la validation croisée est

le suivant :

Découper aléatoirement l’échantillon en parties distinctes de tailles K, selon une loi

uniforme.

Pour chaque partie i

o Mettre de côté la partie i

o Estimer les paramètres du modèle sur les parties restantes,

o Calculer l’erreur de prédiction sur la partie i qui n’a pas servi dans

l’estimation du modèle.

Calculer la moyenne des erreurs pour avoir l’estimation de l’erreur de prédiction par

validation croisée.

Le choix de K est couramment celui de 10, par défaut dans la plupart des logiciels de

statistique, et il est recommandé de le prendre entre 5 et 15. La validation croisée a été

introduite historiquement par Stone (Stone, 1974), avec K=1. Sachant que la taille de notre

échantillon est réduite, et que le nombre des variables explicatives des modèles est

important, nous avons décidé d’adopter ce choix connu dans la littérature sous les noms

Anglo-Saxon Jackknife et leave-one-out. Ainsi, l’estimation de l’erreur moyenne de

prédiction par validation croisée est alors :

( )

∑ [ ( )( )]

∑ ( ( ))

Avec ( ) représentant l’échantillon tronqué du élément. La mesure ( ) est un

estimateur presque non biaisé (Efron & Tibshirani, 1997). Cependant, pour les modèles

estimés à chaque étape du processus de la validation croisée, chaque couple partage n-2

éléments de l’échantillon initial. Cela implique une forte dépendance entre les modèles ce

49

qui accroît la variance de l’erreur ( ). Les auteurs de l’article (Efron & Tibshirani, 1997)

proposent une amélioration en faisant appel à la technique du Bootstrap.

B. L’amélioration par Bootstrap : L’éstimatéur .632+

Le Bootstrap est une méthode qui consiste à générer plusieurs échantillons en procédant à

un ré-échantillonnage avec remise. Cette technique s’inscrit dans l’idée d’approcher, par

simulation, la distribution d’un estimateur lorsque nous ignorons la loi de l’échantillon

(notée ) ou plus souvent quand nous ne pouvons pas retenir l’hypothèse qu’elle est

gaussienne. L’objectif est de substituer la distribution inconnue , dont est issue

l’échantillon d’apprentissage, par la distribution empirique qui donne à chaque réalisation

un poids égal à ⁄ .

Pour comprendre le principe qui a conduit à l’utilisation du « bootstrap » dans notre

contexte, nous reprenons l’ensemble des étapes du raisonnement présenté dans l’article

d’Efron B. Tibshirani R. (1997).

Nous supposons ( ) un estimateur sans biais, construit à partir de l’échantillon , d’un

paramètre que nous notons . Donc par définition nous avons l’égalité suivante :

( ( ))

Nous supposons que nous avons généré échantillons à partir de l’échantillon initial,

par Bootstrap, que nous notons { }

. Nous indiquons par une étoile chaque échantillon

généré, où (

). L’estimateur non-paramétrique de ( ( )), avec

remplacement de par , est alors :

( ( ))

∑ (

)

L’estimateur du paramètre peut être biaisé, mais il est caractérisé par une faible variance

puisque c’est une version lissée de ( ).

Nous posons pour chaque [ ], ( ) ( ( )), avec fixée et ( ) l’échantillon

dont nous avons enlevé la réalisation i. Nous notons ( ) l’échantillon Bootstrap généré à

partir de ( ) et ( ) la distribution empirique donnant une probabilité

à chaque

éléments de ( ) ( ). Ainsi, avec le même raisonnement que

précédemment, l’estimateur non-paramétrique de ( ( ( ))) est alors :

50

( ) ( ( ( ) ))

∑ ( ( )

)

En appliquant cette estimation d’erreur à chaque point de notre échantillon, nous avons

alors l’estimation de l’erreur de prédiction moyenne appelée par leave-one-out

bootstap (Efron & Tibshirani, 1997), et qui s’exprime ainsi :

( )

∑ ( ) ( ( ( )

))

∑∑ ( ( )

)

L’estimateur ( ) est en quelque sorte une version lissée par « Bootstrap » de l’estimateur

par validation croisée ( ). Il présente donc une variance beaucoup moins importante.

Cependant cette réduction de la variance par lissage induit un biais comme nous allons le

voir dans la partie suivante. Pour corriger cela, Efron (Efron, 1983) propose

l’estimateur ( ), qui compense l’excès de pessimisme de l’estimateur ( ) par

l’excès d’optimisme de l’erreur moyenne apparente avec la combinaison linéaire

suivante :

( ) ( )

L’argument présenté pour justifier la valeur des coefficients est que pour un échantillon de

taille n, les données générées par Bootstrap sont supportées approximativement par

éléments de l’échantillon initial. En effet, la probabilité pour qu’un élément i ne soit pas

choisi à l’emplacement j dans un échantillon Bootstrap (i.e. ) est égale à :

( )

Ainsi la probabilité pour que l’élément i ne soit pas choisi est alors

( ) (

)

Donc la probabilité que l’élément i soit choisi est alors

( ) (

)

L’estimateur ( )

, appelé sous le nom de l’estimateur .632, présente un bon compromis

entre biais et variance. Cependant, cet estimateur pose des problèmes en cas de sur-

ajustement (cas où ), où il présente un excès d’optimisme. Les auteurs (Efron &

Tibshirani, 1997) proposent alors un rectificatif complémentaire noté .632+, qui met un

poids plus important sur ( ) dans le cas où nous avons un sur-ajustement important.

Puisque notre échantillon est composé d’un nombre de réalisations limité, et que pour

certains modèles nous avons jusqu'à quatre variables explicatives pour seulement dix neuf

51

réalisations, nous pourrions donc être confrontés aux problèmes de sur-ajustement. Nous

avons donc retenu l’estimateur .632+ pour choisir le meilleur modèle prédictif pour chacun

des deux sexes.

Pour avoir une mesure du sur-ajustement, Efron B. et Tibshirani R. définissent dans un

premier temps l’erreur moyenne de la non-information, notée , qui représente l’erreur

dans le cas où le modèle n’apporte pas d’information sur les variables à prédire (i.e. les

variables expliquées { } et les variables explicatives { } sont indépendantes).

En notant la loi marginale commune à et à dans le cas où les deux variables sont

indépendantes, l’expression de est la suivante :

( [ ( )])

Où est l’espérance selon la loi et seul est variable. En notant l’estimateur de , nous

pouvons estimer par la permutation des et des tel que :

∑∑ [ ( )]

Le taux de sur-ajustement relatif, noté , est alors défini par l’égalité

( )

La quantité varie entre 0, quand il n’y a pas de sur-ajustement, et 1, quand le sur-ajustement

mesuré par l’écart ( ) est égal à l’écart , qui représente l’erreur due uniquement à

la partie non expliquée par le modèle prédictif. Il se peut, dans certains cas, que se retrouve en

dehors de l’intervalle [0,1], et les auteurs proposent alors des ajustements dans la formule de .

Dans le cadre de notre étude, nous ne rencontrons pas ce phénomène.

L’estimateur .632+ noté ( )

, est alors construit à partir de la combinaison linéaire

suivante :

( ) ( ) ( )

Avec le facteur permettant d’ajuster le poids de ( ) dans le cas d’un sur-ajustement

important tel que :

Ainsi, ( ) varie entre ( ), quand il n’y a pas de phénomène de sur-ajustement

( ), et entre ( )le taux de sur-ajustement atteint sa valeur maximale de 1.

L’estimateur .632+ présente donc le meilleur compromis entre biais et variance, et entre

l’excès du pessimisme de l’estimateur ( )et l’excès d’optimisme de l’erreur moyenne

apparente , tout en prenant en compte le phénomène de sur-ajustement. Dans la partie

52

qui suit, nous allons choisir les modèles présentant les plus petites valeurs de l’erreur de

prédiction estimée par ( ).

C. Application dé l’éstimatéur .632+ et choix du modèle

1. Choix du modèle prédictif pour les hommes

Nous rappelons dans un premier temps les deux modèles retenus pour les hommes.

(3)

( )

(5)

Le modèle (3) est développé principalement sur l’échantillon tronqué des données des pays

d’Afrique Subsaharienne. Avant de procéder aux comparaisons des erreurs de prédiction

des deux modèles, nous testons dans un premier temps la significativité du modèle (3) sur

l’échantillon contenant les données du Mali, du Togo, de la Côte d’Ivoire et du Kenya.

Nous obtenons les résultats suivants :

5,843 4,230e-01 13,813 1,51e-09

7,374e-05 1,568e-05 4,702 0,000340

-3,610e-04 6,902e-05 -5,230 0,000127

-9,304e-04 9,095e-05 -10,230 7,04e-08

6,864e-05 1,222e-05 5,616 6,37e-05



AIC -57,058

53

Tous les coefficients ont des p-valeurs très significatives. Le modèle (3) peut donc être

considéré comme un très bon candidat pour un modèle prédictif pour tous les pays.

Cependant, il est constitué de deux fois plus de variables explicatives par rapport au modèle

(5). Le modèle (3) aura certes une meilleure qualité d’ajustement que celle du modèle (5),

mais cela n’implique pas une meilleure capacité prédictive. Pour arbitrer entre les deux

modèles nous donnons dans le tableau qui suit les valeurs des différents estimateurs que

nous avons décrits précédemment. Pour le calcul de l’estimateur ( ), nous nous sommes

contentés de cinquante simulations de Bootstrap car nous n’avons pas observé

d’amélioration significative au-delà de ce nombre, d’autant plus qu’Efron et Tibshirani

indiquent que cela suffit dans un contexte d’estimateur d’erreur de prédiction.

Modèle ( ) ( ) ( )

Modèle (3) 0,00154 0,04523 0,00430 0,00355 0,00331

Modèle (5) 0,00387 0,04193 0,00622 0,00543 0,00538

Tableau 3 : Comparaison des estimations de l'erreur moyenne de prédiction pour les modèles des hommes

Comme nous l’avons précisé précédemment, nous remarquons que l’erreur moyenne

d’ajustement ( ) du modèle (3) est nettement inférieure à celle du modèle (5) (Tableau 3).

Nous avons donc bien une meilleure qualité d’ajustement, ce qui est cohérent puisque le

modèle (3) est constitué de plus de variables explicatives par rapport au modèle (5). Le taux

d’ajustement relatif ( ) du premier modèle est quant à lui légèrement supérieur à celui du

deuxième modèle. Mais ce taux reste très inférieur à 1 pour les deux modèles, ce qui nous

indique que le phénomène de sur-ajustement est très modéré. Cela explique que l’écart

entre les deux estimateurs, .632 et .632+, soit très petit pour les deux modèles. Nous

observons aussi l’excès du pessimisme de l’estimateur ( ), ainsi que l’excès d’optimisme

de . L’estimation de l’erreur moyenne de prédiction par la méthode .632+ nous indique que le

modèle (3) présente la meilleure qualité de prédiction. Nous retenons donc ce dernier, et nous

l’utiliserons par la suite dans un contexte de tarification.

54

2. Choix du modèle prédictif pour les femmes

Les recherches effectuées sur l’échantillon des femmes nous ont conduit à développer deux

modèles qui sont les suivants :

(6)

(7)

Le Tableau 4: Comparaison des estimations de l'erreur moyenne de prédiction pour les modèles des

femmes résume l’ensemble des résultats des calculs des différents estimateurs que nous

avons décrits précédemment.

Modèle ( ) ( ) ( )

Modèle (6) 0,00864 0,14477 0,03102 0,00616 0,02358

Modèle (7) 0,01409 0,08734 0,02753 0,00919 0,02287

Tableau 4: Comparaison des estimations de l'erreur moyenne de prédiction pour les modèles des femmes

Nous remarquons que le modèle réduit (i.e. modèle (7)) a une erreur apparente moyenne

(ou erreur d’ajustement ( ) ) plus grande que celle du modèle (6). L’ordre s’inverse

quand il s’agit du taux du sur-ajustement relatif, ce qui est cohérent vu que le modèle (7) est

un sous-modèle du (6). Les estimateurs de l’erreur moyenne de prédiction ( ) et

( ) montrent des écarts significatifs en faveur du modèle (6), qui est constitué de

quatre variables explicatives. Cependant, quand le sur-ajustement est pris en compte,

l’écart devient beaucoup moins significatif comme nous pouvons le constater pour les

valeurs de l’estimateur ( ). Vu la simplicité du modèle (7), et l’écart peu significatif en

matière de qualité de prédiction avec le modèle plus complexe, nous allons donc retenir ce

dernier pour l’appliquer dans un contexte de tarification.

55

VII. Utilisation des modèles prédictifs dans l’éstimation du risqué dé mortalité des assurés

Dans ce qui précède, nous avons développé des modèles prédictifs qui donnent les taux à

appliquer sur les tables de mortalité nationale afin d’approcher la mortalité des assurés.

Pour chacun des deux sexes, nous avons retenu le modèle qui présentait le meilleur

compromis entre simplicité et qualité prédictive.

Pour rappel, le modèle retenu pour les hommes est le suivant :

Tandis que le modèle retenue pour les femmes est le suivant :

Les variables explicatives sont les indicateurs suivants :

UA : Pourcentage de la population vivant en zone urbaine

TEH: Dépenses totales en santé par personne

LE : Espérance de vie à la naissance

GNI : Produit intérieur brut par habitant

IDH : Indice de développement humain

Dans un contexte de tarification et d’estimation du risque de mortalité, utiliser ces deux

derniers modèles implique avoir les valeurs des indicateurs socio-économiques. Les

informations sur ces indicateurs sont publiques et facilement accessibles sur internet via des

sites web comme celui de la P.N.U.D. ou de l’O.M.S. par exemple. Il faut aussi s’assurer que

les valeurs des indicateurs sont issues de l’année la plus proche de celle de la table de

mortalité nationale sur laquelle l’abattement sera appliqué. Les deux modèles ne donnent

pas les taux d’abattements exacts puisqu’il y a toujours des incertitudes dans la prédiction. Il

faudra donc déterminer une marge d’incertitude des modèles. Toutes ces précautions

rendent les modèles difficiles à utiliser dans un contexte de tarification, surtout si

l’utilisateur n’a pas un profil technique. Pour que l’usage des modèles prédictifs soit plus

facile, nous allons dans un premier temps donner la meilleure estimation des paramètres,

ainsi que des intervalles de confiance non paramétriques. Puis, dans un deuxième temps,

nous allons donner les taux d’abattements maximums qui peuvent être appliqués sur un

ensemble de pays beaucoup plus large, tout en gardant une approche prudente vis-à-vis du

risque décès.

Notre échantillon n’est constitué que de dix-neuf réalisations, et la loi de notre échantillon

n’est pas forcément la loi normale. Nous avons donc préféré les méthodes non-

56

paramétriques, en utilisant la technique du ré-échantillonnage (i.e. la technique du

Bootstrap), afin de calculer les intervalles de confiance et avoir une meilleure estimation des

paramètres. L’amélioration de l’estimation des paramètres par ré-échantillonnage se base

sur le même raisonnement que celui présenté dans (Breiman, 1996) sur l’amélioration de la

prédiction. Il suffit de remplacer la fonction de prédiction par l’estimateur ( ) construit

sur l’échantillon du paramètre . Concernant l’intervalle de confiance des prédictions,

nous le calculons en ayant par Bootstrap un nombre important de valeurs prédites pour

chaque élément de l’échantillon, puis en prenant les quantiles.

A. Estimation des paramètres des modèles par Bootstrap

Dans cette partie, l’idée principale est de générer plusieurs échantillons Bootstrap (B

simulations), que nous notons comme précédemment { } , puis pour chaque échantillon

nous estimons les paramètres. Nous avons donc B estimations pour chaque paramètre.

Nous calculons ensuite la moyenne arithmétique des estimations pour chaque paramètre.

Pour justifier l’amélioration de l’estimation des paramètres par ré-échantillonnage, nous

reprenons le raisonnement de Breiman sur la technique qu’il nomme Bagging.

Soit l’échantillon d’apprentissage, et ( ) l’estimateur du paramètre construit sur

l’échantillon . Nous supposons que nous avons une séquence de échantillons

d’apprentissage { } . Pour une fonction de prédiction , Breiman propose la fonction de

prédiction agrégée . Nous proposons alors par analogie l’estimateur agrégé tel que

[ ( )]

Où indique que seul l’échantillon varie.

Cependant, nous disposons rarement de plusieurs échantillons indépendants et issus d’une

même distribution. La technique du Bootstrap appliquée sur notre échantillon, et répétée

plusieurs fois, permet d’avoir une imitation des réplicas de l’échantillon d’apprentissage.

Nous supposons que nous avons généré une séquence de échantillons par Bootstrap et

nous la notons { } . Les réplicas générés ont approximativement la même distribution que

celle de l’échantillon initial. Nous estimons ensuite par :

∑( ( ))

L’auteur (Breiman, 1996) indique que cette méthode garantit une bonne amélioration de la

précision de prédiction uniquement quand la loi de prédiction est instable. En d’autres

termes, nous observons une amélioration quand un faible changement dans l’échantillon

impacte significativement les résultats de la prédiction. L’amélioration apportée par la

57

technique du Bagging sur l’estimation des paramètres peut être justifiée par la

démonstration suivante :

Nous reprenons les notations utilisées précédemment. Nous avons alors l’égalité suivante :

[( ( )) ] [ ( )] [

( )]

Sachant que [ ( )] et que d’après l’inégalité de Jensen nous avons

[ ( )] ( [ ( )])

Nous obtenons

[( ( )) ] ( )

En intégrant ensuite les deux éléments de l’inégalité précédente par rapport à la loi de

Nous retrouvons l’inégalité suivante :

[ [( ( )) ]] [( )

]

Par inversion des intégrales nous avons alors

[ [( ( )) ]] [( )

]

Ainsi, nous montrons que l’erreur quadratique moyenne de l’estimateur agrégé est

inférieure à la moyenne calculée sur les séquences des échantillons des erreurs quadratiques

moyennes des estimateurs classiques. L’écart dépend principalement de

l’inégalité [ ( )] ( [ ( )])

, qui sera plus marquée pour les modèles sensibles aux

variations dans . Dans les tableaux qui suivent, nous donnons pour chacun des deux sexes,

les estimations Bootstrap des paramètres des modèles prédictifs pour différentes valeurs de

B. Le cas B=0 représente l’estimation des paramètres par une régression sur l’échantillon

initial.

Tableau 5: Estimations des paramètres du modèle des hommes

58

Tableau 6: Estimations des paramètres du modèle des femmes

Nous remarquons que les estimations convergent vers des valeurs précises à partir de 2 000

simulations. Nous retenons donc les dernières valeurs que nous considérons comme la

meilleure estimation des paramètres.

Le modèle prédictif des hommes s’écrit alors :

Et le modèle prédictif des femmes est alors le suivant :

B. Intervalles de confiances et Marge de prudence des

modèles

Les modèles développés précédemment présentent quelques incertitudes de prédiction.

Pour que l’utilisateur de ces derniers puisse avoir une approche prudente vis-à-vis du risque

décès, il faudra que nous fournissions des marges d’incertitude. Pour cela, nous calculons les

intervalles de confiance à différents niveaux pour chaque modèle. Nous considérerons

ensuite comme marge de prudence l’écart moyen entre les valeurs réelles des taux

d’abattement et les bornes supérieures de l’intervalle de confiance.

Pour le calcul de l’intervalle de confiance par ré-échantillonnage, nous avons suivi le

processus suivant :

Pour chaque pays i, nous tronquons l’échantillon initial de ses données et nous

notons le nouvel échantillon .

A partir de , nous générons par ré-échantillonnage avec remise B

échantillons { }

.

Nous estimons ensuite les paramètres de la fonction de prédiction pour chaque ,

puis nous calculons les prédictions pour le pays i .

Nous avons donc pour chaque pays i, un vecteur de B prédictions. Il suffit alors de

prendre les quantiles pour avoir les bornes supérieures et inférieures de l’intervalle

de confiance.

Nous appliquons ce processus sur les deux modèles retenus en choisissant B=1 000.

59

Pour un pays i, la borne supérieure d’un intervalle de confiance à 95% indique le seuil sous

lequel se retrouvera la valeur réelle du taux d’abattement (i.e. la valeur du rapport des taux

de mortalité) avec une probabilité de 95%. Nous déterminons donc la marge de prudence

comme étant l’écart moyen observé en valeur absolue entre les valeurs réelles et les bornes

supérieures.

Chez les hommes, cet écart moyen s’élève à . Et chez les femmes il est égal à 13,5%.

Nous incluons donc par additivité dans le modèle des hommes et celui des femmes les

marges de prudence respectives.

Le fait que la marge de prudence soit plus importante chez les femmes est cohérent avec

nos attentes. En effet, la régression linéaire qui a servi à la construction du modèle de

prédiction pour les femmes a donné des p-valeurs moins significatives que ceux des modèles

des hommes. Cela se traduit par une variance plus importante dans l’estimation du

coefficient de cet indice, chose qui induit une plus grande incertitude dans la prédiction.

Les graphiques qui suivent représentent pour chacun des deux sexes les valeurs réelles, les

valeurs prédites par le modèle et la marge de prudence.

Figure 14: Valeurs réelles chez les hommes, valeur prédites par le modèle et marge de prudence

0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

70,0%

80,0%

90,0%

100,0%

Tx homme modèle + marge d'incertitude modèle

60

Figure 15: Valeurs réelles chez les femmes, valeur prédites par le modèle et marge de prudence

Nous remarquons d’après les figures qui précèdent que le modèle prédictif des femmes est

beaucoup moins bon que celui des hommes. Il est caractérisé par une plus forte volatilité

des prédictions. Cela corrobore l’analyse faite précédemment sur les marges de prudence.

Les modèles prédictifs, corrigés par la marge de prudence, sont moins pertinents pour les

pays dont certains indicateurs socio-économiques présentent des valeurs extrêmes. Pour

limiter les effets de ces valeurs inhabituelles, nous intégrons des limitations telles que la

valeur minimale des rapports de mortalité ne descend pas en dessous de 15% (valeur

minimale observée), et que la valeur maximale ne dépasse pas 100%.

Le modèle prédictif pour les hommes devient alors :

[ ( ( ) )]

Avec

( )

0,0%

10,0%

20,0%

30,0%

40,0%

50,0%

60,0%

70,0%

80,0%

90,0%

100,0%

Tx Femme modèle + marge d'incertitude modèle

61

Et le modèle prédictif pour les femmes devient :

[ ( ( ) )]

Avec

( )

Les modèles prédictifs développés, surtout celui des hommes, restent très pertinents dans

un contexte de tarification et de prédiction du niveau de décès des assurés. Dans la partie

suivante, nous proposons une cartographie du monde en fonction du rapport entre la

mortalité des assurés et celle de la population générale. Cela permettra d’avoir une

première approximation du taux à appliquer sur le niveau de mortalité national pour avoir

celui des assurés.

C. Cartographie du monde en fonction du rapport entre la

mortalité des assurés et celle de la population générale

Pour pouvoir proposer une cartographie du monde en fonction du rapport des taux de

mortalité, nous calculons pour chacun des deux sexes le rapport des taux en utilisant les

modèles prédictifs sur plusieurs pays. Pour des fins de simplicité et de pragmatisme, nous

regroupons les pays en six classes, en fonction du taux prédit par le modèle. Nous donnons

dans les deux tableaux suivants la répartition des pays sur les six classes pour les deux sexes.

Il faut noter que l’élaboration de la cartographie a révélé que les modèles prédictifs sont

moins pertinents quand nous les appliquons sur des pays très particuliers (voir en annexe le

cas du Luxembourg chez les hommes). Nous remarquons que la répartition des pays varie

significativement entre les deux sexes. En effet, chez les hommes, la majorité des pays se

retrouve dans les classes ayant un taux compris entre 45% et 75%. Tandis que chez les

femmes, une grande partie des pays se retrouve dans les classes ayant un taux supérieur à

75%. Cette observation corrobore l’hypothèse que la mortalité des femmes est beaucoup

plus stable que celle des hommes, puisque ces taux prédits par les modèles, représentent

une estimation du rapport entre la mortalité des assurés et celle de la population générale.

62

Tableau 7: Répartition des pays en fonction des taux prédit par le modèle chez les hommes

30% 45% 60% 75% 90% 100%

Angola Benin Armenia Algeria Albania Bosnia

Equatorial Guinea Botswana Azerbaijan Antigua and Australia Costa Rica

Burkina Faso Bangladesh Argentina Austria Greece

Burundi Belarus Belgium Canada Iceland

Cameroon Bhutan Belize Chile Italy

Central African Bolivia Brazil Colombia Maldives

Chad Cambodia Bulgaria France New Zealand

Congo Comoros Cape Verde Georgia Nicaragua

Côte d'Ivoire Denmark Croatia Japan Portugal

Congo Eritrea Czech Republic Panama Saint Lucia

Djibouti Estonia Dominica Paraguay Viet Nam

Ethiopia Ghana Dominican Republic Peru

Gabon Guyana Ecuador Serbia

Gambia Haiti Egypt Slovenia

Guinea India El Salvador Solomon Islands

Guinea-Bissau Indonesia Fiji Spain

Kazakhstan Kiribati Finland Tonga

Kenya Kyrgyzstan Germany Tunisia

Lesotho

Lao People's

Democratic Grenada

United States of

America

Liberia Latvia Guatemala

Malawi Lebanon Honduras

Mali Libyan Arab Hungary

Mozambique Lithuania Ireland

Niger Madagascar Israel

Nigeria Malaysia Jamaica

Russian Federation Mongolia Jordan

Rwanda Namibia Mauritius

Sao Tome and Nepal Mexico

Senegal Netherlands Micronesia

Sierra Leone Norway Montenegro

Singapore Pakistan Morocco

South Africa Papua New Guinea Philippines

Sudan Seychelles Poland

Swaziland Timor-Leste Republic of Korea

Togo Trinidad and Tobago Republic of

Turkmenistan Ukraine Romania

Uganda United Kingdom Samoa

Tanzania Venezuela Slovakia

Zambia Yemen Sri Lanka

Sweden

Switzerland

Syrian Arab

Republic

Tajikistan

Thailand

Turkey

Uruguay

Uzbekistan

Vanuatu

Taux applicable sur la table de mortalité nationale chez les hommes

63

Tableau 8: Répartition des pays en fonction des taux prédit par le modèle chez les femmes

30% 45% 60% 75% 90% 100%

Burkina Faso Afghanistan Bangladesh Bolivia Algeria Albania

Burundi Angola Cape Verde Botswana Argentina Australia

Central African

Republic Benin Comoros Brazil Armenia Austria

Chad Cameroon Congo Cambodia Bahamas Barbados

Djibouti Ethiopia Gabon Colombia Bahrain

Bosnia and

Herzegovina

Gambia Haiti Ghana Dominican Republic Belarus Brunei Darussalam

Guinea Malawi Iraq Equatorial Guinea Belgium Canada

Guinea-Bissau Mauritania Kenya Guatemala Belize Croatia

Liberia Nigeria Lesotho Honduras Bulgaria Cyprus

Mali Rwanda Madagascar India Chile Czech Republic

Mozambique

Sao Tome and

Principe Myanmar Indonesia China Korea

Niger Senegal Nepal Jordan Costa Rica Denmark

Sierra Leone Togo Pakistan Kuwait Cuba Estonia

Zimbabwe Zambia Papua New Guinea Lebanon Dominica Finland

Uganda Mongolia Ecuador France

Yemen Morocco Egypt Georgia

Nicaragua El Salvador Germany

Paraguay Fiji Greece

Philippines Guyana Hungary

Solomon Islands

Iran (Islamic

Republic of) Iceland

South Africa Kyrgyzstan Ireland

Suriname

Libyan Arab

Jamahiriya Israel

Swaziland Malaysia Italy

Syrian Arab

Republic Maldives Jamaica

Timor-Leste Malta Japan

Uruguay Mexico Kazakhstan

Viet Nam Micronesia Latvia

Namibia Lithuania

Oman Luxembourg

Palau Mauritius

Panama Montenegro

Peru Netherlands

Qatar New Zealand

Russian Federation Norway

Saudi Arabia Poland

Singapore Portugal

Tajikistan Romania

Tunisia Samoa

Turkey Serbia

Turkmenistan Seychelles

Ukraine Slovakia

Uzbekistan Slovenia

Spain

Sri Lanka

Sweden

Switzerland

Thailand

Tonga

Trinidad and Tobago

United Arab Emirates

United Kingdom

Taux applicable sur la table de mortalité nationale chez les femmes

64

VIII. Pistés d’amélioration : estimation des taux dé décès dés assurés par l’utilisation dés méthodés relationnelles

Nous avons développé dans les parties précédentes des modèles qui permettent d’estimer,

pour un pays donné, le rapport entre les taux de mortalité des assurés est ceux de la

population générale. Nous pouvons ainsi, pour chacun des deux sexes, approcher le niveau

de mortalité des assurés en multipliant la table de mortalité nationale par le taux prédit par

le modèle. En d’autres termes, les méthodes développées précédemment se basent sur

l’hypothèse simpliste que le lien entre la table de mortalité des assurés et celle de la

population générale est un simple coefficient multiplicateur. Dans cette partie, nous

explorons une piste d’amélioration qui a pour but de trouver un lien plus complexe qu’un

simple coefficient. L’idée est d’utiliser les méthodes relationnelles, expressions

mathématiques qui relient la mortalité d’une population à celle d’une autre, dans le but

d’avoir une approximation du niveau de mortalité des assurés qui varie en fonction de l’âge.

Nous utilisons dans cette partie le modèle de Brass que nous détaillerons par la suite.

Dans la suite de ce document, nous notons ( ) la densité de la probabilité de décès, ( )

la fonction de répartition et ( ) ( )

( ( )) le taux du hasard. Nous reprenons toutes les

autres notations citées précédemment. Nous donnerons dans cette partie un bref

historique sur la construction des méthodes relationnelles ainsi que leurs applications, et

nous développerons ensuite l’idée de l’utilisation de ces dernières pour le calcul du risque

de mortalité des assurés.

A. Modèle de Brass et Approche adoptée pour la

modélisation

La première méthode reliant la mortalité de deux populations, que nous notons i et j, est la

méthode du hasard proportionnel (Derrick, 1927). Elle est basée sur l’hypothèse que la

fonction du hasard de la population i est proportionnelle à celle de la population j. Cela

s’exprime mathématiquement par l’égalité suivante :

( ) ( )

(8)

Où est une constante.

65

L’équation (8) stipule que le rapport de mortalité entre les deux populations i et j reste

constant pour tous les âges. Or, comme nous l’avons remarqué lors de notre analyse du

rapport entre la mortalité de la population assurée et celle de la population générale, le

rapport des taux de mortalité entre deux populations évolue de manière plus complexe.

Brass a observé que ce rapport tend vers 1 pour les âges les plus élevés (Brass, 1971) .Il a

noté aussi que l’écart entre (8) et la réalité peut souvent être important. Brass a proposé

alors une relation plus réaliste qui s’exprime mathématiquement par l’égalité suivante :

( )

( )( ( ))

( )

( ) ( ( ))

(9)

En intégrant (9) des deux côtés, nous retrouvons l’égalité qui fait intervenir les fonctions de

répartition.

[ ( )

( )] [

( )

( )]

(10)

Avec la constante résultant de l’intégration.

L’égalité (10) a été intensément utilisée dans les études de la démographie des pays sous-

développés, plus particulièrement en Afrique (Brass, 1969). Vu la simplicité de cette

méthode relationnelle et la flexibilité qu’elle offre, nous nous concentrons sur cette

dernière, afin de développer une méthode qui nous permettra de passer de la table de

mortalité de la population générale à celle des assurés, en prenant en considération le

facteur de l’âge.

Nous avons observé lors du calcul des taux Tx des pays de notre échantillon, que le rapport

des taux de mortalité varie en fonction de l’âge. Cette variation diffère significativement

d’un pays à un autre. Cela signifie que si nous utilisons l’égalité (10) pour faire le lien entre la

table de mortalité des assurés et celle de la population générale, l’estimation des

paramètres ( ) donnera des valeurs différentes selon le pays étudié. Si nous arrivons à

expliquer ces deux paramètres en fonction des caractéristiques du pays étudié, nous

pourrons alors estimer les taux de mortalité des assurés par âge à partir des taux de

mortalité de la population générale. Ce qui est beaucoup plus précis que d’appliquer un

simple coefficient multiplicateur.

L’objectif est alors d’essayer de trouver un modèle prédictif qui sera sous la forme

mathématique suivante :

( ) ( )

66

Où est une fonction déterministe, et ( ) l’ensemble des indicateurs socio-

économiques qui caractérise chaque pays.

B. Construction dé l’échantillon

De ce qui précède, nous comprenons que l’objectif est de trouver un modèle qui explique le

couple de constantes ( ) par un ensemble d’indicateurs socio-économiques. Nous devons

donc avoir un échantillon qui soit composé d’un ensemble de couples ( ). Ainsi, nous

calculons ce couple de constantes pour chaque pays de notre échantillon en utilisant la

régression suivante :

[ ( )

( )] [

( )

( )]

Avec pour hypothèses ( ) ( ) ( )

Le calcul de la valeur de la fonction de répartition pour chaque âge s’effectue à partir de la

table de mortalité. En effet, nous savons que survivre jusqu’à l’âge signifie que la personne

ne décède pas dans les années qui précèdent cet âge. Cela se traduit mathématiquement

par l’égalité suivante :

( ) ∏( )

Avec la probabilité que l’individu décède entre l’âge i et l’âge i+1.

D’où le calcul de la fonction de répartition à partir de la table de mortalité par la formule

suivante :

( ) ( ) ∏( )

Nous construisons ainsi l’échantillon ( ) . Nous allons ensuite essayer d’expliquer

chaque élément du couple par des indicateurs socio-économiques, en procédant de manière

identique à celle de l’estimation du rapport moyen des taux de mortalité Tx.

Dans la suite du document, nous faisons une ébauche de la modélisation du couple de

paramètre ( ). Nous nous contentons d’une simple ébauche car l’approche proposée

implique d’effectuer des régressions sur des valeurs estimées par d’autres régressions. Les

erreurs d’estimation seront donc cumulées, et la taille réduite de notre échantillon ainsi que

la qualité des tables de mortalité utilisées remettent en question la pertinence des résultats.

67

Nous commençons dans un premier temps par essayer de modéliser ensuite nous

modéliserons .

C. Modélisation

1. Modélisation du coefficient

Pour choisir les indicateurs qui serviront de variables explicatives à notre modèle, nous

appliquons la même technique, en utilisant un algorithme qui élimine par étape et de

manière descendante les variables qui ne contribuent pas à la minimisation du BIC.

Les indicateurs retenus sont alors les suivants :

L’indice de développement humain [IDH]

Pourcentage des dépenses des foyers nettes d’assurance [OPE :Out-of-pocket

expenditure as a percentage of private expenditure on health]


gouvernementales totales [GEHTE : General government expenditure on health as a


Degré des inégalités de la distribution des revenus [GINI]

Nous testons dans un premier temps le modèle le plus intuitif suivant :

Avec ( ) ( ) ( )

Comme précédemment, pour déterminer l’hypothèse la plus adéquate pour la loi des

erreurs , nous allons étudier la loi de la variable expliquée. Nous traçons la densité

empirique de , que nous avons centré et réduit préalablement, ainsi que le QQ-Plot par

rapport à une loi normale centrée réduite. Et nous effectuons par la suite le test de

normalité de Shapiro-Wilk.

68

Figure 16

Figure 17

Le test de normalité renvoie une p-valeur de 0.989>0.05, ce qui signifie que l’hypothèse

nulle de la normalité n’est pas rejeté au niveau 5%.

Le graphe de la densité empirique (Figure 16) et celui du Qq-plot (Figure 17) nous montrent

qu’il est adéquat de choisir une loi normale pour . Donc la loi de est aussi une loi

normale.

69

La régression sous R nous renvoie le résultat suivant :

0.811775 0.366720 2.214 0.05125

-0.017944 0.004421 -4.059 0.00229

-0.015996 0.004297 -3.723 0.00396

1.812280 0.480240 3.774 0.00364

0.005441 0.002429 2.240 0.04903

On remarque que seulement 64,07% de la variabilité de est expliquée par le modèle. Nous

pouvons conclure que nous avons une qualité d’ajustement moyenne.

Nous remarquons que tous les coefficients sont significatifs.

Afin d’améliorer la significativité des coefficients, et principalement celui du coefficient à

l’origine, et pour améliorer la qualité de l’ajustement, nous procédons à quelques

transformations en utilisant la fonction lien inverse. Nos recherches nous mènent finalement

au modèle suivant :

(11)

Nous gardons les mêmes hypothèses que précédemment.

0.7433

0.6407

70

La régression nous renvoie le résultat suivant :

1,451 3,120e-01 4,652 0,000905

3,246e-04 8,322e-05 3,901 0,002956

1,974e-02 4,870e-03 4,053 0,002311

-2,227 5,070e-01 -4,391 0,001353

-6,126e-05 2,043e-05 -2,998 0,013379

Nous observons une amélioration de la significativité des coefficients. La déviance résiduelle

de notre modèle constitue 22% de la déviance totale. Nous avons alors une qualité

d’ajustement moyenne.

Nous allons ensuite tester la validité des hypothèses faites sur les résidus, nécessaires à la

régression.

Figure 18

1.0 1.2 1.4 1.6

-0.2

-0.1

0.0

0.1

0.2

Predicted values

Re

sid

ua

ls

glm(alpha ~ General.government.expenditure.on.health.as.a.percentage.of.tot ...

Residuals vs Fitted

2

12

5



AIC -18,338

71

Le nuage des points des résidus de déviance en fonction des valeurs prédites (Figure 18)

présente plutôt une bonne uniformité, la courbe rouge oscille autour de l’axe des abscisses.

Nous pouvons conclure que l’homoscédasticité est plutôt respectée.

2. Modélisation du coefficient :

Nous procédons de la même manière que précédemment pour le choix des variables explicatives.

Nous retrouvons les variables suivantes :

Indice de développement humain [IDH]


areas (%)]

Nous testons dans un premier temps le modèle le plus intuitif :

Nous traçons le graphe de densité de pour avoir une idée sur la loi de à choisir.

Figure 19

Nous remarquons d’après la Figure 19 que nous n’avons pas vraiment une symétrie par

rapport à l’axe x=0. Il sera donc peu adéquat de faire l’hypothèse de normalité de car cela

implique la normalité de . Le test de normalité de Shapiro-Wilk renvoie une p-valeur de

0,043 < 0,05. Nous pouvons donc rejeter l’hypothèse de normalité au niveau .

Nous effectuons la régression sur le logiciel R et nous retrouvons les sorties suivantes :

-3 -2 -1 0 1 2 3

0.0

00

.05

0.1

00

.15

0.2

00

.25

0.3

00

.35

density.default(x = (Dataset$beta - mean(Dataset$beta))/sqrt(var(Dataset$beta)))

N = 15 Bandwidth = 0.4933

De

nsity

72

0,836247 0,157091 5,323 0,000181

-1,648134 0,313866 -5,251 0,000204

0,009095 0,002833 3,210 0,007493

Les coefficients des variables explicatives sont très significatifs. D’après le coefficient de

détermination ajusté, 65,69% de la variabilité de est expliquée par le modèle. La qualité

de l’ajustement est moyenne. Nous allons donc essayer d’améliorer la qualité d’ajustement

en maximisant le coefficient de détermination en appliquant des transformations simples.

Nous retenons finalement le modèle suivant :

(12)

La régression sous R renvoie les résultats suivants :

5,918e-01 8,911e-02 6,641 2,39e-05

-1,201 2,035e-01 -5,902 7,23e-05

6,693e-05 1,857e-05 3,604 0,00362

Nous remarquons que nous avons une amélioration de la qualité de l’ajustement, puisque

nous avons un coefficient de détermination ajusté de 0,70 au lieu de 0,65.

Nous testons ensuite la validité de l’hypothèse de l’homoscédasticité. Nous traçons alors le

nuage des points des résidus en fonction des valeurs prédites.

0,7059

0,6569

0,7463

0,704

73

Figure 20

La Figure 20 nous valide l’hypothèse de l’homoscédasticité, puisque la courbe rouge est

presque superposée avec l’axe des abscisses avec une répartition des points sans tendance

particulière.

Les tentatives de modélisation de et nous ont conduit aux deux modèles (11) et (12). Les

deux modèles ont des coefficients de détermination ajustés inférieurs à 75%. Ces résultats

présagent de prédictions peu précises, ce qui remet en question leur utilisation dans le

modèle de Brass pour construire la table de mortalité des assurés. L’imprécision rencontrée

lors des tentatives de modélisation du couple ( ) est liée à la qualité des tables de

mortalité utilisées. En effet, la plupart des tables de notre échantillon, et surtout celles

issues du site de l’O.M.S., sont construites à partir d’extrapolations et de projections. Seules

les tables de certains pays développés, comme l’Allemagne et les Etats Unis sont des vraies

tables d’expérience. Pour pouvoir construire un modèle permettant de donner le niveau de

mortalité des assurés par âge, il faudra avoir un échantillon constitué uniquement des tables

d’expérience. Cependant, malgré la faible qualité d’ajustement des deux modèles (11) et

(12), il est néanmoins intéressant de constater que ces derniers ont deux variables

explicatives en commun avec les modèles du rapport moyen de mortalité Tx.

0.0 0.1 0.2 0.3 0.4 0.5

-0.2

-0.1

0.0

0.1

0.2

Fitted values

Re

sid

ua

ls

lm(beta ~ I(IDH^2) + I(Population.living.in.urban.areas....^2))

Residuals vs Fitted

5

10

3

74

IX. Conclusion

Malgré la taille de l’échantillon très réduite que nous avons à notre disposition, nous avons

pu avoir des modèles qui semblent statistiquement robustes. L’intérêt principal de l’étude

est de mettre en place un modèle prédictif suffisamment fiable pour qu’il soit utilisable en

pratique. Ce modèle doit nous permettre d’avoir une bonne estimation de la mortalité des

assurés à partir de la mortalité de la population générale. L’application d’un coefficient

multiplicateur est l’une des pratiques les plus courantes en souscription. Pour développer

des modèles permettant de prédire le coefficient multiplicateur pour n’importe quel pays,

nous avons dans un premier temps sélectionné un nombre limité d’indicateurs socio-

économiques qui ont servi de variables explicatives. La sélection de ces derniers s’est basée

sur une combinaison d’analyses qualitatives et de techniques statistiques exploratoires.

Ensuite nous avons procédé à des régressions linéaires et des tests statistiques pour retenir

les meilleurs modèles prédictifs. La qualité de la prédiction des modèles est mesurée par

l’erreur de prédiction moyenne estimée par l’estimateur +.632 (Efron & Tibshirani, 1997).

Cet estimateur présente le meilleur compromis entre biais et variance, et prend en compte

l’effet d’un éventuel phénomène de sur-ajustement. Les modèles retenus présentent de

très bonnes qualités prédictives pour les hommes. Pour les femmes, les prédictions sont

moins bonnes. Mais les marges de prudence, incluses dans les modèles des deux sexes,

permettent d’avoir des taux d’abattement que nous pouvons appliquer sur les tables de

mortalité nationales sans risque de sous-estimation du niveau de mortalité. L’étude

présentée dans ce document nous révèle que l’espérance de vie moyenne à la naissance

ainsi que l’indice de développement humain donnent une bonne idée des inégalités face à la

mort dans le pays étudié. Elle corrobore aussi l’idée que la mortalité des femmes ne réagit

pas de la même manière que celle des hommes, et qu’elle est beaucoup moins sensible aux

différents paramètres exogènes. La cartographie présentée dans ce document donne, pour

un grand nombre de pays, le coefficient multiplicateur qui permet d’avoir le niveau de

mortalité des assurés à partir de celui de la population générale. Enfin, nous clôturons ce

document en proposons une piste d’amélioration qui fait appel aux méthodes relationnelles

pour le calcul des tables de mortalité des assurés.

75

X. Bibliographie Bernner, H., & Hopkins, J. (2006). Impact des facteurs macro-économiques sur la mortalité en Europe

et dans l'OCDE. Commission européenne, Direction générale de l'Emploi, affaires sociales et égalités

des chances. Berlin, North Texas: OCDE.

Bouyer, J., Hémon, D., Cordier, S., & Cordier, a. (1993). Epidémiologie-principes et méthodes

quantitatives.

Brass, W. (1969). A generation method for projecting death rates. Birmingham: Edinburgh University

Press.

Brass, W. (1971). On the scale of mortality. Biological aspects of mortality , pp. 69-110.

Breiman, L. (1996). Bagging Predictors. (K. A. Publishers, Ed.) Machine Learning (24), pp. 123-140.

Breiman, L. (1996). Heuristics of instability and stabilization in model selection. The Annals of

Statistics , 24 (6), pp. 2350-2383.

Breslow, N., & Day, N. (1987). Statistical methods in cancer research (vol 2). IARC Scientific Publ

n°82,Lyon, International Agency for Research on Cancer .

Derrick, V. (1927). Observation on Errors Of Age in the Population Statistics of England and Wales,

and the changes in Mortality indicated by national records. Journal of the Institute of Actuaries , 117-

146.

Efron, B. (1983). Estimating the Error Rate of a Prediction Rule: Some Improvements on Cross-

Validation. Journal of the American Statistical Association (78), 316-331.

Efron, B., & Tibshirani, R. (1997). Improvements on Cross-Validation: The .632+ Bootstrap Method.

(A. S. Association, Ed.) Journal of the American Statistical Association , 92 (438), 548-560.

Husson, F., Josse, J., & Pagès, J. (2010). Analyse de données avec R. Complémentarité des méthodes

d'analyse Factorielle et de classification. Marseille: Inria.

Jougla, E. (1997). Test statistiques relatifs aux indicateurs de mortalité en population. Inserm-CépiDc-

IFR69 , 45,78-84.

Kamega, A., & Planchet, F. (2011). Analyse et comparaison des populations générale et assurée en

Afrique subsaharienne francophone pour anticiper la mortalité future. Lyon.

Landry, A. (1982). La révolution démographique-Etudes et essais sur les problèmes de la population.

Ined.

Monteil, C., & Robert-Bobée, I. R.-B. (2005, Juin). Les différences sociales de mortalité :en

augmentation chez les hommes,stables chez les femmes. INSEE PREMIERE (1025).

O.M.S. (2011, Septembre). Global Health Observatory, World Health Organization . Retrieved from

World Health Organization : http://www.who.int/gho/database/en/

OCDE. (2011). Panorama de la santé 2011 : Les indicateurs de l'OCDE. Éditions OCDE.

76

Pison, G., Van de Walle, E., & Sala-Diakanda, M. (1989). Mortalité et société en Afrique au sud du

Sahara. Paris: Cahier de l'INED.

Planchet, F., & Lelieur, V. (2010). Utilisation des méthodes de Lee-Carter et Log-Poisson pour

l'ajustement de tables de mortalité dans le cas de petits échantillons. Lyon.

Planchet, F., & Thérond, P. (2006). Modèles de Durée. Paris: ECONOMICA.

PNUD. (2011). rapports sur le développement humain. Retrieved septembre 14, 2011, from PNUD:

http://hdr.undp.org/fr/statistiques/idh/

Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions. Journal of the

Royal Statistical Society B , 36 (1), 111-147.

77

XI. Annexes

A. Taux applicables sur la mortalité nationale prédits par

les modèles

1. Taux des hommes

Pays Tx prédit Pays Tx prédit Pays Tx prédit Pays Tx prédit

Albania 0,78 Ecuador 0,70 Liberia 0,37 Sao Tome and Principe 0,44

Algeria 0,60 Egypt 0,63

Libyan Arab

Jamahiriya 0,51 Senegal 0,43

Angola 0,30 El Salvador 0,69 Lithuania 0,52 Serbia 0,77

Antigua and Barbuda 0,60 Equatorial Guinea 0,29 Luxembourg 0,44 Seychelles 0,53

Argentina 0,70 Eritrea 0,58 Madagascar 0,46 Sierra Leone 0,34

Armenia 0,59 Estonia 0,56 Malawi 0,38 Singapore 0,38

Australia 0,83 Ethiopia 0,43 Malaysia 0,58 Slovakia 0,64

Austria 0,76 Fiji 0,66 Maldives 1,00 Slovenia 0,84

Azerbaijan 0,53 Finland 0,69 Mali 0,34 Solomon Islands 0,77

Bangladesh 0,56 France 0,89 Mauritius 0,66 South Africa 0,33

Belarus 0,51 Gabon 0,35 Mexico 0,69 Spain 0,80

Belgium 0,63 Gambia 0,42

Micronesia (Federated

States of) 0,73 Sri Lanka 0,67

Belize 0,72 Georgia 0,78 Mongolia 0,58 Sudan 0,40

Benin 0,40 Germany 0,75 Montenegro 0,71 Suriname 0,61

Bhutan 0,47 Ghana 0,47 Morocco 0,75 Swaziland 0,32

Bolivia (Plurinational

State of) 0,53 Greece 0,95 Mozambique 0,35 Sweden 0,65

Bosnia and

Herzegovina 0,99 Grenada 0,62 Namibia 0,47 Switzerland 0,70

Botswana 0,38 Guatemala 0,63 Nepal 0,52 Syrian Arab Republic 0,75

Brazil 0,62 Guinea 0,38 Netherlands 0,57 Tajikistan 0,63

Bulgaria 0,63 Guinea-Bissau 0,34 New Zealand 0,95 Thailand 0,67

Burkina Faso 0,36 Guyana 0,56 Nicaragua 0,99

The former Yugoslav

Republic of

Macedonia 0,73

Burundi 0,36 Haiti 0,48 Niger 0,37 Timor-Leste 0,46

Cambodia 0,49 Honduras 0,68 Nigeria 0,33 Togo 0,44

Cameroon 0,35 Hungary 0,62 Norway 0,47 Tonga 0,79

Canada 0,84 Iceland 1,00 Pakistan 0,49 Trinidad and Tobago 0,47

Cape Verde 0,70 India 0,52 Panama 0,79 Tunisia 0,86

Central African

Republic 0,33 Indonesia 0,55 Papua New Guinea 0,49 Turkey 0,62

Chad 0,32 Ireland 0,74 Paraguay 0,87 Turkmenistan 0,44

Chile 0,80 Israel 0,74 Peru 0,85 Uganda 0,37

Colombia 0,77 Italy 1,00 Philippines 0,62 Ukraine 0,52

Comoros 0,46 Jamaica 0,70 Poland 0,71 United Kingdom 0,59

Congo 0,35 Japan 0,89 Portugal 1,00

United Republic of

Tanzania 0,37

Costa Rica 1,00 Jordan 0,66 Republic of Korea 0,65

United States of

America 0,85

Côte d'Ivoire 0,39 Kazakhstan 0,43 Republic of Moldova 0,68 Uruguay 0,63

Croatia 0,75 Kenya 0,38 Romania 0,62 Uzbekistan 0,64

Czech Republic 0,66 Kiribati 0,59 Russian Federation 0,44 Vanuatu 0,67

Democratic Republic

of the Congo 0,34 Kyrgyzstan 0,58 Rwanda 0,44

Venezuela (Bolivarian

Republic of) 0,60

Denmark 0,60

Lao People's

Democratic Republic 0,48 Saint Kitts and Nevis 0,66 Viet Nam 1,00

Djibouti 0,38 Latvia 0,51 Saint Lucia 1,00 Yemen 0,53

Dominica 0,72 Lebanon 0,57

Saint Vincent and the

Grenadines 0,65 Zambia 0,33

Dominican Republic 0,68 Lesotho 0,33 Samoa 0,63

78

2. Taux des femmes

B. Code R du Bootstrap resample<-function(d){ lin<-length(d[,1]) col<-length(d[1,]) mat<- d c<-sample(1:lin,replace=T) for(i in 1:lin){ mat[i,]<-d[c[i],] } return(mat) } +++++++++++++++++++++++++++++++++++++++++++++++++++

Pays Tx prédit Pays Tx prédit Pays Tx prédit Pays Tx prédit

Afghanistan 0,35 Denmark 1,00 Lao People's Democratic Republic0,59 Qatar 0,79

Albania 0,97 Djibouti 0,15 Latvia 0,98 Romania 1,00

Algeria 0,78 Dominica 0,78 Lebanon 0,68 Russian Federation 0,84

Angola 0,42 Dominican Republic 0,73 Lesotho 0,47 Rwanda 0,44

Argentina 0,75 Ecuador 0,82 Liberia 0,15 Samoa 0,97

Armenia 0,85 Egypt 0,79 Libyan Arab Jamahiriya 0,82 Sao Tome and Principe 0,43

Australia 1,00 El Salvador 0,77 Lithuania 1,00 Saudi Arabia 0,79

Austria 1,00 Equatorial Guinea 0,62 Luxembourg 1,00 Senegal 0,44

Bahamas 0,80 Estonia 1,00 Madagascar 0,55 Serbia 1,00

Bahrain 0,82 Ethiopia 0,32 Malawi 0,37 Seychelles 1,00

Bangladesh 0,56 Fiji 0,85 Malaysia 0,87 Sierra Leone 0,22

Barbados 1,00 Finland 1,00 Maldives 0,84 Singapore 0,81

Belarus 0,83 France 1,00 Mali 0,28 Slovakia 1,00

Belgium 0,89 Gabon 0,57 Malta 0,82 Slovenia 1,00

Belize 0,87 Gambia 0,29 Mauritania 0,44 Solomon Islands 0,64

Benin 0,39 Georgia 0,92 Mauritius 0,96 South Africa 0,65

Bolivia (Plurinational State of)0,70 Germany 1,00 Mexico 0,83 Spain 1,00

Bosnia and Herzegovina 0,96 Ghana 0,54 Micronesia (Federated States of)0,87 Sri Lanka 0,96

Botswana 0,69 Greece 1,00 Mongolia 0,74 Suriname 0,68

Brazil 0,65 Guatemala 0,64 Montenegro 0,97 Swaziland 0,62

Brunei Darussalam 0,99 Guinea 0,26 Morocco 0,61 Sweden 1,00

Bulgaria 0,89 Guinea-Bissau 0,28 Mozambique 0,18 Switzerland 1,00

Burkina Faso 0,26 Guyana 0,83 Myanmar 0,51 Syrian Arab Republic 0,73

Burundi 0,24 Haiti 0,41 Namibia 0,78 Tajikistan 0,78

Cambodia 0,63 Honduras 0,74 Nepal 0,50 Thailand 0,91

Cameroon 0,40 Hungary 1,00 Netherlands 1,00 The former Yugoslav Republic of Macedonia0,84

Canada 1,00 Iceland 0,97 New Zealand 1,00 Timor-Leste 0,60

Cape Verde 0,57 India 0,64 Nicaragua 0,63 Togo 0,40

Central African Republic 0,22 Indonesia 0,68 Niger 0,19 Tonga 0,99

Chad 0,24 Iran (Islamic Republic of) 0,78 Nigeria 0,41 Trinidad and Tobago 1,00

Chile 0,81 Iraq 0,53 Norway 1,00 Tunisia 0,77

China 0,86 Ireland 1,00 Oman 0,76 Turkey 0,76

Colombia 0,73 Israel 0,94 Pakistan 0,55 Turkmenistan 0,84

Comoros 0,45 Italy 1,00 Palau 0,85 Uganda 0,48

Congo 0,48 Jamaica 0,92 Panama 0,86 Ukraine 0,84

Costa Rica 0,89 Japan 1,00 Papua New Guinea 0,53 United Arab Emirates 0,97

Croatia 1,00 Jordan 0,69 Paraguay 0,74 United Kingdom 0,92

Cuba 0,85 Kazakhstan 0,90 Peru 0,78 Uruguay 0,72

Cyprus 1,00 Kenya 0,59 Philippines 0,68 Uzbekistan 0,80

Czech Republic 1,00 Kuwait 0,64 Poland 1,00 Viet Nam 0,74

Korea 1,00 Kyrgyzstan 0,78 Portugal 1,00 Yemen 0,47

Zambia 0,40

Zimbabwe 0,25

79

Jackknif.boot4<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,])

m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) + Gross.national.income.per.capita..PPP.int...., family=Gaussian(inverse),data=dat)

c[i,k]<-min(1/predict(m,newdata=d[i,]),1) } } return(c) } Jackknif.boot2<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,])

m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^3) + life.expectancy, family = gaussian(log), data=dat)

c[i,k]<-min(1,exp(predict(m,newdata=d[i,]))) } } return(c) } +++++++++++++++++++++++++++++++++++++++++++++++++++ Jackknif.4<-function(d){ l<-length(d[,1]) Jack<-matrix(nrow=l,ncol=1) for (i in 1:l){ app<-d[-i,] m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^3) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) + Gross.national.income.per.capita..PPP.int...., family=gaussian (inverse), data=app) Jack[i,1]<-1/predict(m,newdata=d[i,]) } return(Jack) } Jackknif.2<-function(d){ l<-length(d[,1]) Jack<-matrix(nrow=l,ncol=1) for (i in 1:l){ app<-d[-i,] m<-glm(formula = Tx.homme ~ I(Population.living.in.urban.areas....^3) +

80

life.expectancy, family = gaussian(log), data = app) Jack[i,1]<-exp(predict(m,newdata=d[i,])) } return(Jack) } +++++++++++++++++++++++++++++++++++++++++++++++++++++++ A2<-Jackknif.boot2(Dataset,1000) A4<-Jackknif.boot4(Dataset,1000) Err2<-matrix(data=1:19000,ncol=1000) Err4<-matrix(data=1:19000,ncol=1000) for(i in 1:1000){ for (k in 1:19) { Err2[k,i]<-(Dataset[k,3]-A2[k,i])^2 Err4[k,i]<-(Dataset[k,3]-A4[k,i])^2 } } er2<-c(1:19) er4<-c(1:19) for (i in 1:19){ er2[i]<-mean(Err2[i,]) er4[i]<-mean(Err4[i,]) } +++++++++++++++++++++++++++++++++++++++++++++++++++++++ bootH<-function(d,R){ UA<-c(1:R) TEH<-c(1:R) LE<-c(1:R) GNI<-c(1:R) a0<-c(1:R) for(k in 1:R){ dat<-resample(d) m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) +Gross.national.income.per.capita..PPP.int...., family=gaussian(inverse),data=dat) a0[k]<-coef(m)[1] UA[k]<-coef(m)[2] TEH[k]<-coef(m)[3] LE[k]<-coef(m)[4] GNI[k]<-coef(m)[5] } C<-c(1:5) C[1]<-mean(a0) C[2]<-mean(UA) C[3]<-mean(TEH) C[4]<-mean(LE) C[5]<-mean(GNI) return(C) } bootF<-function(d,R){ UA<-c(1:R) IDH<-c(1:R) a0<-c(1:R) for(k in 1:R){

81

dat<-resample(d) m<-lm(Tx.femme ~ I(Population.living.in.urban.areas.... ^2)+IDH, data=dat) a0[k]<-coef(m)[1] UA[k]<-coef(m)[2] IDH[k]<-coef(m)[3] } C<-c(1:5) C[1]<-mean(a0) C[2]<-mean(UA) C[3]<-mean(IDH) return(C) } ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ confidence.Homme<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) int<-matrix(nrow=l,ncol=2) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,]) m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) + Gross.national.income.per.capita..PPP.int...., family=gaussian (inverse),data=dat) c[i,k]<-max(min(1/predict(m,newdata=d[i,]),1),0.1) } int[i,]<-quantile(c[i,],probs=c(0.05,0.95)) } return(int) } confidence.Femme<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) int<-matrix(nrow=l,ncol=2) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,]) m<-lm(Tx.femme ~ I(Population.living.in.urban.areas.... ^2)+IDH, data=dat) c[i,k]<-max(min(predict(m,newdata=d[i,]),1),0.1) } int[i,]<-quantile(c[i,],probs=c(0.5,0.95)) } return(int) }

Documents

Mémoire Master 2 Pro...Par : Reda JARIR Titre : Estimation de la mortalité des assurés à partir de la mortalité nationale et des indicateurs socio - économiques Confidentialité