Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Mémoire présenté
devant l’Institut de Science Financière et d’Assurances
pour l’obtention du diplôme d’Actuaire de l’Université de Lyon
le 23/11/2012
Par : Reda JARIR
Titre: Estimation de la mortalité des assurés à partir de la mortalité nationale et des
indicateurs socio-économiques
Confidentialité : NON OUI (Durée : 1 an 2 ans)
Membres du jury de l’Institut des Actuaires
Mme Brigitte ECARY
Entreprise :
AXA Global Life
Membres du jury I.S.F.A. Directeur de mémoire en entreprise :
Mme Flavia BARSOTTI M. Paul UNFRIED
M. Alexis BIENVENÜE
M. Areski COUSIN Invité :
Mme Diana DOROBANTU
Mme Anne EYRAUD-LOISEL
M. Nicolas LEBOISNE
M. Stéphane LOISEL Autorisation de mise en ligne sur
un site de diffusion de documents
actuariels (après expiration de
l’éventuel délai de confidentialité)
Mlle Esterina MASIELLO
Mme Véronique MAUME-DESCHAMPS
M. Frédéric PLANCHET
Mme
M.
Béatrice REY-FOURNIER
Pierre RIBEREAU
M. Christian-Yann ROBERT Signature du responsable entreprise
M.
M.
Didier RULLIERE
Pierre THEROND
Secrétariat Signature du candidat
Mme Marie-Claude MOUCHON
Bibliothèque :
Mme Patricia BARTOLO
50 Avenue Tony Garnier 69366 Lyon Cedex 07
Université Claude Bernard – Lyon 1
INSTITUT DE SCIENCE FINANCIERE ET D'ASSURANCES
2
Ré sumé
Mots-clés : Mortalité de la population générale, mortalité des assurés, indicateurs socio-
économiques, Table de mortalité, analyse en composantes principales, Clustering hiérarchique,
Modèles linéaires généralisés, erreur de prédiction, Bootstrap, estimateur +.632, intervalles de
confiance non-paramétriques, méthodes relationnelles, modèle de Brass.
Lors du lancement de produits d’assurance vie dans un pays émergent, l’absence de données fiables
conduit à estimer le risque décès par des tables de mortalité nationale. La mortalité des assurés, qui
sont la population cible, est rarement bien représentée par la mortalité de la population générale. Le
moyen le plus simple pour approcher le niveau de mortalité des assurés est d’appliquer un
coefficient multiplicateur sur la table nationale. Le coefficient appliqué est souvent déterminé a
postériori, car il résulte principalement de l’expérience.
Dans ce document, nous proposons de prédire ce coefficient multiplicateur à partir de certains
indicateurs socio-économiques qui caractérisent le pays concerné. Ainsi, nous proposons deux
modèles prédictifs, un pour les hommes et un pour les femmes. Pour construire ces deux modèles,
nous avons dans un premier temps sélectionné un nombre très limité d’indicateurs socio-
économiques qui serviront de variables explicatives. Pour sélectionner les indicateurs, nous avons
dans un premier temps procédé à une analyse qualitative, ensuite nous avons utilisé la technique
statistique du Clustering hiérarchique combinée à une analyse en composantes principales. Pour
chacun des deux sexes, nous avons ensuite effectué une suite de régressions linaires, de tests et de
mesures d’erreur pour déterminer le meilleur modèle linéaire en matière de prédiction. Pour
mesurer la qualité de prédiction, nous avons choisi l’estimateur +.632 qui fait appel au techniques du
Bootstrap. Cet estimateur à l’avantage de prendre en considération l’effet du sur-ajustement tout en
proposant un bon compromis entre biais et variance dans l’estimation de l’erreur de prédiction. Les
résultats sont très différents entre les hommes et les femmes. Le modèle des hommes est nettement
plus précis que celui des femmes. Pour déterminer une marge de prudence à prendre lors de
l’utilisation des deux modèles, nous avons calculé par bootstrap les bornes supérieures de l’intervalle
de confiance à 95% pour chaque pays de notre échantillon, puis nous avons pris l’écart maximal
observé entre ces derniers et les valeurs réelles du coefficient recherché. Nous proposons ensuite
une cartographie de presque tous les pays du monde en fonction du coefficient multiplicateur à
appliquer sur la mortalité de la population générale. Nous regroupons les pays en six classes. Nous
remarquons que chez les hommes, la majorité des pays se retrouvent dans les classes ayant
un coefficient compris entre 30% et 75%. Tandis que chez les femmes, une grande partie des
pays se retrouvent dans les classes ayant un coefficient supérieur à 75%.
Nous concluons ce document en proposant une piste d’évolution dans l’estimation de la
mortalité des assurés. La piste consiste à appliquer la même approche pour prédire les
paramètres du modèle relationnel de Brass pour chaque pays. Cette méthode permet de
passer directement de la table de mortalité nationale à la table de la population assurée.
3
Abstract
Key-words: Mortality of the general population, mortality of insured population, socio-economic
indicators, mortality table, principal component analysis, hierarchical clustering, generalized linear
model, prediction error, Bootstrap, +.632 error estimator, non-parametric confidence interval,
relational methods, Brass’ s model.
To launch insurance life products in an emerging country, the insurer usually use the national
mortality table to estimate the risk of death because of the lack of a consistent data. The mortality
rate of the population targeted by the insurer is seldom well represented by the one of the general
population. In order to have a better estimation of the insured population’s mortality rates,
companies usually apply a multiplier on the mortality table of the general population. The value of
the multiplier depend on the company’s experience, hence it is estimated few years later.
In this paper, we present two predictive models for the two genders, which estimate the multiplier
for any country using some socio-economic indicators. In order to define the two models we need to
select the variables from a large number of indicators. For this purpose, we did a selection by
qualitative analysis, and we used statistical technics of hierarchical clustering combined with the
principal component analysis. Then we proceeded on multiple linear regressions and predictive error
tests and measurements in order to find the best predictive model for each gender. We choose the
+.632 estimator to measure the predictive error rate. The reason of this choice is the fact that this
estimator, which uses bootstrapping, takes into account the over-fitting effect, and has the best
compromise between bias and variance. The models of the two genders are quite different and
males have the most precise predictive model. We gave for the two final models a risk margin by
calculating the maximum distance in our sample between the real multiplier and the upper range of
the confidence interval at 95%. We used the bootstrapping method to calculate the confidence
interval. We classified almost all the countries in six classes depending on the predicted multiplier.
We noticed that for males, most of the countries have a predicted multiplier between 30% and 75%,
while for females the majority of countries have a predicted multiplier over 75%.
At the end of this paper we present a more elaborated way to estimate the mortality risk of insured
population by using the relational methods. The main idea is to use the same process as previously to
predict the Brass model parameters that make the link between the national mortality table and the
insured mortality table.
4
Rémérciémént
Ce mémoire a été réalisé au sein de la société AXA Global Life, dans l’équipe d’actuariat
produit, sous la direction de M. Paul UNFRIED.
En quelques mots, je tiens à remercier les personnes qui ont contribué à l’élaboration de ce
mémoire.
Merci à M. Paul UNFRIED pour ses conseils avisés et fort enrichissants, son encadrement
d’exception ainsi que sa disponibilité.
Merci à Mme Esterina MASIELLO pour son encadrement et son suivi pédagogique, sa
disponibilité, ses conseils techniques, ainsi que ses relectures minutieuses et précises.
Merci à M. Frédéric PLANCHET pour son soutien et sa disponibilité, ainsi que pour son aide
qui a été capitale pour l’aboutissement de ce mémoire.
Et enfin, merci à toutes les personnes des équipes d’actuariat d’AXA Global Life pour le
partage de leur savoir-faire et leur soutien.
5
Sommairé
INTRODUCTION .................................................................................................................. 7
I. ANALYSE DE LA PROBLEMATIQUE ........................................................................ 8
II. CONSTRUCTION DE LA BASE DE DONNEES .......................................................... 10
A. TABLES DE MORTALITE ................................................................................................................................ 10
1. Tables de mortalité des assurés ........................................................................................................ 10
2. Tables de mortalité nationales ......................................................................................................... 12
B. INDICATEURS SOCIO-ECONOMIQUES .............................................................................................................. 14
III. REDUCTION DU NOMBRE DES INDICATEURS SOCIO-ECONOMIQUES CHOISIS ..... 19
A. ANALYSE EXPLORATOIRE DES DONNEES. .......................................................................................................... 19
1. L’ACP comme prétraitement pour la classification des indicateurs ................................................... 20
2. Classification des indicateurs par arbre hiérarchique ....................................................................... 20
a) Clustering hiérarchique et critère de Ward ..........................................................................................................20
b) Le choix du nombre de classes de l’arbre hiérarchique .......................................................................................21
B. RESULTATS DE L’ANALYSE EXPLORATOIRE ........................................................................................................ 21
IV. ANALYSE DES ECARTS DE LA MORTALITE ENTRE LES ASSURES ET LA POPULATION
GENERALE ........................................................................................................................ 25
A. ANALYSE DES ECARTS DE MORTALITE PAR AGE .................................................................................................. 25
B. ANALYSE DES ECARTS DE MORTALITE EN FONCTION DU SEXE ................................................................................ 26
V. ESTIMATION DE LA MORTALITE DES ASSURES PAR APPLICATION D’UN
COEFFICIENT MULTIPLICATEUR ........................................................................................ 29
A. MODELISATION DU RAPPORT MOYEN TX POUR LES HOMMES ENTRE 35 ANS ET 65 ANS.............................................. 29
1. Modélisation à partir de l’échantillon tronqué des pays d’Afrique subsaharienne ............................ 30
2. Modélisation à partir de l’échantillon contenant l’ensemble des pays étudiés .................................. 36
3. Interprétation des résultats des régressions ..................................................................................... 40
B. MODELISATION DU RAPPORT MOYEN TX POUR LES FEMMES ENTRE 35 ANS ET 65 ANS ............................................... 41
1. Construction des modèles................................................................................................................. 41
2. Interprétation des résultats des régressions ..................................................................................... 45
VI. TESTS DE LA QUALITE DE PREDICTION ET CHOIX DES MODELES .......................... 47
6
A. UNE PREMIERE ESTIMATION DE L’ERREUR DE PREDICTION ................................................................................... 47
B. L’AMELIORATION PAR BOOTSTRAP : L’ESTIMATEUR .632+ ................................................................................. 49
C. APPLICATION DE L’ESTIMATEUR .632+ ET CHOIX DU MODELE .............................................................................. 52
1. Choix du modèle prédictif pour les hommes ..................................................................................... 52
2. Choix du modèle prédictif pour les femmes ...................................................................................... 54
VII. UTILISATION DES MODELES PREDICTIFS DANS L’ESTIMATION DU RISQUE DE
MORTALITE DES ASSURES ................................................................................................ 55
A. ESTIMATION DES PARAMETRES DES MODELES PAR BOOTSTRAP ............................................................................. 56
B. INTERVALLES DE CONFIANCES ET MARGE DE PRUDENCE DES MODELES ................................................................... 58
C. CARTOGRAPHIE DU MONDE EN FONCTION DU RAPPORT ENTRE LA MORTALITE DES ASSURES ET CELLE DE LA POPULATION
GENERALE ........................................................................................................................................................ 61
VIII. PISTES D’AMELIORATION : ESTIMATION DES TAUX DE DECES DES ASSURES PAR
L’UTILISATION DES METHODES RELATIONNELLES ............................................................. 64
A. MODELE DE BRASS ET APPROCHE ADOPTEE POUR LA MODELISATION ..................................................................... 64
B. CONSTRUCTION DE L’ECHANTILLON ............................................................................................................... 66
C. MODELISATION ........................................................................................................................................ 67
1. Modélisation du coefficient ........................................................................................................... 67
2. Modélisation du coefficient : ........................................................................................................ 71
IX. CONCLUSION ...................................................................................................... 74
X. BIBLIOGRAPHIE .................................................................................................. 75
XI. ANNEXES ............................................................................................................ 77
A. TAUX APPLICABLES SUR LA MORTALITE NATIONALE PREDITS PAR LES MODELES ......................................................... 77
1. Taux des hommes ............................................................................................................................ 77
2. Taux des femmes ............................................................................................................................. 78
B. CODE R DU BOOTSTRAP.............................................................................................................................. 78
7
Introduction
Les produits d’assurance vie requièrent l’estimation de la probabilité de décès de la
population couverte. Une mauvaise estimation des niveaux de mortalité impacte
directement le rendement du produit, et expose l’assureur à des risques actuariels qui
peuvent avoir d’importantes conséquences financières.
Idéalement, les assureurs utilisent des tables de mortalité issues des études statistiques
faites sur l’historique de la mortalité des assurés. Cependant, dans le cas de lancement de
produit d’assurance vie dans des pays émergents, les données historiques sur la mortalité
sont souvent défaillantes voire inexistantes.
Pour détourner ce problème, les souscripteurs utilisent dans les meilleurs cas des tables
représentant la mortalité de la population générale du pays ciblé, et parfois, d’anciennes
tables de certains pays développés comme la France ou le Royaume Uni, auxquelles ils
appliquent des abattements qu’ils déterminent par l’expérience des années qui suivent.
Ce procédé d’estimation du niveau de mortalité induit souvent d’importants écarts entre le
risque estimé et le risque réel auquel l’assureur est exposé. Pour certains pays émergents,
les assurés représentent une population minoritaire qui a des conditions de vie
significativement meilleures par rapport à celles de l’ensemble de la population.
Cela justifie donc l’intérêt de trouver un modèle qui permettra d’expliquer les écarts entre la
mortalité de la population générale, et la mortalité de la population assurée.
8
I. Analyse de la problématique
Dans l’article de Kamega et Planchet (2011), la comparaison entre la population générale et
assurée en Afrique subsaharienne francophone, en termes de niveaux de mortalité par pays
et par sexe, a montré que les abattements à effectuer pour le passage de la population
générale à la population assurée sont compris entre 66% et 92%. Ces résultats indiquent que
pour ces pays, le niveau de mortalité des assurés est compris entre 8% et 34% de celui de la
population générale. Cela s’explique principalement par les inégalités observées dans l’accès
aux soins et dans les conditions de vie.
Dans son analyse de l’évolution démographique en France, Landry (1982) affirme que la
France a connu une transition démographique, caractérisée par une baisse significative de la
mortalité en 1934. Parmi les causes de cette transition démographique, il cite l’amélioration
des infrastructures, des soins et de l’hygiène, ainsi que le développement de la médecine.
Ces évolutions ont bénéficié en premier lieu à la minorité la plus aisée de la société. Ainsi, la
mortalité d’une partie de la société se retrouve diminuée de manière significative par
rapport au reste de la population. Landry confirme l’existence des inégalités face à la mort
entre les classes sociales, ainsi que la contribution du développement dans l’accentuation de
ces dernières en mentionnant dans son ouvrage que « quand la médecine et l’hygiène
étaient en enfance, ces inégalités ne devaient pas être très grandes, [mais] lorsqu’au cours
du 19ème siècle la médecine et l’hygiène ont progressé à pas de géant, le profit en a tout
d’abord été pour les gens riches ou aisés, beaucoup plus que pour les pauvres, d’où un
avantage considérable de ceux – là sur ceux-ci ».
En partant du principe que les pays émergeants et quelques pays du tiers monde
connaissent actuellement un développement économique et social rapide, il est alors
naturel de penser que ces derniers soient en pleine transition démographique, similaire à
celle qu’a connue la France en 1934, avec les inégalités face à la mort que cela engendre
entre les différentes classes sociales.
Dans les pays émergents, le taux de pénétration de l’assurance vie est très faible, ce dernier
ne dépasse pas 0,3% dans les pays d’Afrique subsaharienne (Kamega & Planchet, 2011), ce
qui implique que la population assurée n’est qu’une très petite minorité favorisée, qui est
souvent caractérisée par de meilleures conditions de vie comparées à ceux de la population
générale. Ainsi, la mortalité de la population générale n’est pas représentative de celle de la
population assurée. En prenant le niveau de mortalité de la population générale, à partir
des bases de données publiques (O.M.S., 2011), les compagnies d’assurance surestiment, et
de manière significative, le risque de mortalité.
Il faudra donc trouver un moyen simple qui nous permettra d’anticiper les écarts entre la
mortalité des assurées et celle de la population générale sans avoir besoin d’utiliser des
données historiques des assurés.
9
Sachant que le niveau de développement ainsi que la qualité de vie et des soins dans un pays
peuvent être quantifiés par des indicateurs sociaux économiques, nous avons donc pensé à
les utiliser pour expliquer les écarts de mortalité observés entre les assurés et la population
générale, et développer ainsi un modèle mathématique qui nous permettra d’anticiper ces
derniers pour les pays dont nous n’avons pas les données des assurés.
Nous avons donc besoin de constituer une base de données qui soit composée de tables de
mortalité des assurés, de tables de mortalité de la population générale, et de certains
indicateurs socio-économiques.
Dans la suite de ce document, nous allons dans un premier temps expliquer comment nous
avons constitué la base de données des tables de mortalité des assurés et des populations
générales de différents pays, ainsi que les traitements préalables que nous avons effectués
sur ces derniers. Nous donnerons aussi l’ensemble des indicateurs socio-économiques
utilisés dans notre étude, en précisant les raisons pour lesquelles nous les avons choisis.
Dans un deuxième temps, nous analyserons le comportement de la mortalité en fonction de
l’âge, du sexe et du pays, ainsi que de la source d’où la table a été collectée. Par la suite, les
choix de modélisation seront pris suite à notre analyse. Et enfin, nous détaillerons les
différentes étapes de modélisation, et nous testerons les différents modèles que nous avons
développés.
10
II. Construction de la base de données
Comme nous l’avons précisé précédemment, la base de données utilisée dans notre étude
est constituée de tables de mortalités des assurés et de populations générales de plusieurs
pays, ainsi que d’un ensemble d’indicateurs socio-économiques.
A. Tables de mortalité
Une table de mortalité est, d’après l’INSEE, une table annuelle qui suit le cheminement
d'une génération fictive de 100 000 nouveau-nés à qui l'on fait subir aux divers âges les
conditions de mortalité observées sur les diverses générations réelles, durant l'année
étudiée. Pour éviter les aléas des tables annuelles et pour disposer d'une table détaillée par
âge aussi précise que possible, on calcule également une table de mortalité couvrant une
période de trois années. Il existe deux types de tables, les tables du moment et les tables
prospectives qui prennent en compte l’évolution de la mortalité dans le temps.
Les tables nous donnent la probabilité de décès par âge, pour une durée d’un an. Celles
utilisées par les assureurs pour leurs tarifs et leurs provisions sont très encadrées par la
réglementation (Planchet & Thérond, 2006). Les tables de la population générale sont
utilisées par défaut. En France, les contextes et les conditions d’utilisation des tables propres
aux compagnies d’assurance sont prévus par la réglementation. L’article A335-1 du Code des
Assurances précise ces derniers.
Dans cette partie, nous faisons un inventaire des tables que nous avons pu collecter, en
précisant les traitements que nous avons effectués pour avoir les taux de décès par âge
pour certains pays.
1. Tables de mortalité des assurés
La mortalité des assurés est fortement influencée par les conditions de souscription. Elle
varie aussi en fonction du type de la population assurée (classe ouvrière, cadres supérieurs..)
et du type de produit (contrats individuels, contrats groupes…). N’ayant pas suffisamment
de tables de mortalité pour tous les types de contrats, et afin de limiter les biais liés à la
politique de souscription et au type de population, nous allons nous contenter d’étudier la
mortalité des assurés de manière générale. Nous utiliserons alors, pour un même pays, des
tables agrégées de plusieurs compagnies d’assurances, regroupant plusieurs types de
contrats. Notre principale source est la base publique de la SOA (Society Of Actuaries). Vu le
11
nombre limité de tables agrégées que nous avons pu collecter, nous avons aussi utilisé
quelques tables d’expériences propres aux entités d’AXA. Ces dernières sont principalement
des tables utilisées pour tarifier tout type de produits. Les tables d’expériences spécifiques à
un type de contrat déterminé n’ont pas été prises en compte.
Nous avons aussi pu collecter, pour chaque sexe, une table d’assurés agrégée regroupant
trois pays de l’Afrique centrale, qui sont le Togo, le Mali et la Côte d’Ivoire. Dans l’article de
Kamega et Planchet (2011), nous retrouvons des taux de décès pour les assurés avec
l’exposition totale par sexe. Sachant que nous disposons de l’exposition pour les assurés
pour chaque pays et pour les deux sexes, nous avons donc utilisé le taux global pour ajuster
la table agrégée, et avoir ainsi une table par pays et par sexe.
Nous avons ainsi collecté des tables de mortalité d’assurés pour dix-sept pays, pour des
dates différentes (Tableau 1: Sources des tables de la population assurée).
Tableau 1: Sources des tables de la population assurée
Nous prenons soin de préciser l’année d’usage de chaque table, car sachant que la mortalité évolue
avec les années, nous devons comparer chaque table avec la table de mortalité de la population
générale équivalente de l’année la plus proche.
Pays année source des tables de la population assuré
Germany 2008 DÄV (table réglementaire)
Belgium 2007 Assuralia (table réglementaire)
Brazil 2010 Base de données de la SOA
Mexico 2000 AXA
New Zealand 1995 Base de données de la SOA
Finland 1987 Base de données de la SOA
Japan 1991 Base de données de la SOA
Australia 1992 Base de données de la SOA
Canada 1992 Base de données de la SOA
USA 2001 Base de données de la SOA
Malaysia 1996 Base de données de la SOA
China 1993 Base de données de la SOA
UK 2000 Base de données de la SOA
Maroc 2000 Caisse de retraite CIMR
Italy 2000 AXA
Mali 2006 Table (ajustée) issue de données d'assurés
Togo 2006 Table (ajustée) issue de données d'assurés
Côte d'Ivoire 2006 Table (ajustée) issue de données d'assurés
Kenya 2006 Table (ajustée) issue de données d'assurés
12
2. Tables de mortalité nationales
Notre principale source de données des tables de mortalité de la population générale est la
base HMD (Human Mortality Database). HMD a été créée par le département des études
démographiques à l’université de Berkeley en collaboration avec l’institut Max Planck.
Cependant, les données ne concernent qu’un nombre limité de pays. Les tables issues du
site HMD sont complètes, elles représentent des taux de décès bruts par âge. Les expositions
au risque décès qui ont servi pour construire les tables de mortalité sont importantes, ce qui
a permis d’avoir des sauts des taux négligeables entre chaque âge (Figure 1 : Taux bruts de la
mortalité de la population du Japon issus de la base HMD). Ainsi il n’était pas nécessaire de
procéder à un traitement particulier.
Figure 1 : Taux bruts de la mortalité de la population du Japon issus de la base HMD
En ce qui concerne les pays pour lesquels nous ne retrouvons pas de table dans la base de
données HMD, nous récupérons l’information sur les taux de mortalité à partir de la base de
données de l’Organisation Mondiale de la Santé (O.M.S.). Les données de l’O.M.S. sont sous
forme de tables de mortalité sur cinq ans, donnant pour chaque âge x, la probabilité de
décès entre x et x+5, que nous notons . Nous avons alors procédé à un traitement
préliminaire des données pour avoir la probabilité de décès sur un an pour chaque âge que
nous notons usuellement .
Nous supposons que le taux du hasard que nous notons ( ) suit une loi de Gompertz-
Makeham
( )
0,00%
0,50%
1,00%
1,50%
2,00%
2,50%
3,00%
qx
Age
13
Où a, b et c sont trois constantes que nous estimerons pour chaque pays.
Sachant que la fonction de survie ( ) est liée au taux du hasard par l’égalité suivante
( ) ( ∫ ( )
)
Et puisque pour
( )
( )
Alors
(
( ) ( ))
(1)
Nous estimons ensuite les paramètres (a,b,c) par la méthode des moindres carrés ordinaires
en minimisant la somme des écarts au carré
( ) ( ) (∑(
)
)
Où est la valeur de la probabilité de décès entre l’âge et l’âge donnée par la
table de l’OMS, et ( ) l’estimation des paramètres ( ).
Nous retrouvons les estimations de ( ) par l’utilisation du module Solveur de l’outil
Excel.
Nous calculons ensuite la probabilité de décès sur un an pour chaque âge en utilisant
l’équation (
( ) ( )) pour n=1. Nous obtenons ainsi les
tables de la population générale équivalentes à celles collectées pour les assurés (Tableau 2:
Sources des tables de la population générale).
14
Tableau 2: Sources des tables de la population générale
Il est à noter que d’après des sources de l’institut national des études démographiques
(I.N.E.D.), les estimations de l’O.M.S. sont presque exclusivement basées sur une
combinaison entre la mortalité infantile et un modèle relationnel de type Logit (modifié),
combinaison à laquelle sont ajoutés ensuite les décès liés au VIH. Toujours d’après des
sources de l’I.N.E.D. , les chiffres de l’O.M.S. (O.M.S., 2011) ont pour but principal d’être
intégrés à des données de prévalence d’incapacité afin de fournir un indicateur d’espérance
de vie en santé qui doit mettre désormais l’accent sur le handicap et non plus sur la maladie
ou la mort. Il est bien indiqué sur le site que ces données résultent de modélisations.
Néanmoins, les niveaux de mortalité proposés par l’O.M.S. pour certains pays sont plutôt
proches de la réalité. Nous utiliserons ces derniers car nous n’avons pas d’autres
alternatives,.
B. Indicateurs socio-économiques
Nous cherchons à expliquer les différences observées entre pays sur les écarts entre
mortalité nationale et mortalité des assurés. Il est donc naturel de penser que les variables
explicatives seront un ensemble d’indicateurs socio-économiques qui donnent une image du
profil de chaque pays en termes d’égalité dans l’accès aux soins et la qualité de vie. Nos
Pays année source des tables de la population générale
Germany 2008 Human Mortality Database
Belgium 2007 Human Mortality Database
Brazil 2008 Organisation Mondiale de la Santé
Mexico 2000 Organisation Mondiale de la Santé
New Zealand 1995 Human Mortality Database
Finland 1987 Human Mortality Database
Japan 1991 Human Mortality Database
Australia 1992 Human Mortality Database
Canada 1992 Human Mortality Database
USA 2001 Human Mortality Database
Malaysia 1996 Organisation Mondiale de la Santé
China 1993 Organisation Mondiale de la Santé
UK 2000 Human Mortality Database
Maroc 2000 Organisation Mondiale de la Santé
Italy 2000 Human Mortality Database
Mali 2008 Organisation Mondiale de la Santé
Togo 2008 Organisation Mondiale de la Santé
Côte d'Ivoire 2008 Organisation Mondiale de la Santé
Kenya 2008 Organisation Mondiale de la Santé
15
principales sources de données seront alors la base de données de l’OMS et celle du PNUD
(Programme des Nations Unies pour le développement). Sachant qu’il existe un très grand
nombre d’indicateurs socio-économiques, nous devons dans un premier temps sélectionner
ceux qui sont potentiellement capables d’expliquer les écarts de mortalité entre les assurés
et la population générale. Ainsi, par une analyse qualitative nous choisissons des indicateurs
qui impactent le niveau de mortalité. Nous donnons dans la suite de ce document la liste des
indicateurs que nous avons retenus pour notre étude, avec la justification du choix.
Dépenses totales de santé par personne [THE: Per capita Total Expenditure on
Health]
Cet indicateur donne le montant total des dépenses de santé par tête. Il représente en
quelque sorte l’importance donnée à la santé dans un pays, et les moyens mis à disposition
pour accéder aux soins. Nous aurons tendance à croire que plus la valeur de cet indice est
élevée, plus les écarts de mortalité seront petits, puisque une valeur élevée de cet indicateur
signifie que la population générale a des moyens importants qui sont mis à disposition pour
garantir la bonne santé du citoyen.
Produit intérieur brut par habitant [GNI: Gross National Income per capita]
Cet indicateur représente le produit intérieur brut par tête. Il donne une idée sur la richesse
du pays. Plus le pays est riche, plus les conditions de vie de manière globale sont bonnes.
D’après le rapport de l’OCDE (2011), qui présente les données les plus récentes et les tendances
de différents aspects des performances des systèmes de santé des pays de l’OCDE, il est mentionné
qu’une augmentation du PIB s’accompagne généralement par une augmentation de
l’espérance de vie à la naissance. Cette affirmation indique une corrélation entre la mortalité
et le PIB, nous pouvons donc espérer retrouver un lien entre cet indice et l’écart de mortalité
entre population générale et population assurée.
Pourcentage de la population vivant en zone urbaine [UA: Population living in Urban
Areas]
Cet indicateur donne le pourcentage de la population vivant dans les zones urbaines. Dans
les pays émergents et les pays sous-développés, les populations vivant dans les zones rurales
ont des conditions particulièrement difficiles, ce qui induit une espérance de vie très faible
comparée à celle de la population vivant dans les zones Urbaines (Pison, Van de Walle, &
Sala-Diakanda, 1989). Dans l’article de Kamega et Planchet (2011), les auteurs observent que
dans la sous-région UEMOA de l’Afrique sub-saharienne, les deux pays ayant les taux
d’urbanisation les plus faibles, le Burkina Faso et le Niger, sont également ceux ayant les
taux de mortalité les plus élevés. Et pour les deux pays ayant les taux d’urbanisation les plus
élevés, le Congo et le Gabon sont ceux qui ont les taux de mortalité les plus faibles. Ainsi le
taux d’urbanisation impacte le niveau de mortalité, d’où la pertinence du choix.
16
Esperance de vie à la naissance [LE: Life Expectancy at birth]
Cet indicateur donne l’espérance de vie à la naissance. Une moyenne nationale d’espérance
de vie élevée, proche de celle d’un individu en bonne santé, signifie qu’une très grande
partie de la population a une espérance élevée. Cela implique que nous retrouverons peu
d’écart entre les différentes classes de populations. Et une espérance de vie moyenne basse,
implique qu’il existe une population significative qui a des taux de décès très élevés. Cela
explique les raisons du choix de cet indicateur.
On peut s’attendre à ce que cet indicateur explique de manière significative les écarts de
mortalité entre population générale et population assurée. Cependant, la mortalité infantile
impacte l’espérance de vie à la naissance. Nous devons donc vérifier si la mortalité infantile
est une information supplémentaire aussi importante que les informations apportées par les
autres indicateurs, pour expliquer la variation du niveau de mortalité.
Mortalité infantile :
Pour les raisons citées précédemment, nous avons besoin d’avoir des indicateurs qui nous
donnerons une image complète de la mortalité infantile. Nous avons donc choisi un
ensemble d’indicateurs comprenant ceux pour certaines maladies qui touchent fortement
les enfants comme la rougeole. Ainsi nous testerons la liste suivante :
o Neonatal mortality rate (per 1000 live births): Cet indicateur donne le taux de
décès des nourrissons, quelques jours après la naissance.
o MDG 4 Infant mortality rate (probability of dying by age 1 per 1000 live
births): Cet indicateur donne le taux de décès des enfants âgés d’un an.
o MDG 4 Under-five mortality rate (probability of dying by age 5 per 1000 live
births): Cet indicateur donne le taux de décès des enfants âgés de moins de
cinq ans.
o Diarrhea: Cet indicateur donne le taux de prévalence de la maladie de la
Diarrhée.
o Malaria: Cet indicateur donne le taux de prévalence de la maladie de la
Malaria.
o Measles: Cet indicateur donne le taux de prévalence de la maladie de la
rougeole
Indice du développement humain (IDH)
Le premier Rapport de la PNUD sur le développement humain a introduit une nouvelle
manière de mesurer le développement en faisant la synthèse des indicateurs d'espérance de
vie, de niveau d'études et de revenu, pour aboutir à un indicateur composite du
développement humain, l'IDH. Le tournant décisif pour l'IDH fut la création d'une statistique
unique destinée à servir de cadre de référence pour le développement économique et
social.
17
Selon le site web de la PNUD (2011), la composante « éducation » de l’IDH est mesurée en
termes d’années de scolarisation des adultes âgés de 25 ans et en termes d’années de
scolarisation escomptées pour les enfants d’âge scolaire. Les années de scolarisation
moyennes sont estimées sur la base de la durée de la scolarité pour chaque niveau éducatif.
La composante « espérance de vie à la naissance » de l’IDH est calculée en utilisant une
valeur minimale de 20 ans et une valeur maximale de 83,4 ans. Pour la composante «
richesse », le plancher pour le revenu minimum est de $100 et le plafond est de $107.721.
L’IDH utilise le logarithme de revenue pour refléter l’importance décroissante du revenu au
fur et à mesure de l’augmentation du revenu national brut. Les scores pour les trois indices
des dimensions de l’IDH sont ensuite combinés dans un indice composite en utilisant une
moyenne géométrique. L’IDH permet d’effectuer des comparaisons instructives des
expériences en matière de développement humain entre différents pays.
Cet indicateur, par sa composante « espérance de vie », est donc fortement corrélé avec la
mortalité. Ce qui explique notre choix. D’autant plus que les composants (niveaux d’étude et
revenu) apportent des compléments d’information qui nous permettent d’avoir une image
de la qualité de vie. Il est donc fort probable que l’indice IDH puisse expliquer les écarts de
mortalité.
Il peut en effet sembler qu’il y a une redondance dans l’information entre l’IDH et
l’espérance de vie. Cependant le premier indice comporte des informations supplémentaires
qui peuvent être utiles pour expliquer les écarts de mortalité. Et si ce n’est pas le cas, nous
isolerons l’information du niveau de mortalité par l’indice de l’espérance de vie à la
naissance.
VIH/SIDA
Cet indicateur donne le taux de prévalence du SIDA. Kamega et Planchet (2011) montrent
que pour les pays avec un fort taux, le phénomène de la surmortalité en zone rurale est
moins marqué. Ils donnent l’exemple du Tchad qui, malgré un taux d’urbanisation plus faible
que ceux de ses voisins, a un niveau de mortalité est plus faible que celui du Cameroun,
caractérisé par un taux de prévalence du SIDA plus important.
Il est donc important d’inclure cet indicateur parmi ceux que nous testerons pour expliquer
les écarts de mortalité entre assurés et la population générale.
Pourcentage des dépenses des foyers nettes d’assurance [Out-of-pocket expenditure
as a percentage of private expenditure on health]
Cet indicateur concerne le pourcentage des dépenses des foyers en santé nettes
d’assurance. Un pays où la valeur de cet indice est élevée signifie que la qualité de la
couverture santé dépend beaucoup de la richesse. Cela implique des écarts importants de la
mortalité entre les classes sociales.
18
Dépenses gouvernementales de santé en pourcentage des dépenses totales de santé
[General government expenditure on health as a percentage of total expenditure on
health]
Cet indicateur établit le pourcentage des dépenses gouvernementales en santé par rapport
aux dépenses totales en santé. Dans un pays, plus ce pourcentage sera important, plus les
moyens publics mis à disposition pour les soins seront importants, ce qui laisse penser que
l’accès aux soins dépendra moins de la richesse de l’individu. Donc cet indicateur peut
expliquer en partie les différences entre pays observées sur les écarts de mortalité.
Dépenses gouvernementales en santé en pourcentage des dépenses
gouvernementales totales [General government expenditure on health as a
percentage of total government expenditure]
Cet indicateur donne le pourcentage des dépenses gouvernementales en santé par rapport
aux dépenses gouvernementales totales. Un pays avec un pourcentage élevé, signifie que ce
dernier bénéficie de solides infrastructures dédiées à la santé, et nous pouvons donc nous
attendre à avoir une bonne espérance de vie de la population générale de ce dernier.
Pourcentage des dépenses en santé couvert par le privé [Private expenditure on
health as a percentage of total expenditure on health]
Cet indicateur donne le pourcentage couvert par le privé des dépenses en santé. Il nous
informe de la part couverte, en termes de soins, par les assurances et les moyens de
l’individu. Il est logique de penser que ce pourcentage peut expliquer des inégalités en
matière d’accès aux soins, et ainsi des inégalités face à la mort.
Degré des inégalités de la distribution des revenus [GINI : indice nommé au nom du
sociologiste Corrado Gini]
Cet indicateur est une mesure du degré d'inégalité de la distribution des revenus dans une
société donnée. Plus la valeur de cet indice est élevée, plus les inégalités sont importantes
en matière de revenu. D’après un rapport de la commission européenne (Bernner &
Hopkins, 2006), les études menées par les investigateurs montre que les inégalités de
revenus ont un effet néfaste sur la mortalité de la population. Les inégalités de revenu,
mesurées par l’indice GINI, constituaient un facteur important d’augmentation des taux de
mortalité.
19
III. Réduction du nombre des indicateurs socio-économiques choisis
Les indicateurs que nous avons choisis précédemment, par une analyse qualitative, sont
destinés à servir de variables explicatives aux modèles linéaires, qui seront développés dans
la suite de ce document. Ainsi, nous avons retenu 17 indicateurs dans un premier temps.
Cependant, nous n’avons que 19 pays pour lesquels nous avons pu collecter des données sur
le taux de décès des assurés. Cela réduit donc la taille de l’échantillon des variables à
expliquer à 18, ce qui est très peu vis-à-vis du nombre des variables explicatives potentielles.
Nous devons donc réduire le nombre des indicateurs choisis, en éliminant ceux qui sont les
moins pertinents pour expliquer les écarts de mortalité.
Pour réduire le nombre de variables explicatives potentielles, nous procédons à une analyse
exploratoire des données, dont nous détaillons dans la suite les techniques statistiques
utilisées, et qui nous permettra de répertorier les indicateurs qui expliquent le plus le
comportement de la mortalité d’un pays à un autre.
Pour pallier le problème de la taille réduite de l’échantillon des rapports de mortalité, nous
supposons que la moyenne de l’espérance de vie à la naissance d’un pays donne une idée
sur les écarts entre la mortalité des assurés et celle de la population générale. Ainsi, nous
pouvons faire l’analyse exploratoire sur l’ensemble des pays disponibles dans la base de
l’OMS, à savoir 120 pays dans notre cas, en prenant comme élément de référence
l’espérance de vie à la naissance pour le choix des indicateurs. Cette taille d’échantillon bien
plus importante, permet alors d’améliorer l’efficience des méthodes statistiques utilisée
pour la classification.
A. Analyse exploratoire des données.
L’objectif de l’analyse exploratoire des données est de répertorier en classes un ensemble
d’individus à partir des valeurs d’un certain nombre de variables. Sachant que dans notre
cas, nous nous intéressons dans un premier temps au regroupement des indicateurs socio-
économiques et non pas à celui des pays, nous allons donc considérer les indicateurs comme
des individus, et les variables dans ce cas seront alors les vecteurs des valeurs de ces
derniers pour chaque pays. Cela suppose bien évidemment de rendre centrés réduits les
vecteurs des indicateurs, puisque ces derniers n’ont pas la même unité de mesure.
Les indicateurs qui se retrouveront dans la même classe que l’espérance de vie seront alors
considérés comme ceux qui sont les plus liés à la mortalité et donc qui ont de plus grandes
chances d’expliquer les écarts observés entre population générale et population assurée.
20
1. L’ACP commé prétraitémént pour la classification dés
indicateurs
Une première méthode est l’analyse en composantes principales (ACP). Les vecteurs des
indicateurs socio-économiques constitués des valeurs standardisées pour différents pays
sont représentés dans un espace euclidien à grande dimension, et l’étude des similarités
entre ces derniers correspond à une étude de la forme du nuage des points. L’analyse en
composantes principales permet de représenter le nuage des points dans un sous-espace de
dimension inférieure, en gardant le plus fidèlement possible les distances entre les
indicateurs. L’ACP permet d’obtenir des composantes principales qui sont des variables
synthétiques orthogonales (Husson, Josse, & Pagès, 2010). Elle peut aussi être présentée
comme la décomposition des données en un signal plus du bruit, les premières dimensions
correspondant au signal et les dernières au bruit. De ce fait, l’ACP peut servir de
prétraitement à la classification (que nous présentons par la suite sous le nom Anglo-Saxon
Clustering). Seules les premières dimensions sont conservées pour calculer de nouvelles
distances entre individus. Sans le bruit, la classification est plus robuste que celle obtenue
sur les distances initiales.
2. Classification des indicateurs par arbre hiérarchique
a) Clustering hiérarchique et critère de Ward
Une deuxième méthode d’étude des rapprochements entre indicateurs est le Clustering
hiérarchique. Cette dernière nécessite la définition d’une distance (distance de Manhattan,
distance euclidienne…) ainsi que d’un critère de regroupement (méthode de Ward, Single…).
La Clustering hiérarchique est représenté par un arbre appelé dendrogramm.
Pour le clustering hiérarchique qui est implémenté dans le package FactoMineR du logiciel R
et que nous avons utilisé, la distance utilisée est la distance Euclidienne, et le critère choisi
est le critère de Ward.
Le critère de Ward, d’après l’article des développeurs du Package FactoMineR (Husson,
Josse, & Pagès, 2010), se base sur le théorème de Huygens de la décomposition de la
variance totale.
∑∑∑( )
∑∑ ( )
∑∑∑( )
21
Avec est la valeur standardisée de l’indicateur i de la classe q du pays k, est la
moyenne des valeurs standardisées des indicateurs de la classe q du pays k, est la
moyenne de toutes les valeurs du pays k et est le nombre d’indices contenus dans la classe
q.
En partant du point où chaque indice est une classe, la méthode de Ward consiste à agréger
deux classes, tel que la croissance de l’inertie (variance) intra classes soit minimum à chaque
étape de l’algorithme. L’inertie intra classe caractérise l’homogénéité de chaque classe. La
hiérarchie des différentes étapes de regroupement est représentée par un dendrogramme
qui est indexé par le gain en inertie intra classes. A la base du dendrogramme nous avons
une inertie intra classe nulle, et cette dernière atteint sa valeur maximale au sommet de
l’arbre où tous les indices standardisés sont dans une seule classe.
Comme précisé précédemment, cette classification hiérarchique est appliquée sur les
composantes principales.
b) Le choix du nombre de classes de l’arbre hiérarchique
Le choix du nombre de classe à retenir est primordial et plusieurs méthodes sont présentées
dans la littérature (Husson, Josse, & Pagès, 2010) . Un arbre hiérarchique peut être considéré
comme une séquence de partitions emboîtées, de la plus précise (un indice par classe) à la
plus grossière (une seule classe). Ainsi une hiérarchie est extrêmement utile pour déterminer
le nombre de classes. Ce choix peut être fait à partir de l’allure générale de l’arbre, du niveau
des nœuds, du nombre de classe (qui doit être ni trop grand ni trop faible), et du graphe « de
barres » représentant le gain en inertie intra classes.
Nous choisissons de diviser les indices en Q classes si le passage de Q classes à Q-1 classes
induit une augmentation de l’inertie inter classes significativement plus importante que celle
du passage de Q+1 à Q classes. En notant ( ) la croissance de l’inertie inter classes entre
Q-1 et Q, la formalisation du critère est alors la suivante :
( ( )
( ))
B. Résultats dé l’analysé éxploratoiré
Nous comprenons d’après la description des techniques statistiques utilisées pour la
classification des indices socio-économiques, dont les valeurs ont été préalablement
22
centrées et réduites, que le regroupement se fait principalement sur la variabilité de ces
derniers d’un pays à un autre. Si deux indices se retrouvent dans la même classe, à un niveau
bas dans l’arbre hiérarchique, cela indique que ces derniers ont le même comportement,
donc ils ont de fortes chances d’être corrélés. Tandis que si deux indices se retrouvent dans
une classe à un niveau très haut dans l’arbre, qu’ils sont très distants et varient
différemment, il y a moins de chance de trouver une corrélation entre les deux.
Figure 2: Résultat de la classification hiérarchique des indicateurs socio-économiques
D’après l’aspect général de l’arbre hiérarchique de la Figure 2: Résultat de la classification
hiérarchique des indicateurs socio-économiques, la méthode décrite dans le paragraphe III.A
propose un regroupement en trois classes distinctes. En effet le graphe des barres
représentant le gain en inertie intra classes présente une décroissance (i.e. une croissance
de l’inertie inter classes) significativement plus importante entre le niveau 2 et 3 que celle
observée entre le niveau 3 et 4. Cela explique donc le choix de trois classes. D’autant plus
23
qu’il est intéressant de voir que l’ensemble des indicateurs des épidémies sont regroupés
dans la même classe que ceux représentant la mortalité infantile. L’espérance de vie quant à
elle se retrouve dans une classe distincte. Nous pouvons interpréter cela comme étant que
la mortalité infantile et les pandémies qui touchent principalement les enfants impactent de
manière moins importante la mortalité générale que la richesse du pays ou les moyens mis à
disposition pour la santé.
Nous allons donc conserver uniquement les indicateurs qui se retrouvent dans la même
classe que ceux de l’espérance de vie à la naissance, à savoir les éléments suivants :
Dépenses totales en santé par personne [THE: Per capita total expenditure on health
(PPP int. $)]
Produit intérieur brut par habitant [GNI: Gross national income per capita (PPP int.
$)]
Indice de développement humain [IDH: HDI value]
Pourcentage de la population vivant en zone urbaine [UA: Population living in urban
areas (%)]
Esperance de vie à la naissance [LE: Life expectancy at birth]
Pourcentage des dépenses des foyers nettes d’assurance [Out-of-pocket expenditure
as a percentage of private expenditure on health]
Dépenses gouvernementales en santé en pourcentage des dépenses totales en santé
[General government expenditure on health as a percentage of total expenditure on
health]
Dépenses gouvernementales en santé en pourcentage des dépenses
gouvernementales totales [General government expenditure on health as a
percentage of total government expenditure]
Pourcentage des dépenses en santé couvert par le privé [Private expenditure on
health as a percentage of total expenditure on health]
Pour corroborer l’hypothèse que nous avons prise concernant le lien étroit entre l’espérance
de vie à la naissance et le rapport des taux de mortalité entre assurés et population
générale, nous allons effectuer la même analyse exploratoire sur notre échantillon des
rapports des taux pour les hommes noté Tx homme ainsi que sur l’ensemble des indicateurs
que nous avons finalement retenus.
24
Figure 3: Classification hiérarchique sur l’échantillon comprenant les rapports de mortalité assurés / population générale
La Figure 3: Classification hiérarchique sur l’échantillon comprenant les rapports de mortalité
assurés / population générale nous montre que l’indice de l’espérance de vie est regroupé avec
les rapports des taux de mortalité à un niveau bas dans l’arbre hiérarchique, ce qui
confirme notre hypothèse. Ce qui est surprenant c’est la position de l’indice représentant le
taux de la population urbaine, qui se retrouve regroupé avec les rapports des taux à un
niveau encore plus bas. Toujours d’après l’arbre hiérarchique l’indice qui aura le plus de
chance d’expliquer les rapports des taux de mortalité entre assurés et population générale
est celui du développement humain. Ces résultats, malgré leur pertinence, doivent être pris
avec précaution, puisqu’ils résultent d’un échantillon de taille modeste. Cependant ils nous
permettent d’avoir une idée sur les indicateurs à tester en premier comme variables
aléatoires.
25
IV. Analyse des écarts de la mortalité entre les assurés et la population générale
A. Analyse des écarts de mortalité par âge
La probabilité de décès d’une personne dépend principalement de son âge. Ainsi, nous
pouvons penser que l’écart de mortalité observé entre la population générale et la
population assurée variera en fonction de l’âge. Pour confirmer cette hypothèse, nous avons
observé l’évolution des rapports des taux de mortalité entre les deux populations en
fonction de l’âge pour plusieurs pays.
Figure 4 : Evolution du rapport des taux Assurés/Population générale en fonction de l'âge
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Age
Chine 1993
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Age
UK 2000
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Age
Mali 2006
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Age
Côte d'Ivoire
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Age
Brazil 2010
0,00
0,20
0,40
0,60
0,80
1,00
1,20
Age
Australie 1992
26
Nous remarquons que les courbes des rapports des taux évoluent en fonction de l’âge
différemment d’un pays à un autre (Figure 4 : Evolution du rapport des taux Assurés/Population
générale en fonction de l'âge). Nous observons aussi des similitudes très marquées des formes
des courbes entre certains pays, comme la Chine et le Brésil, l’Angleterre et l’Australie, et
enfin le Mali et la Côte d’ivoire. En analysant les sources des tables de mortalité, nous
remarquons que ces dernières sont la principale raison de ces similitudes. En effet, à titre
d’exemple, les sources des tables de mortalité pour la Chine et le Brésil, sont le principal
point commun entre les deux pays, car les tables de la population assurée proviennent de la
base de la SOA, et les tables de la population générale proviennent de la base de l’O.M.S.
Tandis que pour l’Australie et l’Angleterre, la source des tables de la population générale est
la base H.M.D (Voir le Tableau 1: Sources des tables de la population assurée et le Tableau 2:
Sources des tables de la population générale). Nous pouvons donc conclure que la source des
tables de mortalité influence les rapports des taux de décès. Cette influence est plus
prononcée pour les jeunes âges. Pour les âges supérieurs à 35 ans, le phénomène est
atténué. Nous savons aussi que, à cause de la faible exposition des âges élevés, les taux
proposés par les tables sont souvent le résultat des projections et des extrapolations
obtenues en utilisant des méthodes type Lee-Carter et Log-Poisson (Planchet & Lelieur,
2010). Ainsi les taux pour les âges supérieurs à 65 ans (souvent utilisé comme limite d’âge en
souscription en assurance vie) dépendent fortement des méthodes statistiques utilisées.
L’analyse préalable du comportement de mortalité nous a donc conduit à restreindre l’étude
sur les âges compris entre 35 ans et 65 ans.
B. Analyse des écarts de mortalité en fonction du sexe
La distinction entre les hommes et les femmes, que nous retrouvons dans les tables de
tarification des produits d’assurance vie, est principalement justifiée par le comportement
de la mortalité qui varie significativement entre les deux sexes. Nous devons donc vérifier si
ce phénomène impacte les écarts entre la mortalité des assurés et celle de la population
générale. Pour cela, nous calculons les rapports des taux entre les deux populations, pour
différents pays en distinguant les deux sexes. Nous calculons ensuite les moyennes
arithmétiques des rapports des taux, que nous notons , pour les âges compris entre 35
ans et 65 ans tel que :
∑
La figure ci-dessous donne l’ensemble des résultats trouvés par âge et pour les différents
pays.
27
Figure 5: moyennes, par sexe et par pays, des rapports de taux entre population générale et assurée
Nous observons dans la Figure 5: moyennes, par sexe et par pays, des rapports de taux entre
population générale et assurée que les rapports varient d’un pays à un autre différemment
entre les deux sexes. A titre d’exemple, le Mali est caractérisé par un rapport pour les
hommes inférieur à celui du Togo, tandis que nous observons l’inverse pour les femmes.
Nous remarquons aussi que les sont souvent significativement différents entre les
hommes et les femmes dans un même pays. Nous concluons donc que l’écart entre la
mortalité de la population assurée et celle de la population générale dépendra du sexe de la
population concernée. Cela implique que nous devons faire la distinction entre les hommes
et les femmes dans notre étude.
Pour modéliser les variations observées d’un pays à un autre sur les écarts de mortalité
entre la population assurée et la population générale, nous avons utilisé deux approches
différentes.
La première approche consiste à expliquer le rapport moyen des taux de mortalité entre 35
ans et 65 ans par des indicateurs socio-économiques.
Les pays d’Afrique subsaharienne présentent des rapports de taux de mortalité, entre
population assurée et population générale, significativement bas par rapport aux autres
pays. Certains indicateurs, comme le taux de prévalence du SIDA et le taux de mortalité
infantile présentent des valeurs extrêmes. Cela implique que certains facteurs, qui impactent
significativement les écarts de mortalité entre les assurés et la population générale dans les
pays développés, peuvent voir leurs effets atténués et de manière importante face à ceux du
SIDA ou de la mortalité infantile par exemple. Puisque notre échantillon n’est composé que
de 19 pays dont le Mali, le Togo, le Kenya et la Côte d’Ivoire, nous construisons donc, dans
un premier temps, un modèle basé sur des données excluant les quatre pays d’Afrique
0
0,2
0,4
0,6
0,8
1
1,2
Mal
i-20
06
Co
te d
'ivo
ir-2
006
Togo
-20
06
Bra
zil-
201
0
UK
-200
0
Mal
aysi
a-19
96
Ch
ina-
1993
Au
stra
lia-1
992
New
Zea
lan
d-1
995
Bel
giu
m-2
007
Mex
ico
-200
0
Fin
lan
d-1
987
US-
200
1
Ital
y-20
00
Ger
man
y-20
08
Can
ada-
199
2
Jap
an-1
996
Tx femme
Tx homme
28
subsaharienne. Puis dans un deuxième temps, nous testons ce modèle sur l’ensemble des
pays de notre échantillon, et nous l’ajustons si nécessaire pour avoir un modèle plus général.
La deuxième approche fait appel aux modèles relationnels, plus précisément le modèle de
(Brass, On the scale of mortality, 1971), où cette fois ci nous allons chercher à expliquer par
des indicateurs socio-économiques les coefficients de la fonction qui lie la mortalité des
assurés à celle de la population générale.
29
V. Estimation de la mortalité des assurés par application d’un coéfficiént multiplicatéur
L’objectif de l’étude est de trouver un moyen simple qui nous permettra de passer de la
mortalité de la population générale à celle de la population assurée. Une technique simple
sera d’appliquer un coefficient sur les taux de décès de la population générale. Pour chaque
pays de notre échantillon, nous estimons ce coefficient par la moyenne des rapports des
taux notée Tx que nous avons définie dans la partie IV.B.
A. Modélisation du rapport moyen Tx pour les hommes
entre 35 ans et 65 ans
Nous calculons pour chaque pays de la base de données le rapport de mortalité moyen (Tx)
entre les assurés et la population générale. Nous avons alors un vecteur de dix-neuf
éléments, que nous allons essayer d’expliquer par les indicateurs que nous avons
sélectionnés précédemment.
Nous cherchons à construire un modèle prédictif. Ainsi, l’accent est mis sur la qualité des
estimateurs. Ceci conduit à chercher des modèles parcimonieux, c'est-à-dire avec un
nombre volontairement restreint de variables explicatives.
Pour le choix des variables explicatives, nous choisissons le critère BIC (Bayesian Information
Criterion) car il a tendance à retenir les modèles les plus petits. Avec l’hypothèse normale, la
valeur maximale de la log-vraisemblance est la suivante :
( )
(
)
( (
))
Où SCR représente la somme des carrés des écarts entre les prédictions et les observations,
et n la taille de l’échantillon. Les écarts entre les prédictions et les observations sont appelés
des résidus. Nous notons pour la suite p le nombre de variables explicatives du modèle.
L’idée du BIC est d’utiliser l’opposé de cette valeur comme critère de qualité, mais en le
pénalisant par l’addition d’un terme qui augmente avec le nombre de variables du modèle.
On a donc à des constantes près :
(
) ( )
Plus la valeur du BIC sera petite, plus le modèle est bon.
30
Ayant un grand nombre de variables explicatives et une taille réduite des échantillons, nous
allons dans un premier temps effectuer une régression multiple sur l’ensemble des
indicateurs, et ensuite nous allons, par étape, éliminer les variables explicatives afin de
minimiser le critère du BIC. Cette procédure est implémentée dans le logiciel R sous la
fonction Stepwise.
Nous avons remarqué que le résultat de cette procédure de choix des variables explicatives
varie considérablement si nous ôtons les pays de l’Afrique subsaharienne. Dans son étude
sur la stabilisation des processus de sélection de modèle (Breiman, 1996), Breiman classifie
la sélection des modèles emboités en régression linéaire comme un processus instable, où
l’instabilité est définie comme étant le fait qu’un petit changement sur l’échantillon
d’apprentissage a un impact significatif sur les résultats. Dans un premier temps, nous avons
pensé que cela est dû à l’instabilité du processus de sélection. Cependant, les différents tests
effectués montrent que le phénomène sur les autres pays est très modéré par rapport à
celui observé pour les pays d’Afrique subsaharienne. Nous en concluons que certaines
particularités des pays d’Afrique noire, comme le taux de prévalence du VIH qui y est
extrêmement élevé par rapport au reste du monde (68% du total mondial des personnes
atteintes du VIH se trouvent en Afrique subsaharienne selon les chiffres de l’O.M.S. de
2007), rendent l’impact sur la mortalité de certains aspects (la richesse du pays par
exemple) peu significatifs.
Nous avons donc choisi de développer deux modèles dans un premier temps. Un premier
modèle sera construit sur un échantillon d’apprentissage ne contenant pas les données des
pays d’Afrique subsaharienne (à savoir le Togo, le Mali, la Côte d’Ivoire et le Kenya). Un
second modèle sera construit sur un échantillon d’apprentissage englobant l’ensemble des
pays. Nous testerons ensuite le premier modèle sur tous les pays, et si les p-valeurs des
variables explicatives de ce dernier sont significatives, nous procéderons à un arbitrage entre
les deux modèles pour choisir celui qui présente la meilleure qualité de prédiction.
1. Modélisation à partir dé l’échantillon tronqué des pays
d’Afrique subsaharienne
L’échantillon d’apprentissage ne contenant pas les données des pays d’Afrique
subsaharienne est constitué de quinze éléments. Les variables retenues par le processus de
sélection décrit dans le paragraphe précédent sont les suivantes :
Pourcentage de la population vivant en zone urbaine [UA: Population living in urban
areas (%)]
Dépenses totales en santé par personne [THE: Per capita total expenditure on health
(PPP int. $)]
Esperance de vie à la naissance [LE: Life expectancy at birth]
31
Produit intérieur brut par habitant [GNI: Gross national income per capita (PPP int.
$)]
Nous testons dans un premier temps le modèle le plus basique qui est le suivant :
(2)
Avec pour hypothèses
( ) ( ) ( )
Pour déterminer l’hypothèse la plus adéquate pour la loi des erreurs , nous allons étudier la
loi de la variable expliquée. Nous traçons la densité empirique de la variable ( )
√ ( ),
ainsi que le QQ-Plot par rapport à une loi normale centrée réduite. Et nous effectuons par la
suite le test de normalité de Shapiro-Wilk du vecteur . Ce dernier renvoie une p-valeur
de 0.83>0.05, ce qui signifie que l’hypothèse nulle de normalité de n’est pas rejetée au
niveau .
Figure 6
-3 -2 -1 0 1 2 3
0.0
0.1
0.2
0.3
0.4
density.default(x = yst)
N = 16 Bandwidth = 0.4708
De
nsity
32
Figure 7
Le graphe de densité (Figure 6) ne s’éloigne pas trop de celui de la loi normale. Le Qq-plot
(Figure 7) n’est pas très concluant vu le faible nombre de points représentés, cependant les
points oscillent autour de la droite de pente 1 et d’origine nulle. Nous garderons alors
l’hypothèse de la normalité des Tx, et par la même celle des erreurs.
Nous notons dans la suite ( ) le vecteur des estimations des paramètres
( ).
Nous procédons à la régression par la fonction lm du logiciel R, et cette dernière nous
renvoie les sorties suivantes :
Std. Error t-value p-value
Valeur à l’origine -3.776 7.561e-01 -4.994 0.000542
UA -4.843e-03 1.133e-03 -4.274 0.001627
TEH 1.523e-04 4.256e-05 3.579 0.005018
LE 6.708e-02 1.110e-02 6.044 0.000125
GNI -3.010e-05 7.994e-06 -3.765 0.003690
Nous remarquons que les coefficients des quatre variables aléatoires sont significatifs, ce qui
signifie que nous pouvons rejeter l’hypothèse que ces derniers soient nuls avec une
-2 -1 0 1 2
-10
12
Normal Q-Q Plot
Theoretical Quantiles
Sa
mp
le Q
ua
ntile
s
33
probabilité de 99%. Nous aborderons l’interprétation des signes des coefficients dans la
partie V.A.3
Il faut noter que plus le Tx est petit, plus l’écart de mortalité entre la population générale et
la population assurée est important. Le coefficient de détermination ajusté indique
que 78,34% de la variabilité du rapport moyen de mortalité est expliquée par le modèle.
Nous pouvons dire que la qualité de l’ajustement est plutôt bonne.
Avant de développer l’analyse de la régression, nous allons vérifier les hypothèses que nous
avons prises vis-à-vis des erreurs par le biais de l’analyse des résidus.
Nous traçons les résidus en fonction des valeurs prédites (Figure 8).
Figure 8
La courbe rouge nous donne la tendance des résidus. L’idéal serait que les points soient
répartis uniformément. Il est difficile de conclure sur la tendance des résidus avec peu de
points, nous ne pouvons donc pas valider de manière formelle l’hypothèse de
l’homoscédasticité.
Nous appliquons par la suite des transformations sur les variables expliquées et nous faisons
appel aux modèles linéaires généralisés afin d’améliorer la significativité des p-valeurs et de
stabiliser la variance. Les modèles linéaires se définissent par une loi de probabilité qui n’est
pas forcément gaussienne, ainsi que d’une fonction lien. La fonction lien que nous avons
choisi est la fonction inverse.
Lors de nos recherches, nous avons remarqué que l’ajustement s’améliore en mettant au
carré deux variables explicatives, la variable Life expectancy at birth (LE) et la variable
Population living in urban areas (UA). Nous adoptons finalement le modèle suivant :
0.6 0.7 0.8 0.9
-0.1
0-0
.05
0.0
00
.05
0.1
0
Fitted values
Re
sid
ua
ls
lm(SMR2 ~ Population.living.in.urban.areas.... + Per.capita.total.expenditu ...
Residuals vs Fitted
15
2
11
34
(3)
Nous reprenons les mêmes hypothèses que précédemment. Nous obtenons par régression
sous R les résultats suivants :
5.440e-01 11.024 6.46e-07
7.328e-05 1.472e-05 4.979 0.000554
-3.733e-04 7.269e-05 -5.136 0.000440
-9.604e-04 1.129e-04 -8.504 6.87e-06
7.118e-05 1.336e-05 5.326 0.000335
Nous remarquons que la significativité des coefficients s’est améliorée, nous pouvons rejeter
l’hypothèse nulle avec une probabilité de plus de 99,9%. Les signes des coefficients sont
inversés par rapport au modèle précédent, ce qui est cohérent avec le modèle précédent
puisque la fonction lien est la fonction inverse.
Nous notons la déviance du modèle nul, appelée déviance totale (Null deviance sous R),
qui exprime la variation du logarithme de la fonction de vraisemblance entre le modèle
saturé et le modèle nul. Le modèle saturé, que nous notons , est celui où nous avons
autant de variables explicatives que d’observations, et le modèle nul, que nous notons ,
est celui où tous les facteurs des variables explicatives sont nuls (le modèle ne comprenant
pas de variables explicatives). Nous posons la déviance résiduelle du modèle complet
(Residual deviance sous R), qui exprime la variation du logarithme de la fonction de
vraisemblance entre le modèle saturé et notre modèle que nous notons . Nous notons la
fonction de vraisemblance. Alors nous avons :
( ( ) ( )) ( ( ) ( )) ( ( ) ( ))
( ( ) ( ))
Null deviance 0,207338
Residual deviance 0,018196
AIC -46,151
35
Nous notons enfin par la variation du logarithme de la fonction de vraisemblance entre
notre modèle et le modèle nul. De manière analogue à la décomposition de la variance pour
les modèles linéaires simples, la déviance totale se décompose ainsi :
Ainsi, nous avons une déviance résiduelle ( ) qui est beaucoup plus petite que le
nombre de degrés de libertés résiduels (DDL= 10). Nous n’avons donc pas de phénomène de
surdispersion. La déviance résiduelle représente 9% de la déviance totale . Cela
signifie que le modèle présente une bonne qualité d’ajustement, puisque 91% de la variation
totale de la fonction de vraisemblance est expliquée par notre modèle.
Figure 9
Sur le graphe des résidus de déviance en fonction des valeurs prédites (Figure 9), la courbe
rouge oscille entre 0.02 et -0.02, contre 0.06 et -0.06 pour le modèle précédent. La valeur
des résidus varie entre -0,07 et 0,06 contre -0,08 et 0,1 pour le précédent modèle. Cela
signifie que nous avons une amélioration de l’homoscédasticité, mais nous sommes encore
loin du cas idéal où les points sont uniformément repartis dans le graphe. Cela peut être dû
en partie à la taille réduite de l’échantillon étudié.
Pour corroborer l’hypothèse de l’homoscédasticité et valider l’homogénéité de la variance,
nous effectuons une régression linéaire des valeurs absolues des résidus sur les valeurs
prédites. Cela nous permet de vérifier que les résidus ne présentent pas de tendance
particulière.
1.2 1.4 1.6 1.8
-0.0
8-0
.06
-0.0
4-0
.02
0.0
00
.02
0.0
40
.06
Predicted values
Re
sid
ua
ls
glm(SMR2 ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.exp ...
Residuals vs Fitted
1
15
9
36
0.010762 0.013878 0.775 0.452
0.004527 0.003340 1.356 0.198
0,8564
0,8154
La régression nous renvoie des p-valeurs des facteurs estimés supérieurs à 0,05, ce qui nous
ne permet pas de rejeter l’hypothèse de nullité de ces derniers. Nous pouvons donc retenir
l’hypothèse de l’homoscédasticité et l’homogénéité du modèle.
2. Modélisation à partir dé l’échantillon contenant
l’énsémblé dés pays étudiés
Nous appliquons le même processus que précédemment à l’ensemble de notre échantillon.
Il est maintenant composé de dix-neuf éléments. Les variables retenues par le processus de
sélection décrit précédemment sont les suivantes :
Pourcentage de la population vivant en zone urbaine [UA: Population living in urban
areas (%)]
Esperance de vie à la naissance [LE: Life expectancy at birth]
Nous remarquons que nous ne retenons que deux variables explicatives parmi les quatre
variables retenues pour l’échantillon tronqué des données des pays d’Afrique
subsaharienne. Pour corroborer cette conclusion nous effectuons une régression simple sur
les quatre variables en question pour l’ensemble de l’échantillon. Cela revient donc à tester
le modèle (2).
37
Les résultats renvoyés par R sont les suivants :
-8.765e-01 2.115e-01 -4.144 0.000993
-4.314e-03 1.503e-03 -2.871 0.012331
3.938e-05 4.410e-05 -5.136 0.387068
2.474e-02 3.835e-03 6.450 1.52e-05
-4.726e-06 6.588e-06 -0.717 0.484936
Nous remarquons que pour les deux variables explicatives, l’indicateur des dépenses en
santé par personne (TEH) et celui du produit intérieur brut par individu (GNI), les p-valeurs
ne sont pas significatives. Donc l’hypothèse que leurs coefficients respectifs soient nuls ne
peut pas être rejetée. D’autant plus que le coefficient de détermination ajusté renvoyé
( ) est inférieur à celui renvoyé par la régression du modèle (4), que nous
verrons par la suite, et qui n’utilise pas les deux variables explicatives GNI et TEH. Cela
corrobore ainsi l’idée de ne pas retenir ces derniers dans la construction du modèle.
Nous testons dans un premier temps le modèle le plus basique qui est le suivant :
(4)
Sous les hypothèses classiques du modèle linéaire, La régression linéaire effectuée sous R
nous renvoie le résultat suivant :
-0,823984 0,156407 -5,268 7,65e-05
-0,004212 0,001354 -3,110 0,00673
0,023665 0,003025 7,824 7,39e-07
0,8564
0,8154
0,8474
0,8283
38
Les coefficients des deux variables aléatoires sont significatifs. Le coefficient de
détermination ajusté indique que 82,83% de la variabilité du rapport moyen de mortalité
est expliquée par le modèle. Nous constatons une amélioration de la qualité de
l’ajustement par rapport au modèle (2) .
Nous traçons les résidus en fonction des valeurs prédites , pour vérifier les hypothèses
que nous avons prises vis-à-vis des erreurs.
Figure 10
Nous remarquons d’après la Figure 10 que le nuage des résidus n’est pas réparti de manière
uniforme. D’autant plus que l’évolution de ces derniers en valeur absolue remet en question
l’hypothèse de l’homoscédasticité. Comme dans le paragraphe précédent, nous
appliquerons des transformations sur les variables expliquées pour stabiliser la variance. Nos
recherches montrent que l’ajustement s’améliore en mettant au cube la variable explicative
du taux d’urbanisation (UA). Le coefficient de détermination ajusté s’améliore et devient
alors .
Après plusieurs tests nous adoptons finalement le modèle suivant :
( )
(5)
Nous reprenons les mêmes hypothèses que précédemment.
0.2 0.3 0.4 0.5 0.6 0.7 0.8
-0.1
5-0
.10
-0.0
50
.00
0.0
50
.10
0.1
5
Fitted values
Re
sid
ua
ls
lm(Tx.homme ~ Population.living.in.urban.areas.... + life.expectancy)
Residuals vs Fitted
16
17
5
39
La régression effectuée sur le logiciel R renvoie les sorties suivantes :
-3,457 3,439e-01 -10,052 2,55e-08
-5,188e-07 1,304e-07 -3,978 0,00108
4,301e-02 4,859e-03 8,851 1,46e-07
Les coefficients sont toujours significatifs. Les signes des coefficients sont cohérents avec
ceux des coefficients du modèle précédent (4).
La déviance résiduelle du modèle est égale à , ce qui largement inférieur au
nombre de degrés de liberté résiduels (DLL=16). Nous n’avons donc pas de phénomène de
surdispersion. La déviance résiduelle ne représente que 12% de la déviance totale. Ainsi, 88%
de la variation totale de la fonction de vraisemblance est expliqué par notre modèle. Nous
avons donc une bonne qualité d’ajustement, mais elle est un peu moins bonne que celle du
modèle (3).
La fonction lien « log » apporte quelques améliorations sur les p-valeurs des variables
explicatives par rapport au modèle (4), mais la qualité d’ajustement reste moins bonne que
celle du modèle (3) qui est construit sur un échantillon tronqué des données des pays
d’Afrique subsaharienne.
Le test de normalité de Shapiro-Wilk sur les résidus renvoie une p-valeur de 0.818>0.05, ce
qui signifie que l’hypothèse nulle de la normalité des résidus n’est pas rejetée.
Comme pour le modèle précédent, nous testons l’hypothèse d’homoscédasticité des résidus
en observant l’évolution des résidus de la déviance en fonction des valeurs prédites .
Null deviance 0,608902
Residual deviance 0,073591
AIC -43,6
40
Figure 11
La Figure 11 montre que la courbe rouge est presque écrasée sur l’axe des abscisses, effet de
l’application de la fonction lien « log ». Nous ne remarquons pas d’amélioration particulière
de l’homoscédasticité par rapport au modèle précédent.
Parallèlement avec ce que nous avons fait dans le paragraphe précédent pour corroborer
l’hypothèse de l’homoscédasticité et valider l’homogénéité de la variance, nous avons
effectué une régression linéaire des valeurs absolues des résidus sur les valeurs prédites. La
régression nous renvoie des p-valeurs des facteurs estimés supérieurs à 0,05, ce qui nous ne
permet pas de rejeter l’hypothèse de nullité de ces derniers. Nous pouvons donc retenir
l’hypothèse de l’homoscédasticité et l’homogénéité du modèle.
3. Interprétation des résultats des régressions
Les recherches effectuées précédemment sur les données des hommes ont permis de
retenir deux modèles. Un premier modèle, développé dans la partie 1 sur l’échantillon ne
contenant pas les données des pays d’Afrique Subsaharienne, est constitué de quatre
variables explicatives. Les quatre variables explicatives sont le pourcentage de la population
vivant en zone urbaine (UA), les dépenses en santé par personne (TEH), l’espérance de vie à
la naissance (LE) et enfin le produit intérieur brut par individu (GNI).
Comme nous pouvons le constater dans les sorties R de la régression du modèle (3), les
coefficients des variables TEH et LE ont un signe négatif. Sachant que la fonction lien est la
fonction inverse, un tel signe signifie que les écarts de mortalité sont décroissants avec
l’espérance de vie et les dépenses en santé par personne. Des dépenses moyennes élevées
-1.4 -1.2 -1.0 -0.8 -0.6 -0.4 -0.2
-0.1
0-0
.05
0.0
00
.05
0.1
00
.15
Predicted values
Re
sid
ua
ls
glm(Tx.homme ~ I(Population.living.in.urban.areas....^3) + life.expectancy)
Residuals vs Fitted
16
5
14
41
en santé par personne sont représentatives d’un bon système de santé et d’un accès aux
soins étendu à un large pourcentage de la population, ce qui implique des inégalités réduites
face à la mort. Une moyenne nationale très élevée de l’espérance de vie à la naissance
reflète des bonnes conditions de vie pour l’ensemble de la population du pays en question,
ce qui explique des écarts de mortalité moins prononcés entre les assurés et les personnes
non couvertes par une assurance.
Cela dit, les signes des coefficients des deux autres variables explicatives ne semblent pas
évidents à expliquer, car ils impliquent que plus le pays est urbanisé et riche, plus l’écart de
mortalité entre les assurés et la population exclue du système d’assurance sera important.
En d’autres termes, l’évolution de l’urbanisation et la croissance de la richesse nationale
creusent les inégalités face à la mort entre les individus. Nous ne pouvons certes conclure si
facilement sur l’effet pervers de la richesse d’un pays sur la mortalité des classes sociales les
moins favorisées, mais il est sûr que dans un modèle capitaliste et libéral, la croissance
économique n’est pas toujours accompagnée par l’évolution du bien être des plus pauvres.
Le deuxième modèle (5), développé sur l’ensemble des pays de notre échantillon, est
composé uniquement de deux indicateurs socio-économiques parmi les quatre retenus dans
le premier modèle (3). Puisque la fonction lien est le logarithme, nous pouvons conclure que
les signes des coefficients des variables explicatives (i.e. des indicateurs) du deuxième
modèle sont cohérents avec ceux du premier modèle, et impliquent ainsi les mêmes
conclusions.
B. Modélisation du rapport moyen Tx pour les femmes
entre 35 ans et 65 ans
1. Construction des modèles
Pour choisir les indicateurs qui serviront de variables explicatives à notre modèle, nous
procédons de la même manière que pour les hommes, en utilisant un algorithme qui élimine
par étape et de manière descendante les variables qui ne contribuent pas à la minimisation
du BIC.
Nous remarquons que le phénomène d’instabilité de la procédure de sélection observé chez les hommes est fortement atténué chez les femmes. La procédure appliquée sur l’échantillon englobant les données de tous les pays étudiés retient les mêmes variables que ceux de la procédure appliquée sur l’échantillon tronqué des données d’Afrique subsaharienne. Une étude de l’INSEE (Monteil & Robert-Bobée, 2005) indique que les différences d’espérance de vie selon les catégories sociales sont beaucoup plus fortes chez les hommes que chez les femmes, telle que si pour chaque catégorie sociale, les hommes et les femmes étaient soumis à chaque âge aux probabilités de décès observées au cours des
42
années 1991-1999, les hommes cadres vivraient 7 ans de plus que les ouvriers, alors que cet écart est de 3 ans entre femmes cadres et ouvrières. Nous pouvons supposer alors que la stabilité de la procédure de sélection des variables explicatives observée chez les femmes, doit être due au fait que la mortalité des femmes est beaucoup plus stable que celle des hommes. La procédure nous renvoie comme variables à utiliser les indicateurs suivants :
Pourcentage de la population vivant en zone urbaine [UA: Population living in urban
areas (%)]
Indice de développement humain [IDH: HDI value]
Produit intérieur brut par habitant [GNI: Gross national income per capita (PPP int.
$)]
Dépenses gouvernementales en santé en pourcentage des dépenses
gouvernementales totales [GEH :General government expenditure on health as a
percentage of total government expenditure]
Nous remarquons que les variables proposées par la procédure sont différentes de celles
proposées pour les hommes. En effet, nous ne retrouvons que trois indicateurs en commun
sur cinq. Cela corrobore l’idée que la mortalité chez les femmes se comporte différemment
que chez les hommes.
Nous testons dans un premier temps le modèle le plus basique qui est le suivant :
(6)
Avec pour hypothèses ( ) ( ) ( )
Nous procédons à la régression par la fonction « lm » du logiciel R, et cette dernière nous
renvoie les sorties suivantes :
-7,059e-01 1,754e-01 -4,025 0,00125
-6,063e-03 2,192e-03 -2,766 0,01516
2,491 3,537e-01 7,045 5,82e-06
-1,117e-05 5,056e-06 -2,209 0,04431
1,361e-02 5,631e-03 2,417 0,02989
0,8922
0,8614
43
Les coefficients sont significatifs. Les signes des coefficients des variables utilisées
précédemment (taux d’urbanisation et produit intérieur brut) sont cohérents avec les
résultats des régressions effectuées précédemment. L’indicateur des dépenses
gouvernementales en santé en pourcentage des dépenses gouvernementales totales (GEH) a
un signe positif. Cela implique que plus le gouvernement dépense en santé, moins nous
observerons des écarts entre la population assurée et celle non assurée. Cela peut être
expliqué par l’idée que plus les dépenses gouvernementales en santé sont importantes, plus
la part des frais de santé à la charge du citoyen est réduite. Le coefficient de l’indice du
développement humain est positif, ce qui est cohérent avec l’analyse faite dans la partie II.B
de l’impact de ce dernier sur les écarts de mortalité.
Le coefficient de détermination ajusté indique que 86,14% de la variabilité du rapport
moyen de mortalité est expliquée par le modèle. Nous avons ainsi une bonne qualité
d’ajustement.
Le test de normalité de Shapiro-Wilk sur les résidus renvoie une p-valeur de 0.76 > 0.05, ce
qui signifie que l’hypothèse nulle de la normalité des résidus n’est pas rejetée.
Figure 12
Les points représentant les valeurs des résidus en fonction des valeurs (Figure 12) ajustées
oscillent autour de l’axe des abscisses, ce qui montre que nous n’avons pas de tendance
particulière, ce qui corrobore l’hypothèse de l’homoscédasticité.
Cependant, la p-valeurs des dépenses gouvernementales en santé ( ( )
) et celle de produit intérieur brut ( ( ) ) sont proches de 0,05,
valeur choisie comme seuil pour déterminer la non significativité du coefficient. Cela
0.0 0.2 0.4 0.6 0.8 1.0
-0.2
-0.1
0.0
0.1
0.2
Fitted values
Re
sid
ua
ls
lm(Tx.femme ~ Population.living.in.urban.areas.... + IDH + Gross.national.i ...
Residuals vs Fitted
6
19
1
44
implique que l’estimation des coefficients de ces derniers risque d’être caractérisée par une
grande volatilité, ce qui n’est pas souhaitable dans le cas de la construction d’un modèle de
prédiction. La faible significativité des p-valeurs de certains indicateurs, associée au nombre
important des variables explicatives vis-à-vis de la taille réduite de l’échantillon nous a
poussé à penser que le modèle (6) risque d’avoir une mauvaise qualité de prédiction malgré
la bonne qualité de l’ajustement.
Nous avons donc développé un second modèle. L’objectif était de réduire le nombre des
variables explicatives et améliorer éventuellement la qualité de prédiction, sans détériorer
significativement la qualité de l’ajustement (mesurée par le coefficient de détermination
ajusté). Nous avons procédé par étapes en éliminant l’indicateur qui a la plus forte p-valeur
à chaque étape, et nos recherches nous ont menés finalement au modèle suivant :
(7)
La régression nous renvoie les sorties suivantes :
-4,709e-01 1,217e-01 -3,871 0,00135
-5,076e-05 1,900e-05 -2,671 0,01672
1,929 2,558e-01 7,542 1,18e-06
Nous avons donc, avec seulement deux variables explicatives, 82,59% de la variabilité du
taux moyen Tx qui est expliquée par le modèle (7) contre 86,14% pour le modèle (6) qui
utilise 4 variables. La p-valeur du test de normalité de Shapiro-Wilk sur les résidus se
détériore à 0.29, mais elle reste supérieure au seuil de 0,05.
0,8452
0,8259
45
Figure 13
Les valeurs des résidus en fonction des valeurs ajustées (Figure 13) sont réparties de manière
plus uniforme que dans le modèle précédent, ce qui signifie une amélioration de
l’homoscédasticité. Nos recherches montrent que les modèles linéaires généralisés
n’apportent pas d’amélioration significative en terme de qualité d’ajustement et
d’homoscédasticité.
2. Interprétation des résultats des régressions
Contrairement au cas des hommes, le processus de sélection des variables explicatives
donnait le même résultat quelque soient les pays contenus dans l’échantillon. L’étude sur
l’échantillon des femmes a conduit, dans un premier temps, à construire un modèle
constitué de quatre variables explicatives. Seulement deux indicateurs socio-économiques
parmi les quatre retenus sont communs avec ceux retenus dans le modèle prédictif pour les
hommes. Il s’agit du pourcentage de la population vivant en zone urbaine (UA), ainsi que du
produit intérieur brut (GNI). Les résultats de la régression linéaire simple donnent des signes
négatifs aux coefficients de ces deux indicateurs. Cela est cohérent avec les conclusions sur
l’impact de ces derniers sur les écarts de mortalité. Les deux autres indicateurs retenus
comme variables explicatives sont l’indice de développement humain (IDH) et l’indicateur
des dépenses gouvernementales en santé en pourcentage des dépenses gouvernementales
totales (GEH). Les signes des coefficients sont positifs, ce qui indique un effet positif de l’IDH
et du GEH sur la réduction des écarts de mortalité entre les assurés et la population
générale. Ce résultat s’accorde avec l’analyse préalable que nous avons effectuée sur les
indicateurs dans la partie II.B. Nous avons remarqué que pour certains indicateurs, la
0.0 0.2 0.4 0.6 0.8 1.0
-0.2
-0.1
0.0
0.1
0.2
Fitted values
Re
sid
ua
ls
lm(Tx.femme ~ I(Population.living.in.urban.areas....^2) + IDH)
Residuals vs Fitted
18
6
14
46
significativité des p-valeurs était relativement faible. Nous avons donc essayé de réduire le
nombre de variables explicatives en prenant un sous ensemble. Nous avons donc deux
modèles que nous confronterons dans la suite de ce document pour choisir celui qui
présente la meilleure qualité de prédiction.
Pour chacun des deux sexes, nous avons developpé deux modèles. Pour les hommes, le
résultat du processus de selection des variables explicatives variait significativement en
fonction de l’échantillon d’apprentissage utilisé. Nous avons observé que pour celui ne
contenant pas les données des pays d’Afrique subsaharienne, le processus de sélection
retenait quatre indicateurs socio-économiques comme variables explicatives. Tandis qu’en
prenant les données de tous les pays étudiés, seulement deux indicateurs parmi les quatre
sont retenus. Cela nous a conduit à developper deux modèles distincts pour les hommes. En
ce qui concerne la mortalité des femmes, le processus de sélection des variables était plus
stable. Un premier modèle a été construit sur les données de tous les pays étudiés. Ce
dernier était composé de quatre variables explicatives. Cependant la faible significativité des
coefficients de certaines variables nous a conduit à développer un sous-modèle, qui pourra
présenter une meilleure qualité de prédiction sans détériorer significativement la qualité
d’ajustement.
Les tests effectués précédement sur les modèles développés, se basaient principalement sur
la qualité d’ajustement, en calculant le coefficient de détermination ajusté. Les modèles ont
pour principal objectif de prédire les taux d’abattements à appliquer sur la mortalité
nationale pour avoir une estimation de celle des assurés. Pour retenir un modèle, il faudra
donc tester la qualité de prédiction et choisir celui qui offre le meilleur compromis avec la
qualité d’ajustement.
Dans la suite de ce document, nous présentons les différentes mesures et techniques
utilisées pour tester la qualité de prédiction. Nous retiendrons ensuite un seul modèle pour
chaque sexe, et nous utiliserons ces derniers dans un contexte de tarification, en proposant
des simplifications des formules prédictives et en précisant les mesures de précaution a
prendre en fonction des simplifications adoptées.
47
VI. Tests de la qualité de prédiction et choix des modèles
Dans cette partie, nous présentons un ensemble de mesures et techniques proposées dans
la littérature pour tester la qualité de prédiction. Nous détaillerons celle que nous avons
retenue pour notre étude en justifiant l’intérêt de notre choix. Nous testerons ensuite la
qualité de prédiction sur les modèles développés pour les deux sexes, pour retenir celui qui
est le plus adapté à un contexte de prédiction.
A. Uné prémièré éstimation dé l’érréur dé prédiction
Dans la suite de ce document, nous retenons les notations utilisées par Efron B. et Tibshirani
R. (1997) et qui sont les suivantes :
Soit un modèle prédictif, la variable à expliquer, et ( ) un échantillon de
taille n, avec [ ] ( ) représente le vecteur des variables explicatives.
Nous notons la distribution d’où sont issues les observations ( ), qui sont
identiquement et indépendamment distribuées.
Nous désignons par [ ] la distance entre la valeur prédite par le modèle et la vraie
valeur . Nous notons aussi par ( ) [ ( )] la distance calculée au point de
test ( ) pour la fonction de prédiction qui est construite sur l’échantillon
d’apprentissage . L’erreur de prédiction est alors la grandeur définie par :
( ) ( ( )) [ ( )]
Avec désignant l’espérance où ( ) est la seule variable aléatoire, et et
sont fixes.
La qualité de l’ajustement peut être mesurée par la grandeur définie par :
∑ [ ( )]
Cette mesure d’erreur est appelée par l’erreur moyenne apparente (Efron & Tibshirani,
1997). C’est une estimation de l’erreur de prédiction biaisée par optimisme, car le même
échantillon est utilisé pour la construction du modèle prédictif et pour son test. Elle nous
donne donc une bonne information sur la qualité de l’ajustement, mais une mauvaise
estimation de la qualité de prédiction.
48
Ainsi, pour éviter ce problème dans le cadre de la construction d’un modèle prédictif, nous
devons disposer idéalement de suffisamment de données pour pouvoir les séparer en deux
échantillons distincts. Un premier échantillon, souvent appelé dans la littérature
« échantillon d’apprentissage », servira pour construire le modèle et estimer les coefficients
des variables explicatives. Et un second échantillon, nommé « échantillon de validation »,
servira ensuite pour tester la qualité de prédiction, par le calcul de la distance entre les
valeurs prédites et celles réellement observées. L’erreur quadratique est usuellement
utilisée comme mesure de distance dans ce cas.
Quand la taille de l’échantillon collecté est réduite, la technique de la validation croisée reste
un principe simple et largement utilisé pour estimer l’erreur de prédiction moyenne,
moyennant un surplus de calcul. L’idée est d’extraire successivement plusieurs petits
échantillons de validation à partir de l’échantillon initial, et de calculer ensuite l’erreur de
prédiction moyenne. C’est indispensable pour réduire la variance et ainsi améliorer la
précision lorsque la taille de l’échantillon initial est trop réduite pour en extraire des
échantillons de validation et test de taille suffisante. L’algorithme de la validation croisée est
le suivant :
Découper aléatoirement l’échantillon en parties distinctes de tailles K, selon une loi
uniforme.
Pour chaque partie i
o Mettre de côté la partie i
o Estimer les paramètres du modèle sur les parties restantes,
o Calculer l’erreur de prédiction sur la partie i qui n’a pas servi dans
l’estimation du modèle.
Calculer la moyenne des erreurs pour avoir l’estimation de l’erreur de prédiction par
validation croisée.
Le choix de K est couramment celui de 10, par défaut dans la plupart des logiciels de
statistique, et il est recommandé de le prendre entre 5 et 15. La validation croisée a été
introduite historiquement par Stone (Stone, 1974), avec K=1. Sachant que la taille de notre
échantillon est réduite, et que le nombre des variables explicatives des modèles est
important, nous avons décidé d’adopter ce choix connu dans la littérature sous les noms
Anglo-Saxon Jackknife et leave-one-out. Ainsi, l’estimation de l’erreur moyenne de
prédiction par validation croisée est alors :
( )
∑ [ ( )( )]
∑ ( ( ))
Avec ( ) représentant l’échantillon tronqué du élément. La mesure ( ) est un
estimateur presque non biaisé (Efron & Tibshirani, 1997). Cependant, pour les modèles
estimés à chaque étape du processus de la validation croisée, chaque couple partage n-2
éléments de l’échantillon initial. Cela implique une forte dépendance entre les modèles ce
49
qui accroît la variance de l’erreur ( ). Les auteurs de l’article (Efron & Tibshirani, 1997)
proposent une amélioration en faisant appel à la technique du Bootstrap.
B. L’amélioration par Bootstrap : L’éstimatéur .632+
Le Bootstrap est une méthode qui consiste à générer plusieurs échantillons en procédant à
un ré-échantillonnage avec remise. Cette technique s’inscrit dans l’idée d’approcher, par
simulation, la distribution d’un estimateur lorsque nous ignorons la loi de l’échantillon
(notée ) ou plus souvent quand nous ne pouvons pas retenir l’hypothèse qu’elle est
gaussienne. L’objectif est de substituer la distribution inconnue , dont est issue
l’échantillon d’apprentissage, par la distribution empirique qui donne à chaque réalisation
un poids égal à ⁄ .
Pour comprendre le principe qui a conduit à l’utilisation du « bootstrap » dans notre
contexte, nous reprenons l’ensemble des étapes du raisonnement présenté dans l’article
d’Efron B. Tibshirani R. (1997).
Nous supposons ( ) un estimateur sans biais, construit à partir de l’échantillon , d’un
paramètre que nous notons . Donc par définition nous avons l’égalité suivante :
( ( ))
Nous supposons que nous avons généré échantillons à partir de l’échantillon initial,
par Bootstrap, que nous notons { }
. Nous indiquons par une étoile chaque échantillon
généré, où (
). L’estimateur non-paramétrique de ( ( )), avec
remplacement de par , est alors :
( ( ))
∑ (
)
L’estimateur du paramètre peut être biaisé, mais il est caractérisé par une faible variance
puisque c’est une version lissée de ( ).
Nous posons pour chaque [ ], ( ) ( ( )), avec fixée et ( ) l’échantillon
dont nous avons enlevé la réalisation i. Nous notons ( ) l’échantillon Bootstrap généré à
partir de ( ) et ( ) la distribution empirique donnant une probabilité
à chaque
éléments de ( ) ( ). Ainsi, avec le même raisonnement que
précédemment, l’estimateur non-paramétrique de ( ( ( ))) est alors :
50
( ) ( ( ( ) ))
∑ ( ( )
)
En appliquant cette estimation d’erreur à chaque point de notre échantillon, nous avons
alors l’estimation de l’erreur de prédiction moyenne appelée par leave-one-out
bootstap (Efron & Tibshirani, 1997), et qui s’exprime ainsi :
( )
∑ ( ) ( ( ( )
))
∑∑ ( ( )
)
L’estimateur ( ) est en quelque sorte une version lissée par « Bootstrap » de l’estimateur
par validation croisée ( ). Il présente donc une variance beaucoup moins importante.
Cependant cette réduction de la variance par lissage induit un biais comme nous allons le
voir dans la partie suivante. Pour corriger cela, Efron (Efron, 1983) propose
l’estimateur ( ), qui compense l’excès de pessimisme de l’estimateur ( ) par
l’excès d’optimisme de l’erreur moyenne apparente avec la combinaison linéaire
suivante :
( ) ( )
L’argument présenté pour justifier la valeur des coefficients est que pour un échantillon de
taille n, les données générées par Bootstrap sont supportées approximativement par
éléments de l’échantillon initial. En effet, la probabilité pour qu’un élément i ne soit pas
choisi à l’emplacement j dans un échantillon Bootstrap (i.e. ) est égale à :
( )
Ainsi la probabilité pour que l’élément i ne soit pas choisi est alors
( ) (
)
Donc la probabilité que l’élément i soit choisi est alors
( ) (
)
L’estimateur ( )
, appelé sous le nom de l’estimateur .632, présente un bon compromis
entre biais et variance. Cependant, cet estimateur pose des problèmes en cas de sur-
ajustement (cas où ), où il présente un excès d’optimisme. Les auteurs (Efron &
Tibshirani, 1997) proposent alors un rectificatif complémentaire noté .632+, qui met un
poids plus important sur ( ) dans le cas où nous avons un sur-ajustement important.
Puisque notre échantillon est composé d’un nombre de réalisations limité, et que pour
certains modèles nous avons jusqu'à quatre variables explicatives pour seulement dix neuf
51
réalisations, nous pourrions donc être confrontés aux problèmes de sur-ajustement. Nous
avons donc retenu l’estimateur .632+ pour choisir le meilleur modèle prédictif pour chacun
des deux sexes.
Pour avoir une mesure du sur-ajustement, Efron B. et Tibshirani R. définissent dans un
premier temps l’erreur moyenne de la non-information, notée , qui représente l’erreur
dans le cas où le modèle n’apporte pas d’information sur les variables à prédire (i.e. les
variables expliquées { } et les variables explicatives { } sont indépendantes).
En notant la loi marginale commune à et à dans le cas où les deux variables sont
indépendantes, l’expression de est la suivante :
( [ ( )])
Où est l’espérance selon la loi et seul est variable. En notant l’estimateur de , nous
pouvons estimer par la permutation des et des tel que :
∑∑ [ ( )]
Le taux de sur-ajustement relatif, noté , est alors défini par l’égalité
( )
La quantité varie entre 0, quand il n’y a pas de sur-ajustement, et 1, quand le sur-ajustement
mesuré par l’écart ( ) est égal à l’écart , qui représente l’erreur due uniquement à
la partie non expliquée par le modèle prédictif. Il se peut, dans certains cas, que se retrouve en
dehors de l’intervalle [0,1], et les auteurs proposent alors des ajustements dans la formule de .
Dans le cadre de notre étude, nous ne rencontrons pas ce phénomène.
L’estimateur .632+ noté ( )
, est alors construit à partir de la combinaison linéaire
suivante :
( ) ( ) ( )
Avec le facteur permettant d’ajuster le poids de ( ) dans le cas d’un sur-ajustement
important tel que :
Ainsi, ( ) varie entre ( ), quand il n’y a pas de phénomène de sur-ajustement
( ), et entre ( )le taux de sur-ajustement atteint sa valeur maximale de 1.
L’estimateur .632+ présente donc le meilleur compromis entre biais et variance, et entre
l’excès du pessimisme de l’estimateur ( )et l’excès d’optimisme de l’erreur moyenne
apparente , tout en prenant en compte le phénomène de sur-ajustement. Dans la partie
52
qui suit, nous allons choisir les modèles présentant les plus petites valeurs de l’erreur de
prédiction estimée par ( ).
C. Application dé l’éstimatéur .632+ et choix du modèle
1. Choix du modèle prédictif pour les hommes
Nous rappelons dans un premier temps les deux modèles retenus pour les hommes.
(3)
( )
(5)
Le modèle (3) est développé principalement sur l’échantillon tronqué des données des pays
d’Afrique Subsaharienne. Avant de procéder aux comparaisons des erreurs de prédiction
des deux modèles, nous testons dans un premier temps la significativité du modèle (3) sur
l’échantillon contenant les données du Mali, du Togo, de la Côte d’Ivoire et du Kenya.
Nous obtenons les résultats suivants :
5,843 4,230e-01 13,813 1,51e-09
7,374e-05 1,568e-05 4,702 0,000340
-3,610e-04 6,902e-05 -5,230 0,000127
-9,304e-04 9,095e-05 -10,230 7,04e-08
6,864e-05 1,222e-05 5,616 6,37e-05
Null deviance 0,608902
Residual deviance 0,029361
AIC -57,058
53
Tous les coefficients ont des p-valeurs très significatives. Le modèle (3) peut donc être
considéré comme un très bon candidat pour un modèle prédictif pour tous les pays.
Cependant, il est constitué de deux fois plus de variables explicatives par rapport au modèle
(5). Le modèle (3) aura certes une meilleure qualité d’ajustement que celle du modèle (5),
mais cela n’implique pas une meilleure capacité prédictive. Pour arbitrer entre les deux
modèles nous donnons dans le tableau qui suit les valeurs des différents estimateurs que
nous avons décrits précédemment. Pour le calcul de l’estimateur ( ), nous nous sommes
contentés de cinquante simulations de Bootstrap car nous n’avons pas observé
d’amélioration significative au-delà de ce nombre, d’autant plus qu’Efron et Tibshirani
indiquent que cela suffit dans un contexte d’estimateur d’erreur de prédiction.
Modèle ( ) ( ) ( )
Modèle (3) 0,00154 0,04523 0,00430 0,00355 0,00331
Modèle (5) 0,00387 0,04193 0,00622 0,00543 0,00538
Tableau 3 : Comparaison des estimations de l'erreur moyenne de prédiction pour les modèles des hommes
Comme nous l’avons précisé précédemment, nous remarquons que l’erreur moyenne
d’ajustement ( ) du modèle (3) est nettement inférieure à celle du modèle (5) (Tableau 3).
Nous avons donc bien une meilleure qualité d’ajustement, ce qui est cohérent puisque le
modèle (3) est constitué de plus de variables explicatives par rapport au modèle (5). Le taux
d’ajustement relatif ( ) du premier modèle est quant à lui légèrement supérieur à celui du
deuxième modèle. Mais ce taux reste très inférieur à 1 pour les deux modèles, ce qui nous
indique que le phénomène de sur-ajustement est très modéré. Cela explique que l’écart
entre les deux estimateurs, .632 et .632+, soit très petit pour les deux modèles. Nous
observons aussi l’excès du pessimisme de l’estimateur ( ), ainsi que l’excès d’optimisme
de . L’estimation de l’erreur moyenne de prédiction par la méthode .632+ nous indique que le
modèle (3) présente la meilleure qualité de prédiction. Nous retenons donc ce dernier, et nous
l’utiliserons par la suite dans un contexte de tarification.
54
2. Choix du modèle prédictif pour les femmes
Les recherches effectuées sur l’échantillon des femmes nous ont conduit à développer deux
modèles qui sont les suivants :
(6)
(7)
Le Tableau 4: Comparaison des estimations de l'erreur moyenne de prédiction pour les modèles des
femmes résume l’ensemble des résultats des calculs des différents estimateurs que nous
avons décrits précédemment.
Modèle ( ) ( ) ( )
Modèle (6) 0,00864 0,14477 0,03102 0,00616 0,02358
Modèle (7) 0,01409 0,08734 0,02753 0,00919 0,02287
Tableau 4: Comparaison des estimations de l'erreur moyenne de prédiction pour les modèles des femmes
Nous remarquons que le modèle réduit (i.e. modèle (7)) a une erreur apparente moyenne
(ou erreur d’ajustement ( ) ) plus grande que celle du modèle (6). L’ordre s’inverse
quand il s’agit du taux du sur-ajustement relatif, ce qui est cohérent vu que le modèle (7) est
un sous-modèle du (6). Les estimateurs de l’erreur moyenne de prédiction ( ) et
( ) montrent des écarts significatifs en faveur du modèle (6), qui est constitué de
quatre variables explicatives. Cependant, quand le sur-ajustement est pris en compte,
l’écart devient beaucoup moins significatif comme nous pouvons le constater pour les
valeurs de l’estimateur ( ). Vu la simplicité du modèle (7), et l’écart peu significatif en
matière de qualité de prédiction avec le modèle plus complexe, nous allons donc retenir ce
dernier pour l’appliquer dans un contexte de tarification.
55
VII. Utilisation des modèles prédictifs dans l’éstimation du risqué dé mortalité des assurés
Dans ce qui précède, nous avons développé des modèles prédictifs qui donnent les taux à
appliquer sur les tables de mortalité nationale afin d’approcher la mortalité des assurés.
Pour chacun des deux sexes, nous avons retenu le modèle qui présentait le meilleur
compromis entre simplicité et qualité prédictive.
Pour rappel, le modèle retenu pour les hommes est le suivant :
Tandis que le modèle retenue pour les femmes est le suivant :
Les variables explicatives sont les indicateurs suivants :
UA : Pourcentage de la population vivant en zone urbaine
TEH: Dépenses totales en santé par personne
LE : Espérance de vie à la naissance
GNI : Produit intérieur brut par habitant
IDH : Indice de développement humain
Dans un contexte de tarification et d’estimation du risque de mortalité, utiliser ces deux
derniers modèles implique avoir les valeurs des indicateurs socio-économiques. Les
informations sur ces indicateurs sont publiques et facilement accessibles sur internet via des
sites web comme celui de la P.N.U.D. ou de l’O.M.S. par exemple. Il faut aussi s’assurer que
les valeurs des indicateurs sont issues de l’année la plus proche de celle de la table de
mortalité nationale sur laquelle l’abattement sera appliqué. Les deux modèles ne donnent
pas les taux d’abattements exacts puisqu’il y a toujours des incertitudes dans la prédiction. Il
faudra donc déterminer une marge d’incertitude des modèles. Toutes ces précautions
rendent les modèles difficiles à utiliser dans un contexte de tarification, surtout si
l’utilisateur n’a pas un profil technique. Pour que l’usage des modèles prédictifs soit plus
facile, nous allons dans un premier temps donner la meilleure estimation des paramètres,
ainsi que des intervalles de confiance non paramétriques. Puis, dans un deuxième temps,
nous allons donner les taux d’abattements maximums qui peuvent être appliqués sur un
ensemble de pays beaucoup plus large, tout en gardant une approche prudente vis-à-vis du
risque décès.
Notre échantillon n’est constitué que de dix-neuf réalisations, et la loi de notre échantillon
n’est pas forcément la loi normale. Nous avons donc préféré les méthodes non-
56
paramétriques, en utilisant la technique du ré-échantillonnage (i.e. la technique du
Bootstrap), afin de calculer les intervalles de confiance et avoir une meilleure estimation des
paramètres. L’amélioration de l’estimation des paramètres par ré-échantillonnage se base
sur le même raisonnement que celui présenté dans (Breiman, 1996) sur l’amélioration de la
prédiction. Il suffit de remplacer la fonction de prédiction par l’estimateur ( ) construit
sur l’échantillon du paramètre . Concernant l’intervalle de confiance des prédictions,
nous le calculons en ayant par Bootstrap un nombre important de valeurs prédites pour
chaque élément de l’échantillon, puis en prenant les quantiles.
A. Estimation des paramètres des modèles par Bootstrap
Dans cette partie, l’idée principale est de générer plusieurs échantillons Bootstrap (B
simulations), que nous notons comme précédemment { } , puis pour chaque échantillon
nous estimons les paramètres. Nous avons donc B estimations pour chaque paramètre.
Nous calculons ensuite la moyenne arithmétique des estimations pour chaque paramètre.
Pour justifier l’amélioration de l’estimation des paramètres par ré-échantillonnage, nous
reprenons le raisonnement de Breiman sur la technique qu’il nomme Bagging.
Soit l’échantillon d’apprentissage, et ( ) l’estimateur du paramètre construit sur
l’échantillon . Nous supposons que nous avons une séquence de échantillons
d’apprentissage { } . Pour une fonction de prédiction , Breiman propose la fonction de
prédiction agrégée . Nous proposons alors par analogie l’estimateur agrégé tel que
[ ( )]
Où indique que seul l’échantillon varie.
Cependant, nous disposons rarement de plusieurs échantillons indépendants et issus d’une
même distribution. La technique du Bootstrap appliquée sur notre échantillon, et répétée
plusieurs fois, permet d’avoir une imitation des réplicas de l’échantillon d’apprentissage.
Nous supposons que nous avons généré une séquence de échantillons par Bootstrap et
nous la notons { } . Les réplicas générés ont approximativement la même distribution que
celle de l’échantillon initial. Nous estimons ensuite par :
∑( ( ))
L’auteur (Breiman, 1996) indique que cette méthode garantit une bonne amélioration de la
précision de prédiction uniquement quand la loi de prédiction est instable. En d’autres
termes, nous observons une amélioration quand un faible changement dans l’échantillon
impacte significativement les résultats de la prédiction. L’amélioration apportée par la
57
technique du Bagging sur l’estimation des paramètres peut être justifiée par la
démonstration suivante :
Nous reprenons les notations utilisées précédemment. Nous avons alors l’égalité suivante :
[( ( )) ] [ ( )] [
( )]
Sachant que [ ( )] et que d’après l’inégalité de Jensen nous avons
[ ( )] ( [ ( )])
Nous obtenons
[( ( )) ] ( )
En intégrant ensuite les deux éléments de l’inégalité précédente par rapport à la loi de
Nous retrouvons l’inégalité suivante :
[ [( ( )) ]] [( )
]
Par inversion des intégrales nous avons alors
[ [( ( )) ]] [( )
]
Ainsi, nous montrons que l’erreur quadratique moyenne de l’estimateur agrégé est
inférieure à la moyenne calculée sur les séquences des échantillons des erreurs quadratiques
moyennes des estimateurs classiques. L’écart dépend principalement de
l’inégalité [ ( )] ( [ ( )])
, qui sera plus marquée pour les modèles sensibles aux
variations dans . Dans les tableaux qui suivent, nous donnons pour chacun des deux sexes,
les estimations Bootstrap des paramètres des modèles prédictifs pour différentes valeurs de
B. Le cas B=0 représente l’estimation des paramètres par une régression sur l’échantillon
initial.
Tableau 5: Estimations des paramètres du modèle des hommes
58
Tableau 6: Estimations des paramètres du modèle des femmes
Nous remarquons que les estimations convergent vers des valeurs précises à partir de 2 000
simulations. Nous retenons donc les dernières valeurs que nous considérons comme la
meilleure estimation des paramètres.
Le modèle prédictif des hommes s’écrit alors :
Et le modèle prédictif des femmes est alors le suivant :
B. Intervalles de confiances et Marge de prudence des
modèles
Les modèles développés précédemment présentent quelques incertitudes de prédiction.
Pour que l’utilisateur de ces derniers puisse avoir une approche prudente vis-à-vis du risque
décès, il faudra que nous fournissions des marges d’incertitude. Pour cela, nous calculons les
intervalles de confiance à différents niveaux pour chaque modèle. Nous considérerons
ensuite comme marge de prudence l’écart moyen entre les valeurs réelles des taux
d’abattement et les bornes supérieures de l’intervalle de confiance.
Pour le calcul de l’intervalle de confiance par ré-échantillonnage, nous avons suivi le
processus suivant :
Pour chaque pays i, nous tronquons l’échantillon initial de ses données et nous
notons le nouvel échantillon .
A partir de , nous générons par ré-échantillonnage avec remise B
échantillons { }
.
Nous estimons ensuite les paramètres de la fonction de prédiction pour chaque ,
puis nous calculons les prédictions pour le pays i .
Nous avons donc pour chaque pays i, un vecteur de B prédictions. Il suffit alors de
prendre les quantiles pour avoir les bornes supérieures et inférieures de l’intervalle
de confiance.
Nous appliquons ce processus sur les deux modèles retenus en choisissant B=1 000.
59
Pour un pays i, la borne supérieure d’un intervalle de confiance à 95% indique le seuil sous
lequel se retrouvera la valeur réelle du taux d’abattement (i.e. la valeur du rapport des taux
de mortalité) avec une probabilité de 95%. Nous déterminons donc la marge de prudence
comme étant l’écart moyen observé en valeur absolue entre les valeurs réelles et les bornes
supérieures.
Chez les hommes, cet écart moyen s’élève à . Et chez les femmes il est égal à 13,5%.
Nous incluons donc par additivité dans le modèle des hommes et celui des femmes les
marges de prudence respectives.
Le fait que la marge de prudence soit plus importante chez les femmes est cohérent avec
nos attentes. En effet, la régression linéaire qui a servi à la construction du modèle de
prédiction pour les femmes a donné des p-valeurs moins significatives que ceux des modèles
des hommes. Cela se traduit par une variance plus importante dans l’estimation du
coefficient de cet indice, chose qui induit une plus grande incertitude dans la prédiction.
Les graphiques qui suivent représentent pour chacun des deux sexes les valeurs réelles, les
valeurs prédites par le modèle et la marge de prudence.
Figure 14: Valeurs réelles chez les hommes, valeur prédites par le modèle et marge de prudence
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
80,0%
90,0%
100,0%
Tx homme modèle + marge d'incertitude modèle
60
Figure 15: Valeurs réelles chez les femmes, valeur prédites par le modèle et marge de prudence
Nous remarquons d’après les figures qui précèdent que le modèle prédictif des femmes est
beaucoup moins bon que celui des hommes. Il est caractérisé par une plus forte volatilité
des prédictions. Cela corrobore l’analyse faite précédemment sur les marges de prudence.
Les modèles prédictifs, corrigés par la marge de prudence, sont moins pertinents pour les
pays dont certains indicateurs socio-économiques présentent des valeurs extrêmes. Pour
limiter les effets de ces valeurs inhabituelles, nous intégrons des limitations telles que la
valeur minimale des rapports de mortalité ne descend pas en dessous de 15% (valeur
minimale observée), et que la valeur maximale ne dépasse pas 100%.
Le modèle prédictif pour les hommes devient alors :
[ ( ( ) )]
Avec
( )
0,0%
10,0%
20,0%
30,0%
40,0%
50,0%
60,0%
70,0%
80,0%
90,0%
100,0%
Tx Femme modèle + marge d'incertitude modèle
61
Et le modèle prédictif pour les femmes devient :
[ ( ( ) )]
Avec
( )
Les modèles prédictifs développés, surtout celui des hommes, restent très pertinents dans
un contexte de tarification et de prédiction du niveau de décès des assurés. Dans la partie
suivante, nous proposons une cartographie du monde en fonction du rapport entre la
mortalité des assurés et celle de la population générale. Cela permettra d’avoir une
première approximation du taux à appliquer sur le niveau de mortalité national pour avoir
celui des assurés.
C. Cartographie du monde en fonction du rapport entre la
mortalité des assurés et celle de la population générale
Pour pouvoir proposer une cartographie du monde en fonction du rapport des taux de
mortalité, nous calculons pour chacun des deux sexes le rapport des taux en utilisant les
modèles prédictifs sur plusieurs pays. Pour des fins de simplicité et de pragmatisme, nous
regroupons les pays en six classes, en fonction du taux prédit par le modèle. Nous donnons
dans les deux tableaux suivants la répartition des pays sur les six classes pour les deux sexes.
Il faut noter que l’élaboration de la cartographie a révélé que les modèles prédictifs sont
moins pertinents quand nous les appliquons sur des pays très particuliers (voir en annexe le
cas du Luxembourg chez les hommes). Nous remarquons que la répartition des pays varie
significativement entre les deux sexes. En effet, chez les hommes, la majorité des pays se
retrouve dans les classes ayant un taux compris entre 45% et 75%. Tandis que chez les
femmes, une grande partie des pays se retrouve dans les classes ayant un taux supérieur à
75%. Cette observation corrobore l’hypothèse que la mortalité des femmes est beaucoup
plus stable que celle des hommes, puisque ces taux prédits par les modèles, représentent
une estimation du rapport entre la mortalité des assurés et celle de la population générale.
62
Tableau 7: Répartition des pays en fonction des taux prédit par le modèle chez les hommes
30% 45% 60% 75% 90% 100%
Angola Benin Armenia Algeria Albania Bosnia
Equatorial Guinea Botswana Azerbaijan Antigua and Australia Costa Rica
Burkina Faso Bangladesh Argentina Austria Greece
Burundi Belarus Belgium Canada Iceland
Cameroon Bhutan Belize Chile Italy
Central African Bolivia Brazil Colombia Maldives
Chad Cambodia Bulgaria France New Zealand
Congo Comoros Cape Verde Georgia Nicaragua
Côte d'Ivoire Denmark Croatia Japan Portugal
Congo Eritrea Czech Republic Panama Saint Lucia
Djibouti Estonia Dominica Paraguay Viet Nam
Ethiopia Ghana Dominican Republic Peru
Gabon Guyana Ecuador Serbia
Gambia Haiti Egypt Slovenia
Guinea India El Salvador Solomon Islands
Guinea-Bissau Indonesia Fiji Spain
Kazakhstan Kiribati Finland Tonga
Kenya Kyrgyzstan Germany Tunisia
Lesotho
Lao People's
Democratic Grenada
United States of
America
Liberia Latvia Guatemala
Malawi Lebanon Honduras
Mali Libyan Arab Hungary
Mozambique Lithuania Ireland
Niger Madagascar Israel
Nigeria Malaysia Jamaica
Russian Federation Mongolia Jordan
Rwanda Namibia Mauritius
Sao Tome and Nepal Mexico
Senegal Netherlands Micronesia
Sierra Leone Norway Montenegro
Singapore Pakistan Morocco
South Africa Papua New Guinea Philippines
Sudan Seychelles Poland
Swaziland Timor-Leste Republic of Korea
Togo Trinidad and Tobago Republic of
Turkmenistan Ukraine Romania
Uganda United Kingdom Samoa
Tanzania Venezuela Slovakia
Zambia Yemen Sri Lanka
Sweden
Switzerland
Syrian Arab
Republic
Tajikistan
Thailand
Turkey
Uruguay
Uzbekistan
Vanuatu
Taux applicable sur la table de mortalité nationale chez les hommes
63
Tableau 8: Répartition des pays en fonction des taux prédit par le modèle chez les femmes
30% 45% 60% 75% 90% 100%
Burkina Faso Afghanistan Bangladesh Bolivia Algeria Albania
Burundi Angola Cape Verde Botswana Argentina Australia
Central African
Republic Benin Comoros Brazil Armenia Austria
Chad Cameroon Congo Cambodia Bahamas Barbados
Djibouti Ethiopia Gabon Colombia Bahrain
Bosnia and
Herzegovina
Gambia Haiti Ghana Dominican Republic Belarus Brunei Darussalam
Guinea Malawi Iraq Equatorial Guinea Belgium Canada
Guinea-Bissau Mauritania Kenya Guatemala Belize Croatia
Liberia Nigeria Lesotho Honduras Bulgaria Cyprus
Mali Rwanda Madagascar India Chile Czech Republic
Mozambique
Sao Tome and
Principe Myanmar Indonesia China Korea
Niger Senegal Nepal Jordan Costa Rica Denmark
Sierra Leone Togo Pakistan Kuwait Cuba Estonia
Zimbabwe Zambia Papua New Guinea Lebanon Dominica Finland
Uganda Mongolia Ecuador France
Yemen Morocco Egypt Georgia
Nicaragua El Salvador Germany
Paraguay Fiji Greece
Philippines Guyana Hungary
Solomon Islands
Iran (Islamic
Republic of) Iceland
South Africa Kyrgyzstan Ireland
Suriname
Libyan Arab
Jamahiriya Israel
Swaziland Malaysia Italy
Syrian Arab
Republic Maldives Jamaica
Timor-Leste Malta Japan
Uruguay Mexico Kazakhstan
Viet Nam Micronesia Latvia
Namibia Lithuania
Oman Luxembourg
Palau Mauritius
Panama Montenegro
Peru Netherlands
Qatar New Zealand
Russian Federation Norway
Saudi Arabia Poland
Singapore Portugal
Tajikistan Romania
Tunisia Samoa
Turkey Serbia
Turkmenistan Seychelles
Ukraine Slovakia
Uzbekistan Slovenia
Spain
Sri Lanka
Sweden
Switzerland
Thailand
Tonga
Trinidad and Tobago
United Arab Emirates
United Kingdom
Taux applicable sur la table de mortalité nationale chez les femmes
64
VIII. Pistés d’amélioration : estimation des taux dé décès dés assurés par l’utilisation dés méthodés relationnelles
Nous avons développé dans les parties précédentes des modèles qui permettent d’estimer,
pour un pays donné, le rapport entre les taux de mortalité des assurés est ceux de la
population générale. Nous pouvons ainsi, pour chacun des deux sexes, approcher le niveau
de mortalité des assurés en multipliant la table de mortalité nationale par le taux prédit par
le modèle. En d’autres termes, les méthodes développées précédemment se basent sur
l’hypothèse simpliste que le lien entre la table de mortalité des assurés et celle de la
population générale est un simple coefficient multiplicateur. Dans cette partie, nous
explorons une piste d’amélioration qui a pour but de trouver un lien plus complexe qu’un
simple coefficient. L’idée est d’utiliser les méthodes relationnelles, expressions
mathématiques qui relient la mortalité d’une population à celle d’une autre, dans le but
d’avoir une approximation du niveau de mortalité des assurés qui varie en fonction de l’âge.
Nous utilisons dans cette partie le modèle de Brass que nous détaillerons par la suite.
Dans la suite de ce document, nous notons ( ) la densité de la probabilité de décès, ( )
la fonction de répartition et ( ) ( )
( ( )) le taux du hasard. Nous reprenons toutes les
autres notations citées précédemment. Nous donnerons dans cette partie un bref
historique sur la construction des méthodes relationnelles ainsi que leurs applications, et
nous développerons ensuite l’idée de l’utilisation de ces dernières pour le calcul du risque
de mortalité des assurés.
A. Modèle de Brass et Approche adoptée pour la
modélisation
La première méthode reliant la mortalité de deux populations, que nous notons i et j, est la
méthode du hasard proportionnel (Derrick, 1927). Elle est basée sur l’hypothèse que la
fonction du hasard de la population i est proportionnelle à celle de la population j. Cela
s’exprime mathématiquement par l’égalité suivante :
( ) ( )
(8)
Où est une constante.
65
L’équation (8) stipule que le rapport de mortalité entre les deux populations i et j reste
constant pour tous les âges. Or, comme nous l’avons remarqué lors de notre analyse du
rapport entre la mortalité de la population assurée et celle de la population générale, le
rapport des taux de mortalité entre deux populations évolue de manière plus complexe.
Brass a observé que ce rapport tend vers 1 pour les âges les plus élevés (Brass, 1971) .Il a
noté aussi que l’écart entre (8) et la réalité peut souvent être important. Brass a proposé
alors une relation plus réaliste qui s’exprime mathématiquement par l’égalité suivante :
( )
( )( ( ))
( )
( ) ( ( ))
(9)
En intégrant (9) des deux côtés, nous retrouvons l’égalité qui fait intervenir les fonctions de
répartition.
[ ( )
( )] [
( )
( )]
(10)
Avec la constante résultant de l’intégration.
L’égalité (10) a été intensément utilisée dans les études de la démographie des pays sous-
développés, plus particulièrement en Afrique (Brass, 1969). Vu la simplicité de cette
méthode relationnelle et la flexibilité qu’elle offre, nous nous concentrons sur cette
dernière, afin de développer une méthode qui nous permettra de passer de la table de
mortalité de la population générale à celle des assurés, en prenant en considération le
facteur de l’âge.
Nous avons observé lors du calcul des taux Tx des pays de notre échantillon, que le rapport
des taux de mortalité varie en fonction de l’âge. Cette variation diffère significativement
d’un pays à un autre. Cela signifie que si nous utilisons l’égalité (10) pour faire le lien entre la
table de mortalité des assurés et celle de la population générale, l’estimation des
paramètres ( ) donnera des valeurs différentes selon le pays étudié. Si nous arrivons à
expliquer ces deux paramètres en fonction des caractéristiques du pays étudié, nous
pourrons alors estimer les taux de mortalité des assurés par âge à partir des taux de
mortalité de la population générale. Ce qui est beaucoup plus précis que d’appliquer un
simple coefficient multiplicateur.
L’objectif est alors d’essayer de trouver un modèle prédictif qui sera sous la forme
mathématique suivante :
( ) ( )
66
Où est une fonction déterministe, et ( ) l’ensemble des indicateurs socio-
économiques qui caractérise chaque pays.
B. Construction dé l’échantillon
De ce qui précède, nous comprenons que l’objectif est de trouver un modèle qui explique le
couple de constantes ( ) par un ensemble d’indicateurs socio-économiques. Nous devons
donc avoir un échantillon qui soit composé d’un ensemble de couples ( ). Ainsi, nous
calculons ce couple de constantes pour chaque pays de notre échantillon en utilisant la
régression suivante :
[ ( )
( )] [
( )
( )]
Avec pour hypothèses ( ) ( ) ( )
Le calcul de la valeur de la fonction de répartition pour chaque âge s’effectue à partir de la
table de mortalité. En effet, nous savons que survivre jusqu’à l’âge signifie que la personne
ne décède pas dans les années qui précèdent cet âge. Cela se traduit mathématiquement
par l’égalité suivante :
( ) ∏( )
Avec la probabilité que l’individu décède entre l’âge i et l’âge i+1.
D’où le calcul de la fonction de répartition à partir de la table de mortalité par la formule
suivante :
( ) ( ) ∏( )
Nous construisons ainsi l’échantillon ( ) . Nous allons ensuite essayer d’expliquer
chaque élément du couple par des indicateurs socio-économiques, en procédant de manière
identique à celle de l’estimation du rapport moyen des taux de mortalité Tx.
Dans la suite du document, nous faisons une ébauche de la modélisation du couple de
paramètre ( ). Nous nous contentons d’une simple ébauche car l’approche proposée
implique d’effectuer des régressions sur des valeurs estimées par d’autres régressions. Les
erreurs d’estimation seront donc cumulées, et la taille réduite de notre échantillon ainsi que
la qualité des tables de mortalité utilisées remettent en question la pertinence des résultats.
67
Nous commençons dans un premier temps par essayer de modéliser ensuite nous
modéliserons .
C. Modélisation
1. Modélisation du coefficient
Pour choisir les indicateurs qui serviront de variables explicatives à notre modèle, nous
appliquons la même technique, en utilisant un algorithme qui élimine par étape et de
manière descendante les variables qui ne contribuent pas à la minimisation du BIC.
Les indicateurs retenus sont alors les suivants :
L’indice de développement humain [IDH]
Pourcentage des dépenses des foyers nettes d’assurance [OPE :Out-of-pocket
expenditure as a percentage of private expenditure on health]
Dépenses gouvernementales en santé en pourcentage des dépenses
gouvernementales totales [GEHTE : General government expenditure on health as a
percentage of total government expenditure]
Degré des inégalités de la distribution des revenus [GINI]
Nous testons dans un premier temps le modèle le plus intuitif suivant :
Avec ( ) ( ) ( )
Comme précédemment, pour déterminer l’hypothèse la plus adéquate pour la loi des
erreurs , nous allons étudier la loi de la variable expliquée. Nous traçons la densité
empirique de , que nous avons centré et réduit préalablement, ainsi que le QQ-Plot par
rapport à une loi normale centrée réduite. Et nous effectuons par la suite le test de
normalité de Shapiro-Wilk.
68
Figure 16
Figure 17
Le test de normalité renvoie une p-valeur de 0.989>0.05, ce qui signifie que l’hypothèse
nulle de la normalité n’est pas rejeté au niveau 5%.
Le graphe de la densité empirique (Figure 16) et celui du Qq-plot (Figure 17) nous montrent
qu’il est adéquat de choisir une loi normale pour . Donc la loi de est aussi une loi
normale.
69
La régression sous R nous renvoie le résultat suivant :
0.811775 0.366720 2.214 0.05125
-0.017944 0.004421 -4.059 0.00229
-0.015996 0.004297 -3.723 0.00396
1.812280 0.480240 3.774 0.00364
0.005441 0.002429 2.240 0.04903
On remarque que seulement 64,07% de la variabilité de est expliquée par le modèle. Nous
pouvons conclure que nous avons une qualité d’ajustement moyenne.
Nous remarquons que tous les coefficients sont significatifs.
Afin d’améliorer la significativité des coefficients, et principalement celui du coefficient à
l’origine, et pour améliorer la qualité de l’ajustement, nous procédons à quelques
transformations en utilisant la fonction lien inverse. Nos recherches nous mènent finalement
au modèle suivant :
(11)
Nous gardons les mêmes hypothèses que précédemment.
0.7433
0.6407
70
La régression nous renvoie le résultat suivant :
1,451 3,120e-01 4,652 0,000905
3,246e-04 8,322e-05 3,901 0,002956
1,974e-02 4,870e-03 4,053 0,002311
-2,227 5,070e-01 -4,391 0,001353
-6,126e-05 2,043e-05 -2,998 0,013379
Nous observons une amélioration de la significativité des coefficients. La déviance résiduelle
de notre modèle constitue 22% de la déviance totale. Nous avons alors une qualité
d’ajustement moyenne.
Nous allons ensuite tester la validité des hypothèses faites sur les résidus, nécessaires à la
régression.
Figure 18
1.0 1.2 1.4 1.6
-0.2
-0.1
0.0
0.1
0.2
Predicted values
Re
sid
ua
ls
glm(alpha ~ General.government.expenditure.on.health.as.a.percentage.of.tot ...
Residuals vs Fitted
2
12
5
Null deviance 0,51823
Residual deviance 0,11621
AIC -18,338
71
Le nuage des points des résidus de déviance en fonction des valeurs prédites (Figure 18)
présente plutôt une bonne uniformité, la courbe rouge oscille autour de l’axe des abscisses.
Nous pouvons conclure que l’homoscédasticité est plutôt respectée.
2. Modélisation du coefficient :
Nous procédons de la même manière que précédemment pour le choix des variables explicatives.
Nous retrouvons les variables suivantes :
Indice de développement humain [IDH]
Pourcentage de la population vivant en zone urbaine [UA: Population living in urban
areas (%)]
Nous testons dans un premier temps le modèle le plus intuitif :
Nous traçons le graphe de densité de pour avoir une idée sur la loi de à choisir.
Figure 19
Nous remarquons d’après la Figure 19 que nous n’avons pas vraiment une symétrie par
rapport à l’axe x=0. Il sera donc peu adéquat de faire l’hypothèse de normalité de car cela
implique la normalité de . Le test de normalité de Shapiro-Wilk renvoie une p-valeur de
0,043 < 0,05. Nous pouvons donc rejeter l’hypothèse de normalité au niveau .
Nous effectuons la régression sur le logiciel R et nous retrouvons les sorties suivantes :
-3 -2 -1 0 1 2 3
0.0
00
.05
0.1
00
.15
0.2
00
.25
0.3
00
.35
density.default(x = (Dataset$beta - mean(Dataset$beta))/sqrt(var(Dataset$beta)))
N = 15 Bandwidth = 0.4933
De
nsity
72
0,836247 0,157091 5,323 0,000181
-1,648134 0,313866 -5,251 0,000204
0,009095 0,002833 3,210 0,007493
Les coefficients des variables explicatives sont très significatifs. D’après le coefficient de
détermination ajusté, 65,69% de la variabilité de est expliquée par le modèle. La qualité
de l’ajustement est moyenne. Nous allons donc essayer d’améliorer la qualité d’ajustement
en maximisant le coefficient de détermination en appliquant des transformations simples.
Nous retenons finalement le modèle suivant :
(12)
La régression sous R renvoie les résultats suivants :
5,918e-01 8,911e-02 6,641 2,39e-05
-1,201 2,035e-01 -5,902 7,23e-05
6,693e-05 1,857e-05 3,604 0,00362
Nous remarquons que nous avons une amélioration de la qualité de l’ajustement, puisque
nous avons un coefficient de détermination ajusté de 0,70 au lieu de 0,65.
Nous testons ensuite la validité de l’hypothèse de l’homoscédasticité. Nous traçons alors le
nuage des points des résidus en fonction des valeurs prédites.
0,7059
0,6569
0,7463
0,704
73
Figure 20
La Figure 20 nous valide l’hypothèse de l’homoscédasticité, puisque la courbe rouge est
presque superposée avec l’axe des abscisses avec une répartition des points sans tendance
particulière.
Les tentatives de modélisation de et nous ont conduit aux deux modèles (11) et (12). Les
deux modèles ont des coefficients de détermination ajustés inférieurs à 75%. Ces résultats
présagent de prédictions peu précises, ce qui remet en question leur utilisation dans le
modèle de Brass pour construire la table de mortalité des assurés. L’imprécision rencontrée
lors des tentatives de modélisation du couple ( ) est liée à la qualité des tables de
mortalité utilisées. En effet, la plupart des tables de notre échantillon, et surtout celles
issues du site de l’O.M.S., sont construites à partir d’extrapolations et de projections. Seules
les tables de certains pays développés, comme l’Allemagne et les Etats Unis sont des vraies
tables d’expérience. Pour pouvoir construire un modèle permettant de donner le niveau de
mortalité des assurés par âge, il faudra avoir un échantillon constitué uniquement des tables
d’expérience. Cependant, malgré la faible qualité d’ajustement des deux modèles (11) et
(12), il est néanmoins intéressant de constater que ces derniers ont deux variables
explicatives en commun avec les modèles du rapport moyen de mortalité Tx.
0.0 0.1 0.2 0.3 0.4 0.5
-0.2
-0.1
0.0
0.1
0.2
Fitted values
Re
sid
ua
ls
lm(beta ~ I(IDH^2) + I(Population.living.in.urban.areas....^2))
Residuals vs Fitted
5
10
3
74
IX. Conclusion
Malgré la taille de l’échantillon très réduite que nous avons à notre disposition, nous avons
pu avoir des modèles qui semblent statistiquement robustes. L’intérêt principal de l’étude
est de mettre en place un modèle prédictif suffisamment fiable pour qu’il soit utilisable en
pratique. Ce modèle doit nous permettre d’avoir une bonne estimation de la mortalité des
assurés à partir de la mortalité de la population générale. L’application d’un coefficient
multiplicateur est l’une des pratiques les plus courantes en souscription. Pour développer
des modèles permettant de prédire le coefficient multiplicateur pour n’importe quel pays,
nous avons dans un premier temps sélectionné un nombre limité d’indicateurs socio-
économiques qui ont servi de variables explicatives. La sélection de ces derniers s’est basée
sur une combinaison d’analyses qualitatives et de techniques statistiques exploratoires.
Ensuite nous avons procédé à des régressions linéaires et des tests statistiques pour retenir
les meilleurs modèles prédictifs. La qualité de la prédiction des modèles est mesurée par
l’erreur de prédiction moyenne estimée par l’estimateur +.632 (Efron & Tibshirani, 1997).
Cet estimateur présente le meilleur compromis entre biais et variance, et prend en compte
l’effet d’un éventuel phénomène de sur-ajustement. Les modèles retenus présentent de
très bonnes qualités prédictives pour les hommes. Pour les femmes, les prédictions sont
moins bonnes. Mais les marges de prudence, incluses dans les modèles des deux sexes,
permettent d’avoir des taux d’abattement que nous pouvons appliquer sur les tables de
mortalité nationales sans risque de sous-estimation du niveau de mortalité. L’étude
présentée dans ce document nous révèle que l’espérance de vie moyenne à la naissance
ainsi que l’indice de développement humain donnent une bonne idée des inégalités face à la
mort dans le pays étudié. Elle corrobore aussi l’idée que la mortalité des femmes ne réagit
pas de la même manière que celle des hommes, et qu’elle est beaucoup moins sensible aux
différents paramètres exogènes. La cartographie présentée dans ce document donne, pour
un grand nombre de pays, le coefficient multiplicateur qui permet d’avoir le niveau de
mortalité des assurés à partir de celui de la population générale. Enfin, nous clôturons ce
document en proposons une piste d’amélioration qui fait appel aux méthodes relationnelles
pour le calcul des tables de mortalité des assurés.
75
X. Bibliographie Bernner, H., & Hopkins, J. (2006). Impact des facteurs macro-économiques sur la mortalité en Europe
et dans l'OCDE. Commission européenne, Direction générale de l'Emploi, affaires sociales et égalités
des chances. Berlin, North Texas: OCDE.
Bouyer, J., Hémon, D., Cordier, S., & Cordier, a. (1993). Epidémiologie-principes et méthodes
quantitatives.
Brass, W. (1969). A generation method for projecting death rates. Birmingham: Edinburgh University
Press.
Brass, W. (1971). On the scale of mortality. Biological aspects of mortality , pp. 69-110.
Breiman, L. (1996). Bagging Predictors. (K. A. Publishers, Ed.) Machine Learning (24), pp. 123-140.
Breiman, L. (1996). Heuristics of instability and stabilization in model selection. The Annals of
Statistics , 24 (6), pp. 2350-2383.
Breslow, N., & Day, N. (1987). Statistical methods in cancer research (vol 2). IARC Scientific Publ
n°82,Lyon, International Agency for Research on Cancer .
Derrick, V. (1927). Observation on Errors Of Age in the Population Statistics of England and Wales,
and the changes in Mortality indicated by national records. Journal of the Institute of Actuaries , 117-
146.
Efron, B. (1983). Estimating the Error Rate of a Prediction Rule: Some Improvements on Cross-
Validation. Journal of the American Statistical Association (78), 316-331.
Efron, B., & Tibshirani, R. (1997). Improvements on Cross-Validation: The .632+ Bootstrap Method.
(A. S. Association, Ed.) Journal of the American Statistical Association , 92 (438), 548-560.
Husson, F., Josse, J., & Pagès, J. (2010). Analyse de données avec R. Complémentarité des méthodes
d'analyse Factorielle et de classification. Marseille: Inria.
Jougla, E. (1997). Test statistiques relatifs aux indicateurs de mortalité en population. Inserm-CépiDc-
IFR69 , 45,78-84.
Kamega, A., & Planchet, F. (2011). Analyse et comparaison des populations générale et assurée en
Afrique subsaharienne francophone pour anticiper la mortalité future. Lyon.
Landry, A. (1982). La révolution démographique-Etudes et essais sur les problèmes de la population.
Ined.
Monteil, C., & Robert-Bobée, I. R.-B. (2005, Juin). Les différences sociales de mortalité :en
augmentation chez les hommes,stables chez les femmes. INSEE PREMIERE (1025).
O.M.S. (2011, Septembre). Global Health Observatory, World Health Organization . Retrieved from
World Health Organization : http://www.who.int/gho/database/en/
OCDE. (2011). Panorama de la santé 2011 : Les indicateurs de l'OCDE. Éditions OCDE.
76
Pison, G., Van de Walle, E., & Sala-Diakanda, M. (1989). Mortalité et société en Afrique au sud du
Sahara. Paris: Cahier de l'INED.
Planchet, F., & Lelieur, V. (2010). Utilisation des méthodes de Lee-Carter et Log-Poisson pour
l'ajustement de tables de mortalité dans le cas de petits échantillons. Lyon.
Planchet, F., & Thérond, P. (2006). Modèles de Durée. Paris: ECONOMICA.
PNUD. (2011). rapports sur le développement humain. Retrieved septembre 14, 2011, from PNUD:
http://hdr.undp.org/fr/statistiques/idh/
Stone, M. (1974). Cross-validatory choice and assessment of statistical predictions. Journal of the
Royal Statistical Society B , 36 (1), 111-147.
77
XI. Annexes
A. Taux applicables sur la mortalité nationale prédits par
les modèles
1. Taux des hommes
Pays Tx prédit Pays Tx prédit Pays Tx prédit Pays Tx prédit
Albania 0,78 Ecuador 0,70 Liberia 0,37 Sao Tome and Principe 0,44
Algeria 0,60 Egypt 0,63
Libyan Arab
Jamahiriya 0,51 Senegal 0,43
Angola 0,30 El Salvador 0,69 Lithuania 0,52 Serbia 0,77
Antigua and Barbuda 0,60 Equatorial Guinea 0,29 Luxembourg 0,44 Seychelles 0,53
Argentina 0,70 Eritrea 0,58 Madagascar 0,46 Sierra Leone 0,34
Armenia 0,59 Estonia 0,56 Malawi 0,38 Singapore 0,38
Australia 0,83 Ethiopia 0,43 Malaysia 0,58 Slovakia 0,64
Austria 0,76 Fiji 0,66 Maldives 1,00 Slovenia 0,84
Azerbaijan 0,53 Finland 0,69 Mali 0,34 Solomon Islands 0,77
Bangladesh 0,56 France 0,89 Mauritius 0,66 South Africa 0,33
Belarus 0,51 Gabon 0,35 Mexico 0,69 Spain 0,80
Belgium 0,63 Gambia 0,42
Micronesia (Federated
States of) 0,73 Sri Lanka 0,67
Belize 0,72 Georgia 0,78 Mongolia 0,58 Sudan 0,40
Benin 0,40 Germany 0,75 Montenegro 0,71 Suriname 0,61
Bhutan 0,47 Ghana 0,47 Morocco 0,75 Swaziland 0,32
Bolivia (Plurinational
State of) 0,53 Greece 0,95 Mozambique 0,35 Sweden 0,65
Bosnia and
Herzegovina 0,99 Grenada 0,62 Namibia 0,47 Switzerland 0,70
Botswana 0,38 Guatemala 0,63 Nepal 0,52 Syrian Arab Republic 0,75
Brazil 0,62 Guinea 0,38 Netherlands 0,57 Tajikistan 0,63
Bulgaria 0,63 Guinea-Bissau 0,34 New Zealand 0,95 Thailand 0,67
Burkina Faso 0,36 Guyana 0,56 Nicaragua 0,99
The former Yugoslav
Republic of
Macedonia 0,73
Burundi 0,36 Haiti 0,48 Niger 0,37 Timor-Leste 0,46
Cambodia 0,49 Honduras 0,68 Nigeria 0,33 Togo 0,44
Cameroon 0,35 Hungary 0,62 Norway 0,47 Tonga 0,79
Canada 0,84 Iceland 1,00 Pakistan 0,49 Trinidad and Tobago 0,47
Cape Verde 0,70 India 0,52 Panama 0,79 Tunisia 0,86
Central African
Republic 0,33 Indonesia 0,55 Papua New Guinea 0,49 Turkey 0,62
Chad 0,32 Ireland 0,74 Paraguay 0,87 Turkmenistan 0,44
Chile 0,80 Israel 0,74 Peru 0,85 Uganda 0,37
Colombia 0,77 Italy 1,00 Philippines 0,62 Ukraine 0,52
Comoros 0,46 Jamaica 0,70 Poland 0,71 United Kingdom 0,59
Congo 0,35 Japan 0,89 Portugal 1,00
United Republic of
Tanzania 0,37
Costa Rica 1,00 Jordan 0,66 Republic of Korea 0,65
United States of
America 0,85
Côte d'Ivoire 0,39 Kazakhstan 0,43 Republic of Moldova 0,68 Uruguay 0,63
Croatia 0,75 Kenya 0,38 Romania 0,62 Uzbekistan 0,64
Czech Republic 0,66 Kiribati 0,59 Russian Federation 0,44 Vanuatu 0,67
Democratic Republic
of the Congo 0,34 Kyrgyzstan 0,58 Rwanda 0,44
Venezuela (Bolivarian
Republic of) 0,60
Denmark 0,60
Lao People's
Democratic Republic 0,48 Saint Kitts and Nevis 0,66 Viet Nam 1,00
Djibouti 0,38 Latvia 0,51 Saint Lucia 1,00 Yemen 0,53
Dominica 0,72 Lebanon 0,57
Saint Vincent and the
Grenadines 0,65 Zambia 0,33
Dominican Republic 0,68 Lesotho 0,33 Samoa 0,63
78
2. Taux des femmes
B. Code R du Bootstrap resample<-function(d){ lin<-length(d[,1]) col<-length(d[1,]) mat<- d c<-sample(1:lin,replace=T) for(i in 1:lin){ mat[i,]<-d[c[i],] } return(mat) } +++++++++++++++++++++++++++++++++++++++++++++++++++
Pays Tx prédit Pays Tx prédit Pays Tx prédit Pays Tx prédit
Afghanistan 0,35 Denmark 1,00 Lao People's Democratic Republic0,59 Qatar 0,79
Albania 0,97 Djibouti 0,15 Latvia 0,98 Romania 1,00
Algeria 0,78 Dominica 0,78 Lebanon 0,68 Russian Federation 0,84
Angola 0,42 Dominican Republic 0,73 Lesotho 0,47 Rwanda 0,44
Argentina 0,75 Ecuador 0,82 Liberia 0,15 Samoa 0,97
Armenia 0,85 Egypt 0,79 Libyan Arab Jamahiriya 0,82 Sao Tome and Principe 0,43
Australia 1,00 El Salvador 0,77 Lithuania 1,00 Saudi Arabia 0,79
Austria 1,00 Equatorial Guinea 0,62 Luxembourg 1,00 Senegal 0,44
Bahamas 0,80 Estonia 1,00 Madagascar 0,55 Serbia 1,00
Bahrain 0,82 Ethiopia 0,32 Malawi 0,37 Seychelles 1,00
Bangladesh 0,56 Fiji 0,85 Malaysia 0,87 Sierra Leone 0,22
Barbados 1,00 Finland 1,00 Maldives 0,84 Singapore 0,81
Belarus 0,83 France 1,00 Mali 0,28 Slovakia 1,00
Belgium 0,89 Gabon 0,57 Malta 0,82 Slovenia 1,00
Belize 0,87 Gambia 0,29 Mauritania 0,44 Solomon Islands 0,64
Benin 0,39 Georgia 0,92 Mauritius 0,96 South Africa 0,65
Bolivia (Plurinational State of)0,70 Germany 1,00 Mexico 0,83 Spain 1,00
Bosnia and Herzegovina 0,96 Ghana 0,54 Micronesia (Federated States of)0,87 Sri Lanka 0,96
Botswana 0,69 Greece 1,00 Mongolia 0,74 Suriname 0,68
Brazil 0,65 Guatemala 0,64 Montenegro 0,97 Swaziland 0,62
Brunei Darussalam 0,99 Guinea 0,26 Morocco 0,61 Sweden 1,00
Bulgaria 0,89 Guinea-Bissau 0,28 Mozambique 0,18 Switzerland 1,00
Burkina Faso 0,26 Guyana 0,83 Myanmar 0,51 Syrian Arab Republic 0,73
Burundi 0,24 Haiti 0,41 Namibia 0,78 Tajikistan 0,78
Cambodia 0,63 Honduras 0,74 Nepal 0,50 Thailand 0,91
Cameroon 0,40 Hungary 1,00 Netherlands 1,00 The former Yugoslav Republic of Macedonia0,84
Canada 1,00 Iceland 0,97 New Zealand 1,00 Timor-Leste 0,60
Cape Verde 0,57 India 0,64 Nicaragua 0,63 Togo 0,40
Central African Republic 0,22 Indonesia 0,68 Niger 0,19 Tonga 0,99
Chad 0,24 Iran (Islamic Republic of) 0,78 Nigeria 0,41 Trinidad and Tobago 1,00
Chile 0,81 Iraq 0,53 Norway 1,00 Tunisia 0,77
China 0,86 Ireland 1,00 Oman 0,76 Turkey 0,76
Colombia 0,73 Israel 0,94 Pakistan 0,55 Turkmenistan 0,84
Comoros 0,45 Italy 1,00 Palau 0,85 Uganda 0,48
Congo 0,48 Jamaica 0,92 Panama 0,86 Ukraine 0,84
Costa Rica 0,89 Japan 1,00 Papua New Guinea 0,53 United Arab Emirates 0,97
Croatia 1,00 Jordan 0,69 Paraguay 0,74 United Kingdom 0,92
Cuba 0,85 Kazakhstan 0,90 Peru 0,78 Uruguay 0,72
Cyprus 1,00 Kenya 0,59 Philippines 0,68 Uzbekistan 0,80
Czech Republic 1,00 Kuwait 0,64 Poland 1,00 Viet Nam 0,74
Korea 1,00 Kyrgyzstan 0,78 Portugal 1,00 Yemen 0,47
Zambia 0,40
Zimbabwe 0,25
79
Jackknif.boot4<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,])
m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) + Gross.national.income.per.capita..PPP.int...., family=Gaussian(inverse),data=dat)
c[i,k]<-min(1/predict(m,newdata=d[i,]),1) } } return(c) } Jackknif.boot2<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,])
m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^3) + life.expectancy, family = gaussian(log), data=dat)
c[i,k]<-min(1,exp(predict(m,newdata=d[i,]))) } } return(c) } +++++++++++++++++++++++++++++++++++++++++++++++++++ Jackknif.4<-function(d){ l<-length(d[,1]) Jack<-matrix(nrow=l,ncol=1) for (i in 1:l){ app<-d[-i,] m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^3) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) + Gross.national.income.per.capita..PPP.int...., family=gaussian (inverse), data=app) Jack[i,1]<-1/predict(m,newdata=d[i,]) } return(Jack) } Jackknif.2<-function(d){ l<-length(d[,1]) Jack<-matrix(nrow=l,ncol=1) for (i in 1:l){ app<-d[-i,] m<-glm(formula = Tx.homme ~ I(Population.living.in.urban.areas....^3) +
80
life.expectancy, family = gaussian(log), data = app) Jack[i,1]<-exp(predict(m,newdata=d[i,])) } return(Jack) } +++++++++++++++++++++++++++++++++++++++++++++++++++++++ A2<-Jackknif.boot2(Dataset,1000) A4<-Jackknif.boot4(Dataset,1000) Err2<-matrix(data=1:19000,ncol=1000) Err4<-matrix(data=1:19000,ncol=1000) for(i in 1:1000){ for (k in 1:19) { Err2[k,i]<-(Dataset[k,3]-A2[k,i])^2 Err4[k,i]<-(Dataset[k,3]-A4[k,i])^2 } } er2<-c(1:19) er4<-c(1:19) for (i in 1:19){ er2[i]<-mean(Err2[i,]) er4[i]<-mean(Err4[i,]) } +++++++++++++++++++++++++++++++++++++++++++++++++++++++ bootH<-function(d,R){ UA<-c(1:R) TEH<-c(1:R) LE<-c(1:R) GNI<-c(1:R) a0<-c(1:R) for(k in 1:R){ dat<-resample(d) m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) +Gross.national.income.per.capita..PPP.int...., family=gaussian(inverse),data=dat) a0[k]<-coef(m)[1] UA[k]<-coef(m)[2] TEH[k]<-coef(m)[3] LE[k]<-coef(m)[4] GNI[k]<-coef(m)[5] } C<-c(1:5) C[1]<-mean(a0) C[2]<-mean(UA) C[3]<-mean(TEH) C[4]<-mean(LE) C[5]<-mean(GNI) return(C) } bootF<-function(d,R){ UA<-c(1:R) IDH<-c(1:R) a0<-c(1:R) for(k in 1:R){
81
dat<-resample(d) m<-lm(Tx.femme ~ I(Population.living.in.urban.areas.... ^2)+IDH, data=dat) a0[k]<-coef(m)[1] UA[k]<-coef(m)[2] IDH[k]<-coef(m)[3] } C<-c(1:5) C[1]<-mean(a0) C[2]<-mean(UA) C[3]<-mean(IDH) return(C) } ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++ confidence.Homme<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) int<-matrix(nrow=l,ncol=2) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,]) m<-glm(Tx.homme ~ I(Population.living.in.urban.areas....^2) + Per.capita.total.expenditure.on.health..PPP.int.... + I(life.expectancy^2) + Gross.national.income.per.capita..PPP.int...., family=gaussian (inverse),data=dat) c[i,k]<-max(min(1/predict(m,newdata=d[i,]),1),0.1) } int[i,]<-quantile(c[i,],probs=c(0.05,0.95)) } return(int) } confidence.Femme<-function(d,R){ l<-length(d[,1]) c<-matrix(nrow=l,ncol=R) int<-matrix(nrow=l,ncol=2) for (i in 1:l){ for(k in 1:R){ dat<-resample(d[-i,]) m<-lm(Tx.femme ~ I(Population.living.in.urban.areas.... ^2)+IDH, data=dat) c[i,k]<-max(min(predict(m,newdata=d[i,]),1),0.1) } int[i,]<-quantile(c[i,],probs=c(0.5,0.95)) } return(int) }