View
15
Download
0
Category
Preview:
Citation preview
Rapport de stage NOVARTIS PHARMA France
Analyse statistique d’indicateurs Relation
Professionnelle et Gestion de Visite Médicale
Auteur : BAH Mamadou Saidou
Master2 Modélisation Statistique-Economique et Financière
Université Paris1 PANTHEON-SORBONNE
Maitre de Stage : Gaelle Sorieul
Coordinatrice G.V.M. & Opérations Locales
Novartis Pharma S.A.S.
Communication & Marketing Services Novartis Pharma S.A.S.
2/4, rue Lionel Terray F-92500 Rueil-Malmaison
France
Phone: (33) 1 55476394 Email : gaelle.sorieul@novartis.com
Rapport de stage NOVARTIS PHARMA France
2
2011
Introduction générale
Dans le cadre de ma formation Master2 Modélisation Statistique Economique et
Financière de l’Université de Paris 1 PANTHEON-SORBONNE, je réalise, du 23 mai au
23 novembre 2011, un stage au service Gestion Visite Médicale et Relation
Professionnelle chez NOVARTIS PHARMA France.
Le but de ce stage est pour moi d’être confronté à un nouveau milieu, d’assumer
les responsabilités d’un projet, de contribuer de manière plus approfondie à divers projets
d’analyse de données et statistiques, dans le but de mettre mes connaissances et
compétence en pratique et d’en assimiler de nouvelles au sein de ce service.
C’est dans ce contexte, qui m’a été confiée les tâches suivantes :
1. Accompagner la coordinatrice RP/GVM (Relations Professionnelles/Gestion de la
visite Médicale) sur le suivi de l’activité opérationnelle relative à son service.
2. Procéder à la conception et le pilotage d’analyses et de recommandations basées
sur l’exploitation des données issues des systèmes d’information internes (outils
de datawarehousing, reporting activités, outil CRM…) et externes (plateforme
prestataire RP/GVM).
3. Etablir un apport proactif et réactif d’éléments d’analyse et de recommandations
pour une amélioration de la proposition Novartis sur chacun de ces services.
A ces misions s’ajoutera la nécessité de mener une réflexion pour ressortir une
synthèse générale à l’issue des résultats trouvés, pour avoir une vision globale et trouver
des solutions optimales.
Pour mener à bien ce projet, j’utilise le logiciel Excel pour le reporting, les
tableaux de bord et leur automatisation dynamique. Le logiciel SAS m’a permis de faire
le traitement des données, l’analyse des données et la modélisation. Ainsi, je bénéficie
d’un grand soutien pédagogique et une grande liberté pour mener à bien ce projet.
Afin de rendre compte du travail effectué, ce rapport s’articule en trois parties :
la première partie portera sur la présentation de NOVARTIS, la deuxième partie portera
sur la présentation de NOVARTIS PHARMA et le service RP/GVM du Novartis pharma,
la troisième partie portera sur la démarche du projet.
Rapport de stage NOVARTIS PHARMA France
3
2011
Table of Contents
Introduction générale ............................................................................................................................... 2
I. Présentation du NOVARTIS .............................................................................................................. 4 1. Novartis Monde ........................................................................................................................... 4 2. Novartis en France. ...................................................................................................................... 4 2.1 Les filiales de Novartis France ..................................................................................................... 4
II. Présentation de NOVARTIS PHARMA S.A.S et le service RP/GVM. ................................................... 5 1. NOVARTIS PHARMA S.A.S ...................................................................................................... 5 1.1. Les principales aires thérapeutiques : ....................................................................................... 5
III. Projet de Stage ................................................................................................................................ 6 1. Démarche du projet ..................................................................................................................... 6 2. Mise en place des indicateurs de suivi automatisé des RP pour le service RP/GVM Novartis
Pharma. ................................................................................................................................................ 7 2.1 Définition et importance des indicateurs ....................................................................................... 7 2.2 Démarche d’automatisation: ......................................................................................................... 7 2.3 Organisation des données : ........................................................................................................... 7 2.4 Programme Excel :....................................................................................................................... 8 2.5 Schéma du fichier de l’automatisation: ......................................................................................... 9 3. Mise en place d’une analyse des RP (classiques et pré-déclarées) et leur automatisation .............. 10 3.1 Reporting ................................................................................................................................... 10 3.2 Définition des indicateurs réalisés en year to date. ...................................................................... 10 3.3 Tableaux de croisement dynamiques, tableaux de bord sur les indicateurs crées dans la partie
analyse et leur présentation: ................................................................................................................ 11 3.3.1 Définition et importance de tableau de croisement dynamique : .............................................. 11 3.3.2 Définition et importance de tableau de bord : ......................................................................... 11 3.3.3 Présentation du tableau de bord suivi RP ................................................................................ 11 4. Mise en place d’une analyse des écarts et dysfonctionnement sur les dossiers ainsi que leur
automatisation ..................................................................................................................................... 12 5. Réflexion pour ressortir une synthèse générale............................................................................ 13 5.1 Modélisation des écarts et dysfonctionnements sur les dossiers facturés ...................................... 13 5.1.1 Choix de la modélisation : ..................................................................................................... 13 5.1.2 Démarche : ............................................................................................................................ 13 1) Etudes diagnostique des données et découpage en tranche des variables qualitatives. .................. 13 2) Calcul du coefficient de corrélation ............................................................................................ 18 3) Liaison variables quantitatives et la variable cible ....................................................................... 18 4) Liaison variables qualitatives et la variable cible ......................................................................... 19 5) Echantillonnage : ....................................................................................................................... 19 5.2 Segmentation : ........................................................................................................................... 28 5.2.1 Présentation de la base .......................................................................................................... 28 5.2.2 Analyse : ............................................................................................................................... 28
Conclusion .............................................................................................................................................. 40
Annexe.................................................................................................................................................... 41 Bibliographie : ..................................................................................................................................... 45
Rapport de stage NOVARTIS PHARMA France
4
2011
I. Présentation du NOVARTIS
1. Novartis Monde
Novartis est un groupe pharmaceutique suisse créé en 1996 par la fusion de Ciba
Geigy et de Sandoz qui sont aussi des laboratoires pharmaceutiques Suisse. Le Groupe
Novartis emploi plus de 119 000 collaborateurs et présent dans plus de 140 pays à travers
le monde. Il est classée 3ème
groupe Pharmaceutique au monde, 2ème
producteur de
médicaments générique et détient 6% du marché mondial de vaccin. Son chiffre d’affaire
en 2010 est de 50,6 M USD.
Il mène une stratégie gagnante basée sur quatre axes : la conception, le
développement, la fabrication et la commercialisation d’une gamme diversifiée de
produits innovants pour soigner les patients, soulager la douleur et améliorer la qualité de
vie.
2. Novartis en France.
De siège social basé à Rueil-Malmaison (Hauts-de-Seine), Novartis France est un
leader dans l’offre de médicaments innovants destinés à préserver la santé et à améliorer
le bien-être.
2.1 Les filiales de Novartis France
Comme le groupe mondial, Novartis France est organisé en quatre divisions :
Novartis pharma : propose des médicaments de marque dans huit aires
thérapeutiques : cardiologie, oncologie, neuroscience, pneumologie, santé des os,
transplantation/immunologie, infectiologie et ophtalmologie.
Sandoz : intervient sur le marché des médicaments génériques et est un pionnier
dans le domaine des bio similaire.
Novartis Consumer health : regroupe trois unités d’affaires : Novartis santé
animale (produits pour le bien-être des animaux), Novartis santé familiale
(médicaments de prescriptions et produits d’automédication), et Ciba vision
(produits pour la vision).
Novartis vaccines et Diagnostics : comprend une structure dédiée à la
commercialisation des vaccins en France et la structure européenne de production
de diagnostique sanguin.
Rapport de stage NOVARTIS PHARMA France
5
2011
II. Présentation de NOVARTIS PHARMA S.A.S et le
service RP/GVM.
1. NOVARTIS PHARMA S.A.S
Novartis Pharma S.A.S. a pour vocation de proposer des médicaments à valeur
ajoutée thérapeutique, efficaces et bien tolérés.
1.1. Les principales aires thérapeutiques :
Les aires thérapeutiques sont divisées en franchise. On distingue 8 aires thérapeutiques.
RHUMATOLOGIE : spécialisé dans le traitement contre le rhumatisme.
PNEUMOLOGIE : lutte contre l’asthme allergique
TRANSPLANTATION : spécialisée dans la transplantation d’organes.
CARDIOVASCULAIRE : lutte contre le diabète et hypertension.
NEUROLOGIE : propose à ses patients atteints de la maladie d’Alzheimer des
médicaments sous forme transdermique, donc d’une simplicité d’administration
inégalée.
OPHTALMOLOGIE : performants dans le traitement contre la forme néo
vasculaire (humide) de la dégénérescence maculaire liée à l’âge (DMLA).
ONCOLOGIE : traitement de cancers.
INFECTIOLOGIE : traite les maladies infectieuses.
2. LE SERVICE RP/GVM
Le service RP/GVM est garant des bonnes pratiques internes, de l’application du code
de la santé publique et des principes de la politique Novartis Globale et donne un cadre
réglementaire pour la réalisation des Opérations Locales.
Il assure la logistique et la distribution des éléments promotionnels en étudiant la
faisabilité de chaque demande et en proposant des solutions tout en maitrisant les coûts.
Il coordonne la distribution des échantillons médicaux et gère la relation avec les
Professionnels santé.
Il contribue à la formation des Visiteurs médicaux et des interlocuteurs du siège sur
les différents processus et Règlementaire en vigueur.
Rapport de stage NOVARTIS PHARMA France
6
2011
III. Projet de Stage
1. Démarche du projet
Pour mener à bien ce projet, j’ai consacré le début de mon stage à découvrir le
service et à connaître ses activités. J’ai alors pu mesurer l’importance de la tâche qui m’a
été confiée, mise en place des indicateurs automatisés de suivi des RP (Relation
Professionnelle) classiques et pré-déclarées, mise en place d’une analyse des RP et son
automatisation, mise en place d’une analyse des écarts et disfonctionnement sur les
dossiers et son automatisation, et en fin mener une réflexion pour ressortir une synthèse
générale.
Après la découverte, une première étape consistait à collecter toutes les données
nécessaires sur lesquelles portera l’analyse.
La seconde étape consiste à organiser l’automatisation du reporting de suivi les RP
(classiques et pré-déclarées) selon le choix du service RP/GVM.
La troisième étape qui correspond à la mise en place d’une analyse des RP
(classiques et pré-déclarées), consiste à élaborer une analyse plus pertinente qui permettra
d’approfondir le suivi des RP.
La quatrième partie qui correspond à la mise en place d’une analyse des écarts et
dysfonctionnement sur les dossiers, consiste à trouver une analyse qui porte sur le nombre
de dossiers réalisés, le nombre de dossiers qui ont fait des erreurs par type et par catégorie
pour chaque franchise.
Pour la cinquième partie qui porte sur la réflexion, dans la première partie, j’ai
essayé de faire un modèle de scoring (régression logistique type logit) pour cibler les
dossiers facturés qui ont une forte probabilité d’avoir des erreurs. Cette partie permettra
de voir quelles sont les variables qui expliquent la probabilité qu’un dossier ait une
erreur sur les factures et comment cette probabilité varie en fonction de la variation des
variables explicatives. Dans la deuxième partie, j’ai essayé de faire une segmentation sur
les OL (Opération Locale) de type RP (Relation Professionnelle) que je juge très
pertinent, puisqu’elle permet de les caractériser et définir une homogénéité selon leurs
caractéristiques communes.
Collecte des donnes et correction :
Pour la collecte des données, j’ai réalisé une extraction sur deux sources de données:
Crescendo : pour les données RP classique, et pré-déclarées
Charly : pour les données RNT (nombre de médecins invités dans les
opérations locales), nombre factures et nombre d’erreurs.
Concernant les anomalies des données, j’ai effectué des mails listes auprès du personnel
chargé de fournir ces données.
Rapport de stage NOVARTIS PHARMA France
7
2011
Type d’anomalie rencontrée :
Des doublons
Valeur manquante
Erreur de saisie
2. Mise en place des indicateurs de suivi automatisé des RP pour le
service RP/GVM Novartis Pharma.
Ce travail s’intègre dans la mise en place des processus et des outils attachés au suivi
des RP classiques et pré-déclarées.
2.1 Définition et importance des indicateurs
Le service RP/GVM souhaite suivre les franchises et comparer leur performance.
Elles sont suivies à travers les indicateurs suivants :
Nombre de RP Classique réalisées : indique le nombre d’OL de type Relations
Professionnelles classiques réalisées
Nombre de RP pré déclarées réalisées : indique le nombre d’OL de type
Relations Professionnelles pré-déclarées réalisées.
Nombre de RP arrivant à terme : indique le nombre d’OL de type Relations
Professionnelles pré-déclarées arrivant à terme.
Nombre d’invités : indique le nombre d’invités présents dans les OL de type
Relations professionnelles.
Une automatisation de ces indicateurs de suivi, permettra au service RP/GVM
d’actualiser les analyses de façon dynamique à chaque instant.
2.2 Démarche d’automatisation:
La première étape consiste à collecter les données nécessaires au suivi des RP,
la seconde étape consiste à créer un fichier sur Excel, puis organiser les feuilles selon les
critères choisis par le service, la troisième étape consiste à écrire des formules Excel qui
mettent en relation les résultats de tableau de croisement dynamique de toutes les feuilles,
puis la quatrième partie consiste à créer des graphiques qui sont reliés automatiquement
aux résultats. Ainsi cette automatisation va permettre une mise à jour dynamique des
résultats.
2.3 Organisation des données :
L’organisation des données sur un fichier Excel m’a permis d’adapter les données
selon les catégories définies par le service RP/GVM qui sont :
a. Nombre de RP classique et pré déclaré par franchise et par mois pour
l’année N-1 et N.
b. La moyenne des invités par franchise sur la période observée pour l’année
N-1 et N.
Rapport de stage NOVARTIS PHARMA France
8
2011
c. La moyenne des RNT réalisées par franchise sur la période observée pour
l’année N-1 et N.
Le fichier comprend 12 feuilles de calculs qui sont:
Feuille n°0 : Process
Feuille n°1 : tableau croisement dynamique des RP classiques et pré-déclarées
année N-1 par franchise.
Feuille n°2 : tableau de croisement dynamique des moyennes des invités année
N-1 par franchise.
Feuille n°3 : source (base de données des RP année N-1).
Feuille n°4 : tableau croisement dynamique des RP classiques et pré-déclarées
année N par franchise.
Feuille n°5 : tableau de croisement dynamique des moyennes des invités année N
par franchise.
Feuille n°6 : source (base de données des RP année N).
Feuille n°7 : tableau de croisement dynamique des moyennes des RNT année N-1
par franchise.
Feuille n°8 : source (base de données des RNT année N-1).
Feuille n°9 : tableau de croisement dynamique des moyennes des RNT année N
par franchise.
Feuille n°10 : source (base de données des RNT année N).
Feuille n°11 : récapitulatif des résultats de toutes les feuilles de calculs plus les
tableaux de bord par franchise.
2.4 Programme Excel :
Les fonctions Excel dont j’ai utilisé pour mettre un lien entre toutes les feuilles de
calculs :
FONCTION DEFINITION
Vlookup pour la recherche verticale.
Hlookup pour la recherche horizontale.
VALUE conversion d’un argument texte en nombre
SUMIF fait addition si la condition est respectée
INT arrondi à un entier inférieur
AVERAGE donne ma moyenne
TRUE renvoi la vraie valeur
OR donne la valeur Vrai si au moins un paramètre est vrai
NOT renvoi la valeur la valeur logique inverse
IF Renvoi vrai si la condition est réalisée
FALSE Renvoi faux si la condition n’est pas réalisée.
AND Si toutes les valeurs sont vraies alors la condition est vraie.
MONTH Renvoi le mois de 0 à 12
Rapport de stage NOVARTIS PHARMA France
9
2011
SUBTOTAL sous total d’une liste
CHAR Retour la valeur numérique d’un caractère.
CUNTIF Compte le nombre de cellules qui correspondent à la
condition.
2.5 Schéma du fichier de l’automatisation:
Explication : les reporting respectivement des tableaux de croisements dynamique des RP
année N et N-1 et ceux des RNT issues de la source facture. Tous résultats de ces
tableaux de croisement dynamique sont reliés à la feuille synthèse où on peut retrouver
l’ensemble des résultats ainsi que les graphiques correspondants et qui changent
automatiquement en fonction du choix.
Rapport de stage NOVARTIS PHARMA France
10
2011
3. Mise en place d’une analyse des RP (classiques et pré-déclarées) et leur
automatisation
La mise en place d’une analyse des RP servira non seulement au pilotage de
l’activité Relations Professionnelles pour les franchises, mais aussi d’optimiser les
dépenses. Les indicateurs d’analyse se déclinent sous la forme de nombre, de coûts, de
moyennes, de ratios et de pourcentage (pour comparer l’activité, et les dépenses pour
chaque franchise). Cette étape portera sur l’automatisation du reporting des tableaux de
croisement dynamiques et tableaux de bord des indicateurs créés.
3.1 Reporting
Définition : le reporting est l'opération consistant, pour une entreprise, à faire un
rapport de son activité ou désigne le document analysant le fonctionnement et l'activité
d'une entreprise dans un ou plusieurs domaines, pour une période donnée.
3.2 Définition des indicateurs réalisés en year to date.
Indicateurs de nombre :
a. Nombre total des RP : indique le nombre total des Relations
Professionnelles réalisées.
b. Nombre total de participants : indique le nombre total de participants
présents dans les Relations Professionnelles réalisées.
c. Nombre de no-show : indique le nombre de no-show dans les Relations
Professionnelles réalisées.
d. Nombre de rémunération : indique le nombre de personnes rémunérés dans
les Relations Professionnelles réalisées.
e. Nombre d’invités : indique le nombre de médecins présents dans les
Relations Professionnelles réalisées.
Indicateurs de coût:
a. Coût : indique le montant dépensé dans les Relations Professionnelles
réalisées.
Indicateurs de moyenne :
a. Coût moyen par participant : indique le coût moyen dépensé par un
participant à une Relation Professionnelle réalisée.
b. Coût moyen d’une RP indique :indique le coût moyen dépensé à une
Relation Professionnelle réalisée.
Rapport de stage NOVARTIS PHARMA France
11
2011
Indicateurs de part:
a. Part des no-show : indique la part des no-show sur les invités dans une
Relations Professionnelle réalisée.
b. Part du coût de no-show : indique le pourcentage du coût des no-show sur
le coût d’une Relation Professionnelle réalisée.
Indicateurs ratio :
a. Ration collaborateurs /invités : indique le ratio entre le nombre
collaborateurs et le nombre invités dans une Relation Professionnelle
réalisée.
3.3 Tableaux de croisement dynamiques, tableaux de bord sur les indicateurs crées dans la partie analyse et leur présentation:
3.3.1 Définition et importance de tableau de croisement dynamique :
Le tableau de croisement dynamique est un outil de gestion de base de données. Il
permet de pouvoir par la suite faire des opérations et permettre un refresh du chiffre quasi
instantané.
Après avoir mis en place les tableaux de croisement dynamiques, et fait un lien
entre toutes les feuilles de calcul (qui est dynamique dans le temps), la seconde étape du
reporting sur les RP, consiste à réaliser de tableau de bord, qui permettra au service
d’avoir une vision synthétique de l’activité des franchises.
3.3.2 Définition et importance de tableau de bord :
Le tableau de bord représente un document rassemblant des indicateurs aux quels
une entreprise veut avoir une vision. Il est souvent mensuel. Il apporte une aide de gestion
pour l’entreprise.
3.3.3 Présentation du tableau de bord suivi RP
L’idée de cette étape, est de trouver des graphiques qui représentent les résultats des
indicateurs tout en facilitant la compréhension.
Pour réaliser cette étape, j’ai utilisé les graphes en bâtons horizontaux, que je
trouve très simple à comprendre. Ce type de représentation m’a conduit à regrouper les
tableaux en trois catégories :
a) Catégorie «RP et montant des RP »
b) Catégorie « no-show et invités»
c) Catégorie « collaborateurs et invités »
Rapport de stage NOVARTIS PHARMA France
12
2011
4. Mise en place d’une analyse des écarts et dysfonctionnement sur les dossiers
ainsi que leur automatisation
Définition des écarts et dysfonctionnements des RP :
On appel écart et dysfonctionnement le non respect des règles Novartis et des
DMOS. Le traitement des écarts et dysfonctionnement varient en fonction de sa gravité
(intervention ou non de Novartis).On distingue des écarts en « amont » et en « aval » de
L’OL (Opération Locale).
Ces écarts et dysfonctionnements qui constituent le non conformité peuvent être
classés en catégorie :
Non-conformité des prises en charge
Ex : prise en charge d’un repas > 55€
Non-conformité des éléments des dossiers
Ex : Non respect du cahier de charges pour une RP.
Non-conformité sur les participants :
Ex : Dépassements de nombre de participants déclarés.
Dossier hors délai et /ou absent
Ex : pièces reçues hors délai de validation (pour une RP classique)
Pas de dossier DMOS.
Cohérence honoraire vs. Convention :
Ex : Montants différents entre une note d’honoraires et une convention.
d’Orateur.
Conformité des factures
Ex Factures sans le nombre de repas.
Facture sans TVA
Lieu de manifestation différent de celui déclaré.
Collaborateurs Novartis non identifié en commentaire.
Erreur encodage :
Ex : OL non validée par le supérieur hiérarchique à la réception des
pièces.
L’automatisation dynamique de cette partie reste la même que la précédente. Cette
partie permettra au service de connaitre le nombre de dossiers réalisés, le nombre de
dossiers qui ont eu d’erreurs par BU, par franchise et par réseau.
Rapport de stage NOVARTIS PHARMA France
13
2011
5. Réflexion pour ressortir une synthèse générale.
5.1 Modélisation des écarts et dysfonctionnements sur les dossiers facturés
Objectif : L’objectif de cette modélisation est :
a) Sélectionner les paramètres qui expliquent la probabilité de faire des erreurs
(Non-conformité) sur un dossier facturé.
b) Evaluer la variation de cette probabilité par rapport à la variation des
paramètres sélectionnés.
5.1.1 Choix de la modélisation :
La variable à prédire ayant deux valeurs (faire des erreurs ou non), alors la
régression logistique binaire avec sa simplicité semble plus adaptée. Dans notre cas nous
cherchons à écrire l’espérance conditionnelle de faire une erreur comme combinaison
linéaire des paramètres explicatifs.
E (Y/X=x)=Prob (Y=1/X=x).
5.1.2 Démarche :
Pour mener à bien cette démarche, on va :
Dans la première partie faire une étude diagnostique des données et un découpage
en tranche des variables qualitatives.
Dans la deuxième partie calculer le coefficient de corrélation, pour sélectionner
les variables quantitatives non corrélées.
Dans la troisième partie faire une liaison entre les variables quantitatives et la
variable cible, pour sélectionner les variables les plus significatives.
Dans la quatrième partie faire une liaison entre les variables qualitative et la
variable cible, pour sélectionner les variables les plus significatives.
Dans la cinquième partie construire un échantillon d’apprentissage, et de test.
Dans la sixième partie faire une régression logistique sur les variables discrétisées
indépendantes et sur les variables non corrélées.
Et en fin la septième partie portera sur la recherche du meilleur modèle.
1) Etudes diagnostique des données et découpage en tranche des variables qualitatives.
Répartition de la variable cible.
erreur Fréquence Pourcentage
Fréquence Pctage.
cumulée cumulé
0 16077 94.46 16077 94.46
1 943 5.54 17020 100.00
Rapport de stage NOVARTIS PHARMA France
14
2011
Pour une période observée entre février 2009 et novembre 2011, on a 17020
dossiers facturés, dont 16077 ont pas eu d‘erreurs et 943 ont eu d’erreurs.
Définition des variables :
Liste alphabétique des variables et des attributs
N Variable Type Long. Format Informat Libellé
1 Franchise Texte 9 $9. $9. Franchise
4 MONTANT Num. 8 MONTANT
7 NB_COLLABORATEURS Texte 2 $2. $2. Nombre
COLLABORATEURS
8 NB_TIERS Texte 3 $3. $3. nombre invités
9 Nbre_Remunerations Texte 2 $2. $2. Nombre
Rémunérations
3 STATUT_FACTURE Texte 10 $10. $10. STATUT FACTURE
5 TYPE_FACTURE Texte 26 $26. $26. TYPE FACTURE
6 TYPE_PAIEMENT Texte 17 $17. $17. TYPE de PAIEMENT
2 TYPE_RP Texte 27 $27. $27. TYPE Relation
Professionnelle
11 cout_total_no_show Num. 8 Coût total de no-show
12 erreur Num. 8 cible
10 nb_no_show_facture Texte 2 $2. $2. Nombre no-show
facturés
Etudes des variables qualitatives et création d’indicateurs agrégats :
Pour éviter les modalités à faibles effectifs avec la variable cible, on va essayer de
faire un regroupement.
Répartition des variables avec la variable cible :
Modalités initiales pour la variable franchise :
Table de Franchise par erreur
Franchise(Franchise) erreur
Fréquence 0 1 Total
CVM 1746 87 1833
Dom 218 16 234
Dom Onco 36 6 42
Gériatrie 30 2 32
Infectiologie 85 1 86
MG 7612 368 7980
Neuroscience 2435 208 2643
Oncologie 2113 166 2279
Ophtalmologie 698 36 734
Respiratoire 889 44 933
Transplantation 198 9 207
Neuroscience 17 0 17
Rapport de stage NOVARTIS PHARMA France
15
2011
Regroupement des modalités à faible effectif
Table de franchise bis par erreur
Franchise bis erreur
Fréquence
0 1 Total
Franchise_specia 3433 254 3687
mass_martek 10495 517 11012
Oncologie 2149 172 2321
Franchise_specia : regroupe Neuroscience, Ophtalmologie, Transplantation,
infectiologie, Gériatrie
Mass-market: regroupe Respiratoire, CVM, Dom, MG.
Oncologie : regroupe Dom Onco et Oncologie
Modalités initiales pour la variable STATUT_FACTURE:
Table de STATUT_FACTURE par défaut
STATUT_FACTURE(STATUT_FACTURE) erreur
Fréquence 0 1 Total
En attente 66 8 74
Régulés 8 0 8
Validé 16003 935 16938
Modalités initiales pour la variable STUT_FACTURE:
Table de TYPE_FACTURE par défaut
TYPE_FACTURE(TYPE_FACTURE) erreur
Fréquence 0 1 Total
Autres Frais 185 31 216
Don de Formation 3 0 3
Don de recherche 1 0 1
Don recherche enseignement. 444 0 444
Don recherche et formation 1 0 1
Fournitures diverses 109 11 120
Honoraires conférence 1167 166 1333
Imprimerie 69 11 80
Location Matériel 48 17 65
Location de Salle 358 65 423
Location de stand 298 27 325
Remboursement. Frais conférence 293 48 341
Restauration réception. 13101 567 13668
Rapport de stage NOVARTIS PHARMA France
16
2011
Regroupement des modalités à faible effectif :
Table de STATUT_FACbis par erreur
STATUT_FACbis erreur
Fréquence
0 1 Total
enattente 66 8 74
pasenatte 16011 935 16946
La modalité enattente regroupe toutes les factures en attentes et modalité pasenatte
regroupe celles qui ne sont pas en attentes.
Modalités initiales pour la variable TYPE_PAIEMENT :
Table de TYPE_PAIEMENT par défaut
TYPE_PAIEMENT(TYPE_PAIEMENT) erreur
Fréquence 0 1 Total
Ordre de paiement 2238 369 2607
Paiement Siège 300 27 327
Remboursement DR 147 11 158
Remboursement VM 13392 536 13928
Regroupement des modalités à faible effectif :
Table de typpaiemtbis par défaut
Typpaiemtbis erreur
Fréquence
0 1 Total
Autre 2538 396 2934
Remboursement 13539 547 14086
La modalité Remboursement regroupe tout type de remboursement.
Modalités initiales pour la variable TYPE_RP :
Table de TYPE_RP par défaut
TYPE_RP(TYPE_RP) erreur
Fréquence
0 1 Total
Don association médecins 443 0 443
Don association patients 6 0 6
Frais de stand 300 26 326
Honoraires orateurs 70 3 73
Invités PS congrès 179 26 205
Pot de thèse interne 37 0 37
RNT - Repas d’opportunité 1047 5 1052
RNT - Staff hospitalier 118 4 122
RNT – Repas d’opportunité 252 0 252
RNT – Staff hospitalier 58 0 58
RP 4837 799 5636
Relation normale de travail 8730 80 8810
Rapport de stage NOVARTIS PHARMA France
17
2011
Regroupement des modalités à faible effectif :
Table de typ_RPbis par défaut
typ_RPbis erreur
Fréquence
0 1 Total
RP 4837 799 5636
autreRP 11240 144 11384
La modalité autreRP regroupe toutes les Opérations Locales qui ne sont pas des RP.
Etudes des variables quantitatives:
Variable quantitative MONTANT.
0
20
40
60
80
100
Perc
ent
Moyenne 331.8098
Médiane 126.5
Coeff. de variation 248.5123
Nbre manquant 0
0
-2000 1200 4400 7600 10800 14000 17200 20400 23600 26800 30000
0
20
40
60
80
100
Perc
ent
Moyenne 634.7966
Médiane 400
Coeff. de variation 137.7168
Nbre manquant 0
1
MONTANT
On remarque ya pas de valeurs manquantes mais la distribution n’est pas normale.
Variable quantitative coût no-show.
0
20
40
60
80
100
Perc
ent
Moyenne 4.971066
Médiane 0
Coeff. de variation 870.7614
Nbre manquant 0
0
0 150 300 450 600 750 900 1050 1200 1350 1500 1650 1800
0
20
40
60
80
100
Perc
ent
Moyenne 24.28513
Médiane 0
Coeff. de variation 491.4401
Nbre manquant 0
1
cout_total_no_show
On remarque ya pas de valeurs manquantes, mais la distribution n’est pas normale
Rapport de stage NOVARTIS PHARMA France
18
2011
L’analyse exploratoire nous a permis de voir que MONTANT et coût no-show
contiennent des valeurs négatives, qui sont rendues positives à la suite.
2) Calcul du coefficient de corrélation
Cette étape nous permet de détecter les paires de variables trop corrélées entre
elles pour pouvoir appartenir simultanément à un même model. On calculera les
coefficients de Pearson et tester l’hypothèse nulle de formule ci dessous :
Obs variable1 variable2 corrélation
1 Montant Montant 1.00000
2 Montant Coût no-show 0.18500
3 Coût no-show Montant 0.18500
4 Coût no-show Coût no-show 1.00000
Les résultats nous montrent que les deux variables quantitatives Montant et
coût no-show ne sont pas fortement corrélées.
3) Liaison variables quantitatives et la variable cible
Puisque les variables n’ont pas une distribution normale, on va utiliser le test non
paramétrique de Kruskal-Wallis qui compare la moyenne de plusieurs échantillons
indépendants. Il nous permettra de mesurer l’intensité de la liaison entre la variable cible
et les deux variables non corrélées « Montant et Coût no-show».
FREQUENCY
0
1
KWallis MIDPOINT
100.000000 300.000000 500.000000
Le graphique montre que les deux variables expliquent bien la variable cible (erreur).
r est estimation empirique de β
(coefficient de corrélation)
Rapport de stage NOVARTIS PHARMA France
19
2011
4) Liaison variables qualitatives et la variable cible : sélection les variables les
plus significatives
Le V de Cramer (X2 normalisé) nous permet de mesurer l’intensité de la liaison
entre la variable erreur et les variables qualitatives. Plus le V de cramer est proche de zéro
plus on a l’indépendance entre la variable erreur et les variables qualitatives.
Obs Value abs_V_Cramer Variable
1 -0.2656 0.26562 typ_RPbis
2 -0.1587 0.15873 typpaiemtbis
3 0.0505 0.05048 franchisebis
4 -0.0152 0.01522 STATUT_FACbis
On remarque une chute du V à partir de la 4ème
variable (franchisebis).Il est
certain que les variables qui ont un V de Cramer inférieur à 0,05 ne rentrent pas dans le
model.
5) Echantillonnage :
Pour obtenir un model non biaisé et robuste, nous séparons par tirage aléatoire simple
la population étudiée, en échantillon d’apprentissage qui va servir à l’estimation du modèle et
un échantillon de validation pour tester le modèle.
Echantillon de validation :
erreur Fréquence Pourcentage
Fréquence Pctage.
cumulée cumulé
0 5428 94.38 5428 94.38
1 323 5.62 5751 100.00
Echantillon d’apprentissage
erreur Fréquence Pourcentage
Fréquence Pctage.
cumulée cumulé
0 10649 94.50 10649 94.50
1 620 5.50 11269 100.00
6) Régression logistique
Dans un modèle logistique les paramètres à estimer sont les coefficients βi de la
combinaison linéaire exprimant le logit de l’espérance conditionnelle.
E (Y/X=x)=Prob (Y=1/X=x).
Rapport de stage NOVARTIS PHARMA France
20
2011
Soit le modèle à estimer :
E (Y/X=x) = β + βtyp_RPbis xtyp_RPbis + β typpaiemtbis x typpaiemtbis
+ β franchisebis x franchisebis + β STATUT_FACTbis x STATUT_FACbis
+ β montant x montant + β coût no-show x coût no-show.
L’estimation des paramètres passe par la méthode de maximum de vraisemblance qui est :
L (β, X1, X2,.......X
n)= Probβ(X=x
1)*Probβ(X=x
2)*......*Probβ(X=x
n)
Mesure de la qualité et la performance du modèle :
Pour mesurer la qualité du modèle estimé, on va regarder le log de
vraisemblance, le critère AIC et SC et pour la performance on va faire le test de Hosmer
et Lemesshow et calculer l’aire sous la courbe de ROC.
Indicateur de la mesure de qualité du modèle :
Log de vraisemblance
Il repose sur l’hypothèse que tous les coefficients du modèle sont nuls sauf la
constante. C’est à dire D (β0) - D (βk)= -2[log L (β0)-logL (β0)] suit une loi de X2 à k
degrés de libertés sous l’hypothèse nulle H0 de la nullité de tous les coefficients.
On rejette H0 si D (β0) - D (βk) dépasse le seuil critique du X2à k degré de libertés.
Les tests AIC et SC :
AIC = -2Log [L (βk)] + 2(k+1)
SC= -2Log [L (βk)] + (k+1) log (n) plus ils sont bas plus le modèle est bon.
Le test de X2 sur les indicateurs de Wald :
Comme la régression linéaire, un estimateur est efficace si la variance est faible.
Dans notre cas on va calculer la statistique de Wald, qui permet de tester la significativité
des coefficients estimés. Cette statistique vaut :
(βj estimé /écart-type (βj estimé)) 2
Rapport de stage NOVARTIS PHARMA France
21
2011
Le test repose sur l’hypothèse :
H0 : βj estimé = 0, ==> (βj estimé / écart-type (βj estimé)) 2 suit une loi normale
standard. Si le ratio est supérieur à 3,84 => l’intervalle de confiance à 95% de βj ne
contient pas 0 d’où significativité de βj estimé si non on rejette H0.
Indicateurs de performances :
Test de concordance :
Supposons que n1 est l’effectif quand erreur =0 et n2 est l’effectif quand
Erreur =1, En prenant t=n1*n2 paires formées de erreur =1 et erreur =0, on parle de
concordance si la probabilité estimée pour erreur=1 est supérieur à celle de erreur =0.
Estimation du modèle
Pour estimer notre modèle, on va dans un premier temps faire une régression
logistique pas à pas ascendante (stepwise) dans l’échantillon d’apprentissage, regardé
les indicateurs de mesure de qualité, la concordance des signes, les indicateurs de
performance du modèle (calculer l’aire sous la courbe de ROC) et appliquer le même
modèle dans l’échantillon de validation pour voir s’il est robuste.
a. Régression logistique pas à pas ascendante sue l’échantillon d’apprentissage
Estimations par l'analyse du maximum de vraisemblance
Paramètre DDL
Valeur
estimée
Erreur Khi-2 Pr > Khi-
2 type de Wald
Intercept 1 -2.3211 0.0720 1040.2330 <.0001
franchisebis franchise_specia 1 0.5185 0.1037 24.9912 <.0001
franchisebis oncologie 1 0.7001 0.1184 34.9363 <.0001
typpaiemtbis autre 1 0.5933 0.0923 41.3281 <.0001
typ_RPbis autreRP 1 -2.4016 0.1148 437.6832 <.0001
montant 1 0.000106 0.000041 6.6453 0.0099
Estimation des rapports des cotes :
Estimations des rapports de cotes
Effet
Valeur estimée
du point
Intervalle de confiance
de Wald à 95 %
franchisebis Francfise_specia vs
mass_martek
1.679 1.371 2.058
franchisebis oncologie vs
mass_martek
2.014 1.597 2.540
typpaiemtbis autre vs
remboursement
1.810 1.510 2.169
typ_RPbis autreRP vs RP 0.091 0.072 0.113
montantposi 1.000 1.000 1.000
Dans ce tableau les valeurs supérieures à 1 ont une influence positive et les valeurs inférieures à 1 ont une
influence négative.
Rapport de stage NOVARTIS PHARMA France
22
2011
Mesure de la qualité du modèle :
Pour mesurer la qualité du modèle estimé, on va regarder le log de vraisemblance, le
critère AIC et SC.
Statistiques d'ajustement du modèle
Critère Constante unique
Constante et
covariable
AIC 4803.359 3981.425
SC 4810.688 4025.403
-2 Log L 4801.359 3969.425
Dans notre cas les résultats montrent bien que D (β0) - D (βk) > au seuil 13 et le
modèle complet a un SC et un AIC plus bas que le modèle avec constante unique.
Concordance des signes des coefficients estimés sur les variables retenues
par le modèle:
Variable type de franchise
Table de franchisebis par erreur
franchisebis erreur
Fréquence
0 1 Total
Pourcentage
Pctage en ligne
Pctage en col.
franchise_specia
2262 163 2425
20.07 1.45 21.52
93.28 6.72
21.24 26.29
mass_martek
6936 342 7278
61.55 3.03 64.58
95.30 4.70
65.13 55.16
oncologie
1451 115 1566
12.88 1.02 13.90
92.66 7.34
13.63 18.55
Total 10649 620 11269
94.50 5.50 100.00
Rapport de stage NOVARTIS PHARMA France
23
2011
Variable type paiement :
Table de typpaiemtbis par erreur
typpaiemtbis erreur
Fréquence
0 1 Total
Pourcentage
Pctage en ligne
Pctage en col.
autre
1707 261 1968
15.15 2.32 17.46
86.74 13.26
16.03 42.10
remboursement
8942 359 9301
79.35 3.19 82.54
96.14 3.86
83.97 57.90
Total 10649 620 11269
94.50 5.50 100.00
Variable type de dossier
Table de typ_RPbis par erreur
typ_RPbis erreur
Fréquence
0 1 Total
Pourcentage
Pctage en ligne
Pctage en col.
RP
3216 521 3737
28.54 4.62 33.16
86.06 13.94
30.20 84.03
autreRP
7433 99 7532
65.96 0.88 66.84
98.69 1.31
69.80 15.97
Total 10649 620 11269
94.50 5.50 100.00
Le signe des coefficients estimés concorde avec la répartition des modalités dans la base.
Rapport de stage NOVARTIS PHARMA France
24
2011
Mesure de la performance du modèle :
Test de concordance :
Association des probabilités prédites et des réponses observées
Pourcentage concordant 79.9 D de
Somers
0.635
Pourcentage discordant 16.4 Gamma 0.660
Pourcentage lié 3.7 Tau-a 0.066
Paires 6602380 c 0.818
Dans notre cas on a 79% de concordance et 16,4 non concordance, l’aire sous la
courbe de ROC vaut 0.818 et l’indice de Gini vaut 0.635.La courbe de ROC nous permet
de voir la prédiction d’un modèle. Chaque élément de la courbe correspond à la matrice
de confusion définie par une certaine valeur du seuil.
Tableau de classification
Table de classification
Niveau de Correct Incorrect Pourcentages
proba.
Evénement
Non-
Evénement
Non-
Correct
Sensi- Spéci- Faux Faux
événement événement bilité ficité POS NEG
0.000 620 0 10649 0 5.5 100.0 0.0 94.5 .
0.100 361 8886 1763 259 82.1 58.2 83.4 83.0 2.8
0.200 95 10347 302 525 92.7 15.3 97.2 76.1 4.8
0.300 5 10626 23 615 94.3 0.8 99.8 82.1 5.5
0.400 0 10648 1 620 94.5 0.0 100.0 100.0 5.5
0.500 0 10649 0 620 94.5 0.0 100.0 . 5.5
0.600 0 10649 0 620 94.5 0.0 100.0 . 5.5
0.700 0 10649 0 620 94.5 0.0 100.0 . 5.5
0.800 0 10649 0 620 94.5 0.0 100.0 . 5.5
0.900 0 10649 0 620 94.5 0.0 100.0 . 5.5
1.000 0 10649 0 620 94.5 0.0 100.0 . 5.5
Dans ce tableau, en prenant une probabilité de 0.50, on a 10649 prédits par le modèle
non événement alors qu’ils sont non événements et 620 prédits par le modèle non
événement alors qu’ils sont des événements soit 94,5% de bonne prédiction.
Application du modèle estimé sur l‘échantillon de validation :
Mesure de la performance du modèle :
Association des probabilités prédites et des réponses observées
Pourcentage concordant 81.2 D de Somers 0.660
Pourcentage discordant 15.1 Gamma 0.686
Pourcentage lié 3.7 Tau-a 0.070
Paires 1753244 c 0.830
On remarque sur l’échantillon de validation, le modèle arrive à capter 83,0% de vrais
positives alors que dans l’échantillon d’apprentissage il capte 81,8% de vrais positives.
Rapport de stage NOVARTIS PHARMA France
25
2011
7) Recherche du meilleur modèle.
Pour la recherche du meilleur modèle, on va dans le premier temps faire une
régression logistique pas à pas descendante (backward). Dans le deuxième temps on va
sélectionner les variables quantitatives significatives et tester l’effet de linéarité
a. Régression logistique pas à pas descendante sur l’échantillon d’apprentissage
Les paramètres estimés, les mesures de qualités et la concordance des signes restent
inchangés.
Mesure de la performance du modèle sur l’échantillon d’apprentissage :
Association des probabilités prédites et des réponses observées
Pourcentage concordant 79.9 D de Somers 0.635
Pourcentage discordant 16.4 Gamma 0.660
Pourcentage lié 3.7 Tau-a 0.066
Paires 6602380 c 0.818
On remarque que les résultats restent inchangés. Même chose pour l’échantillon de
validation c = 0.830.
b. Effet de linéarité du montant des dossiers
Cette étape consiste à savoir si on a l’effet de linéaire du montant. Cela revient dans
un premier temps à prendre le carrée du montant et voir s’il est significatif et dans le
second temps discrétiser la variable montant et voir si les modalités sont significatifs.
Régression logistique avec montant élevé au carré :
Estimations par l'analyse du maximum de vraisemblance
Paramètre DDL
Valeur
estimée
Erreur Khi-2 Pr > Khi-
2 type de Wald
Intercept 1 -2.2864 0.0715 1023.2859 <.0001
franchisebis franchise_specia 1 0.5373 0.1033 27.0712 <.0001
franchisebis oncologie 1 0.7083 0.1183 35.8257 <.0001
typpaiemtbis autre 1 0.6397 0.0902 50.3387 <.0001
typ_RPbis autreRP 1 -2.3995 0.1149 435.9303 <.0001
On remarque le montant élevé au carré n’est pas significatif, ce la veut dire qu’il n’y pas
d’effet.
Régression logistique avec discrétisation de la variable montant :
L’idée consiste à regrouper tous les dossiers qui ont un montant inférieur à la
moyenne dans une classe et tous les dossiers qui ont un montant supérieur à la moyenne
dans une autre classe puis faire une régression logistique en tenant compte de toutes les
autres variables.
Rapport de stage NOVARTIS PHARMA France
26
2011
Tableau de répartition des classes
Table de montant par erreur
montant erreur
Fréquence
0 1 Total
Pourcentage
Pctage en ligne
Pctage en col.
montant RP inferieure à la
moyenne
12074 417 12491
70.94 2.45 73.39
96.66 3.34
75.10 44.22
montant RP supérieur à la
moyenne
4003 526 4529
23.52 3.09 26.61
88.39 11.61
24.90 55.78
Total 16077 943 17020
94.46 5.54 100.00
Mesure de performance
Association des probabilités prédites et des réponses observées
Pourcentage concordant 77.1 D de Somers 0.632
Pourcentage discordant 13.9 Gamma 0.695
Pourcentage lié 9.0 Tau-a 0.066
Paires 6602380 c 0.816
Les résultats de la régression logistique restent inchangés que la précédente c’est
à dire les modalités montant ne sont pas significatifs et en plus on remarque une baisse
de l’aire sous la courbe de ROC qui passe de 0.818 à 0.816.
En comparant ces différentes méthodes, on retiendra la régression logistique pas à pas
ascendante avec montant non discrétisé et non élevé au carré.
Estimations par l'analyse du maximum de vraisemblance
Paramètre DDL
Valeur
estimée
Erreur Khi-2 Pr > Khi-
2 type de Wald
Intercept 1 -2.3211 0.0720 1040.2330 <.0001
franchisebis franchise_specia 1 0.5185 0.1037 24.9912 <.0001
franchisebis oncologie 1 0.7001 0.1184 34.9363 <.0001
typpaiemtbis autre 1 0.5933 0.0923 41.3281 <.0001
typ_RPbis autreRP 1 -2.4016 0.1148 437.6832 <.0001
montant 1 0.000106 0.000041 6.6453 0.0099
Rapport de stage NOVARTIS PHARMA France
27
2011
Interprétation du modèle estimé :
Un dossier facturé en Franchise Spécialisés a une forte probabilité d’avoir des
erreurs par rapport à un dossier facturé en Mass-Market.
Un dossier facturé en Oncologie a encore plus de probabilité d’avoir des erreurs
par rapport à un dossier facturé en Mass-Market.
Les dossiers de type de paiement « remboursement » ont une probabilité faible
d’avoir des erreurs par rapport aux autres types de paiements.
Les dossiers RP facturés ont plus de probabilité d’avoir des erreurs par rapport
aux autres.
Plus le montant d’un dossier est élevé plus ont a la une forte probabilité de faire
des erreurs.
Rapport de stage NOVARTIS PHARMA France
28
2011
5.2 Segmentation :
Définition : La segmentation consiste à rassembler des individus en fonction de
leurs caractéristiques communes, pour constituer des groupes homogènes.
Objectif : mieux connaître les RP pour pouvoir mettre en place des actions
différenciées (les RP concernent que celles qui font la restauration).
L’idée : l’idée de cette segmentation est de regarder, si malgré la distinction des
franchises par les indicateurs crées, leur regroupement est-il possible en fonctions de
toutes caractéristiques observées ?
Exemple : l’indicateur coût moyen de no-show par franchise montre bien que la
CARDIOLOGIE et la TRANSPLANTATION sont différentes. Avec cette différence,
peut-on dire que ces deux franchises sont homogènes en tenant compte de toutes leurs
caractéristiques ?
Cette analyse portera sur, soit en faisant un graphique de nuage de points, soit en
calculant leur coefficient de corrélation linéaire, voire faire même une régression linéaire
de l’une sur l’autre.
5.2.1 Présentation de la base
La base initiale :
Observation 5265
Nombre de variables 16
variables qualitatives 1
variables quantitatives 15
La base du reporting
Observation 2679
Nombre de variables 6
Le nombre de variables étant très élevé, nous devrons faire une étude simultanée.
Cette étude ne serait-ce qu’en réalisant un graphique. Mais la difficulté reste sur le
nombre de variables. L’Analyse en Composante factoriel nous permettra de résoudre ce
problème.
L’objectif d’une analyse en composante factoriel, est de revenir à un espace de
dimension réduite (par exemple 2) en déformant le moins possible la réalité. Il s’agit donc
d’obtenir le résumé le plus pertinent des données initiales. Dans notre cas, l’étude sera
entièrement réalisée à l’aide du logiciel SAS.
5.2.2 Analyse :
Pour mener à bien cette analyse, on va dans un premier temps faire une étude
diagnostic des donnes, dans un second temps créer des indicateurs agrégats, dans le
troisième temps faire une analyse de données (analyse factorielle), dans le quatrième
temps faire une classification et en fin le cinquième temps consistera à l’identification
des classes et leur interprétation.
Rapport de stage NOVARTIS PHARMA France
29
2011
1) Diagnostic des données :
L’objectif de cette partie est de voir comment se comportent les indicateurs de
suivi des RP qui ont permis de faire le reporting.
Statistique descriptive sur l ‘ensemble :
Variables Definition N Moyenne Ecart-type Valeurs manquantes
PRT Participants 5265 8.44957265 10.7657327 0
CTNS Coût no-show 5265 16.769117 82.733513 0
NR Nombre rémunés 1201 1.70024979 1.31024486 0
M Montant 5265 540.43304 528.038738 0
NT Invites’ 2679 12.3072041 10.270867 0
NOS Nombre no-show 5265 0.38461538 1.7803039 0
Notons au passage que les 6 indicateurs considérés n’ont pas le même ordre de grandeur.
Les statistiques descriptives des chaque franchise sont à l’annexe (Fig.1). Les résultats
montrent que les indicateurs de suivi des RP n’ont pas une distribution normale et la part
des valeurs manquantes est nulle.
2) Création des indicateurs agrégats:
L’objectif de cette étape est d’unifié les données pour construire des indicateurs
pertinents.
Indicateur créé Définition
participant total Nombre de participants dans RP
coût total no-show Coût des no-show dans les RP
nombre total no-show Nombre de no-show dans les RP
nombre total rémunérations Nombre de rémunération dans les RP
nombre total d'invités Nombre d’invités dans les RP
montant total RP Montant dépensé dans les RP
Rappel : les RP signifient les Relations Professionnelles.
3) Analyse de données (analyse factorielle)
Définition : L’analyse factorielle est une technique qui permet de traiter des
tableaux de données nombres. Elle permet d’analyse un tableau à plusieurs données en
une série de tableaux plus simples qui sont une bonne approximation de celui-ci. Ces
tableaux peuvent être exprimables sous forme de graphes.
Rapport de stage NOVARTIS PHARMA France
30
2011
Choix de la méthode de l’analyse factorielle :
Le but de l’analyse étant de ressortir les caractéristiques de chaque franchise, puis
regrouper les plus semblables, alors la technique la plus adaptée est l’analyse en
correspondance multiple.
Définition de l’analyse en composante multiple:
L’analyse en composante multiple, est une méthode factorielle de réduction de
dimension pour l’exploitation statistique des données qualitatives complexes.
Puis que cette méthode ne marche que pour les variables qualitatives, cherchons à
discrétiser les indicateurs agrégats.
Présentation et Définition des Indicateurs discrétisées:
Variables
discrétisées Définitions
Partinf
OL dont le nombre de participants est inférieur à la moyenne générale de l’ensemble des OL
réalisées
partEg OL dont le nombre de participants est égal à la moyenne générale de l’ensemble des OL réalisées
patsup OL dont le nombre de participants supérieur à la moyenne générale de l’ensemble des OL réalisées
nonrensparti les valeurs manquantes de nombre de participants
CSOinf OL dont le coût de no-show est inférieur à la moyenne générale de l'ensemble des OL réalisées
CSOEg OL dont le coût de no-show est égal à la moyenne générale de l'ensemble des OL réalisées
CSOsup OL dont le coût de no-show est supérieur à la moyenne générale de l'ensemble des OL réalisées
nonrensCSO des OL qui n'ont pas de no-show
NSOinf OL dont le nombre de no-show est inférieur à la moyenne générale de l'ensemble des OL réalisées
NSOsup OL dont le nombre de no-show est supérieur à la moyenne générale de l'ensemble des OL réalisées
NSOEg OL dont le nombre de no-show est égal à la moyenne générale de l'ensemble des OL réalisées
nonrensNSO des OL qui n'ont pas de no-show
Nbremuinf OL dont le nombre rémunérés est inférieur à la moyenne générale de l’ensemble des OL réalisées
NbremuEg OL dont le nombre rémunérés est égal à la moyenne générale de l’ensemble des OL réalisées
Nbremusup OL dont le nombre rémunérés est supérieur à la moyenne générale de l’ensemble des OL réalisées
nonrensBreremu les valeurs manquantes de nombre de rémunérés
NBtierinf OL dont le nombre d'invités est inférieur à la moyenne générale de l’ensemble des OL réalisées
NBtierEg OL dont le nombre d'invités est égal à la moyenne générale de l’ensemble des OL réalisées
Nbtiersup OL dont le nombre d'invités est supérieur à la moyenne générale de l’ensemble des OL réalisées
nonrensNBtier les valeurs manquantes de nombre d'invités
MtRPinf OL dont le montant est inférieur à la moyenne générale de l’ensemble des OL réalisées
MtRPEg OL dont le montant est égal à la moyenne générale de l’ensemble des OL réalisées
MtRPsup OL dont le montant est supérieur à la moyenne générale de l’ensemble des OL réalisées
RPCVM OL CVM
RPDom OL Dom
RPGeri OL Gériatrie
RPInfec OL Infectiologie
Rapport de stage NOVARTIS PHARMA France
31
2011
RRNeuro OL Neuroscience
RPMG OL MG
RPOnco OL Oncologie
RPOhpta OL Ophtalmologie
RPRespi OL
Rptrans OL Pneumologie
NB : dans notre cas on ne tient pas compte de la taille des indicateurs pour leur
regroupement, puisque chaque indicateur est différent de l’autre.
Recherche des axes factoriels
Le principe de la recherche des axes factoriels repose sur l’inertie totale des
observations. Cette inertie totale égale à la somme des valeurs propres du tableau de Burt,
qu’on peut avoir à partir du tableau disjonctif complet.
Pour une modalité d’effectif nj, sa contribution à l’inertie totale est
1/P (1-nj/n). Cette formule nous montre bien la nécessité d’éviter d’avoir des
modalités à effectifs faible.
Pour une variable de modalité mi sa contribution à l’inertie totale est de :
1/P (1-mj/m). Comme elle dépend du nombre de modalités, on voit qu’il ya intérêt
d’éviter des disparités entre les nombres de modalités des différentes variables.
La somme des valeurs propres vaut (Nombre total de modalités)-1 /nombre de
variables Tableau de la décomposition de l’inertie et du khi-2 (voir annexe Fig2).
Explication du tableau : le principe est de sélectionner les axes dont leur valeur
propre dépasse 0,25. Dans notre cas seuls les axes 1 et 2 ont des valeurs qui dépassent
0.25. On ne retiendra que deux axes principaux pour la projection.
Rapport de stage NOVARTIS PHARMA France
32
2011
Représentation sur les axes 1 et 2
Interprétation
Les RP renseignées deux fois sont des Relations Professionnelle réalisées plupart
en Infectiologie et elles n’ont pas d’invités.
Les Relations Professionnelles dont le coût de no-show est supérieur à la moyenne
sont des Relations Professionnelles dont le nombre de no-show est supérieur à la
moyenne.
En Oncologie et en Gériatrie on a beaucoup de Relations Professionnelles dont le
nombre d’invité est inférieur à la moyenne.
Les Relations Professionnelles dont les montant est supérieur à la moyenne sont
des Relations Professionnelles dont le nombre de participants est supérieur à la
moyenne.
.
Rapport de stage NOVARTIS PHARMA France
33
2011
4) Classification :
Définition : La classification est une opération statistique qui consiste à regrouper
des objets (individus ou variables) en un nombre limité de groupes qui ont des
caractéristiques similaires ou différentes. En marketing, elle est particulièrement adaptée
à la recherche des différents profils de client constituant une clientèle. Elle peut aussi
permettre de suivre l’évolution d’un client au fil des mois.
Choix de la méthode de classification :
Le nombre d’observations étant très élevé, les méthodes mixtes de classification
semble plus adaptées.
Définition : le principe de la méthode mixtes consiste à combiner les points forts
des méthodes hiérarchiques et des méthodes de partitionnement (centre mobiles, k-
means...).La méthode de partitionnement (centre mobile) se déroule en 4 étapes.
Etape1 : on choisit k individus comme centres initiaux des classes (on tire au sort,
ou l’on prend les k premiers, ou l’on prend 1 sur n/k).
Etape 2 : on calcul les distances entre chaque individu et chaque centre Ci de
l’étape précédente, et on affecte chaque individu au centre le plus proche, ce qui
définit k classes.
Etape 3 : on remplace les k centres Ci par les barycentres des k classes définies à
l’étape2.
Etape 4 : on regarde si les centres restent suffisamment stables.
Tableau Historique des itérations voir annexe Fig3.
Tableau des classes :
Synthèse de la classe
Cla
sse Fréquence
RMS Std
Deviation
Distance max. de Rayon
Classe la
plus proche
Distance Bet
ween
la valeur initiale dépassé
Cluster Cen
troids
à l'observation
1 200 0.4337 2.0848 4 1.5117
2 121 0.3345 2.3554 8 2.0327
3 69 0.5827 2.1725 4 2.0549
4 90 0.5538 1.7089 1 1.5117
5 48 0.3841 1.8443 7 2.0221
6 895 0.3474 2.5208 5 3.2539
7 12 0.3868 1.3668 5 2.0221
8 1903 0.0750 1.9937 9 1.4255
9 721 0.2731 2.0565 8 1.4255
10 373 0.4000 2.3935 9 2.1137
La colonne classe représente l’ensemble des classes obtenues à l’issus des
itérations.
La colonne distance sépare l’individu du centre de sa classe.
Au final on a 10 classes qu’il faut regrouper.
Rapport de stage NOVARTIS PHARMA France
34
2011
Variable non corrélées retenues pour la classification
Statistiques pour variables
Variable E-t total Dans E-t R-carré
RSQ/(1-
RSQ)
CNSmoy 0.69156 0.13772 0.960419 24.264934
BNSmoy 0.59934 0.14358 0.942729 16.460708
Mtmoy 0.46320 0.30466 0.568257 1.316192
franchi 2.47899 0.42028 0.971316 33.862077
OVER-ALL 1.34140 0.27796 0.957150 22.337020
Performance de la classification :
Les statistiques : pseudo F, R2 et le cubique curium critérium (CCC), sous critère
de non corrélation des variables nous permettent de savoir si la classification est bonne.
Hypothèse : il faut que CCC soit supérieur à 2, R2 calculer sous l’hypothèse nulle soit
proche de 1.
Tableau de résultats
Pseudo F Statistic = 10974.92
Approximate Expected Over-All R-Squared = 0.87925
Cubic Clustering Criterion = 98.442
D’après ces résultats, on peut dire que notre classification est bonne.
Classification par CHA par la méthode de Ward.
Le principe est de chercher à chaque étape les classes les plus proches pour les
fusionner.
Pour la liaison des classes, voir annexe Fig4 tableau Historique de la classe.
Mesure de la qualité de la CHA:
Le R2(RSQ) est la proportion de l’inertie expliquée par les classes (inertie inter
classe/ inertie totale). La représentation graphique si dessous nous montre que le dernier
saut important de R2 est fait en passant de k à k+1 classes. Dans notre cas l’option est
visiblement 2 ou 4 classes.
Rapport de stage NOVARTIS PHARMA France
35
2011
R-carré
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Nombre de classifications
1 2 3 4 5 6 7 8 9 10
les axes factoriels 1 et 2
Le cubic clustering criterion (CCC) indique si la classification est bonne
(CCC>2).Si le CCC est légèrement négative, le risque d’oublie est faible et cette valeur
légèrement négative peut indiquer la présence de petites classes. Une bonne partition en
k+1 classes se manifestera par un creux pour k classes et un pic pour k+1 classes qui
seront suivis soit d’une baisse légère ou une hausse légère.
La représentation graphique si dessous nous montre que le k+1 correspond à 2 ou 4
classes.
Critère de classification cubique
0
10
20
30
40
50
60
70
Nombre de classifications
1 2 3 4 5 6 7 8 9 10
les axes factoriels 1 et 2
Le R2 semi-partiel mesure la perte d’inertie provoquée en regroupant deux
classes, c’est à dire la baisse du R2 .Le SPRSQ indiqué pour k classes est la perte d’inertie
interclasse résultant de passage de k+1 classes à k classes.
La représentation graphique si dessous nous montre le k+1 correspond à 2 ou 4 classes.
Rapport de stage NOVARTIS PHARMA France
36
2011
R-carré semi-partiel
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Nombre de classifications
1 2 3 4 5 6 7 8 9 10
les axes factoriels 1 et 2
Sur l’ensemble, le nombre de classes à retenir varie entre 2 et 4, la repartion en 2
classes semble bien raisonnable.
Représentation du l’arbre de classification :
Rapport de stage NOVARTIS PHARMA France
37
2011
5) Indentification des classes et leur interprétation :
Table de CNSmoy par CLUSTER
CNSmoy CLUSTER
Fréquence
1 2 Total
Pourcentage
Pctage en ligne
Pctage en col.
CSOinf
895 3118 4013
20.19 70.35 90.55
22.30 77.70
93.72 89.68
CSOsup
37 251 288
0.83 5.66 6.50
12.85 87.15
3.87 7.22
nonrensCSO
23 108 131
0.52 2.44 2.96
17.56 82.44
2.41 3.11
Total 955 3477 4432
21.55 78.45 100.00
Variable coût no-show :
Table de BNSmoy par CLUSTER
BNSmoy CLUSTER
Fréquence
1 2 Total
Pourcentage
Pctage en ligne
Pctage en col.
NSOinf
892 3098 3990
20.13 69.90 90.03
22.36 77.64
93.40 89.10
NSOsup
63 379 442
1.42 8.55 9.97
14.25 85.75
6.60 10.90
Total 955 3477 4432
21.55 78.45 100.00
Rapport de stage NOVARTIS PHARMA France
38
2011
Variables montant RP :
Table de Mtmoy par CLUSTER
Mtmoy CLUSTER
Fréquence
1 2 Total
Pourcentage
Pctage en ligne
Pctage en col.
MtRPinf
916 3264 4180
20.67 73.65 94.31
21.91 78.09
95.92 93.87
MtRPsup
39 213 252
0.88 4.81 5.69
15.48 84.52
4.08 6.13
Total 955 3477 4432
21.55 78.45 100.00
Variable indicateur de franchise :
Table de franchi par CLUSTER
franchi CLUSTER
Fréquence
1 2 Total
Pourcentage
Pctage en ligne
Pctage en col.
double
602 0 602
13.58 0.00 13.58
100.00 0.00
63.04 0.00
RPCVM
287 0 287
6.48 0.00 6.48
100.00 0.00
30.05 0.00
RPDom
65 0 65
1.47 0.00 1.47
100.00 0.00
6.81 0.00
RPGeri
1 3 4
0.02 0.07 0.09
25.00 75.00
0.10 0.09
RPInfec
0 17 17
0.00 0.38 0.38
0.00 100.00
0.00 0.49
RPNeuro 0 2167 2167
Rapport de stage NOVARTIS PHARMA France
39
2011
0.00 48.89 48.89
0.00 100.00
0.00 62.32
RPMG
0 497 497
0.00 11.21 11.21
0.00 100.00
0.00 14.29
RPOnco
0 351 351
0.00 7.92 7.92
0.00 100.00
0.00 10.09
RPOphta
0 240 240
0.00 5.42 5.42
0.00 100.00
0.00 6.90
RPrespi
0 172 172
0.00 3.88 3.88
0.00 100.00
0.00 4.95
RPtrans
0 30 30
0.00 0.68 0.68
0.00 100.00
0.00 0.86
Total 955 3477 4432
21.55 78.45 100.00
Interprétation des classes :
En matière de coût et nombre de no-show, du montant de réalisation d’une RP les
franchises :
Transplantation, Respiratoire, Ophtalmologie, Oncologie, MG, Neuroscience,
Infectiologie et Gériatrie ont la même caractéristique. Ils constituent la deuxième
classe.
Les Dom, les CVM et les RP deux fois renseignées ont la même caractéristique.
Ils constituent la première classe.
Rapport de stage NOVARTIS PHARMA France
40
2011
Conclusion
J’ai mis en place l’automatisation des Analyses et du suivi des Relations
Professionnelles organisées par NOVARTIS PHARMA France, selon les critères définis
par le service RP/GVM. J’ai essayé de rendre accessible à tout le personnel du service par
la mise en place d’un process. Le travail réalisé va permettre au service d’une part de
suivre périodiquement l’évolution de ces activités et d’autre part, d’évaluer et de
comparer les franchises, tout en réduisant le temps de traitement qui était de 3 jours pour
le suivi des RP et maintenant 1 journée maximum. Elle permettra aussi de laisser une
traçabilité des résultats trouvés.
Les indicateurs que j’ai mis en place vont permettre au service de suivre à chaque
moment le montant dépensé dans les Relations Professionnelles et l’analyse des erreurs
permettra de voir les dossiers qui ont eu d’erreurs.
Le prochain cap qui était de mener une réflexion, la modélisation a permis de voir
quels sont les facteurs qui expliquent la probabilité d’un dossier ait une erreur. Cette étape
va aider le service dans leur prise de décision pour mener des actions. La segmentation a
permis de bien comprendre le comportement des Relations Professionnelles des
différentes franchises.
Points à améliorer
Concernant la segmentation, l’étude peut être améliorée en prenant plusieurs
variables et faire une analyse en composante principale sur les variables quantitatives
continues et refaire une analyse en composante multiple sur l’ensemble des variables. On
peut faire un découpage par réseau et non par franchise pour trouver plusieurs classes.
Concernant la modélisation, on peut faire un modèle pôlytomique non ordonnée
pour ressortir toutes les catégories d’erreurs que peut avoir un dossier.
C’est avec un grand intérêt et une grande satisfaction que j’abouti à ces projets. Ce
stage m’a procuré une grande expérience, notamment par rapport à la collecte des
données, la recherche d’information pertinente, la valorisation du travail, l’aptitude de
travailler en équipe avec autonomie et la gestion du temps de travail.
Cette démarche aboutit à l’explication de mes résultats, et enfin à la rédaction de
ce rapport.
Rapport de stage NOVARTIS PHARMA France
41
2011
Annexe
Statistique descriptive en fonction des franchises :
Fig.1
Franchise Variables N Moyenne somme
Infectiologie PRT 13 21,9230769 285
CTNS 9 13,3333333 120
NOS 13 1,6923077 22
NR 0 , ,
M 6 947,8333333 5687
NT 13 20,3076923 264
Neuroscience PRT 360 19,2166667 6918
CTNS 340 17,4294118 5926
NOS 360 0,725 261
NR 40 0,05 2
M 256 796,390625 203876
NT 360 17,5361111 6313
Oncologie PRT 310 15,9645161 4949
CTNS 286 12,3811189 3541
NOS 310 0,4903226 152
NR 49 13 0,2653061
M 173 579,6127168 100273
NT 310 14,1645161 4391
Ophtalmologie PRT 166 13,0361446 2164
CTNS 154 35,7792208 5510
NOS 166 0,9939759 165
NR 18 0,1666667 3
M 138 706,4565217 97491
NT 166 11,2590361 1869
Cardiologie PRT
CTNS
NOS
NR
M
NT
Transplantation PRT 24 20,0833333 482
CTNS 24 35,75 858
NOS 24 0,9166667 22
NR 2 0 0
M 15 695,8666667 10438
NT 24 18,0416667 433
MG PRT 1430 12,7958042 18298
CTNS 1393 15,6346016 21779
NOS 1430 0,4678322 669
Rapport de stage NOVARTIS PHARMA France
42
2011
NR 890 1,888764 1681
M 1301 681,2628747 886323
NT 1430 10,5363636 15067
CVM PRT 213 15,0234742 3200
CTNS 195 18,9846154 3702
NOS 213 0,6197183 132
NR 94 1,2021277 113
M 163 673,9386503 109852
NT 213 13,2159624 2815
Dom PRT 51 13,549019 691
CTNS 49 28,428571
NOS 51 0,8627451 44
NR 39 1,9230769 75
M 46 915,0434783 42092
NT 51 11,627451 593
Geriatrie PRT 4 13,75 55
CTNS 4 13,75 55
NOS 4 0,25 1
NR 3 1,3333333 4
M 4 636,25 2545
NT 4 12 48
Respi PRT 108 13,287037 1435
CTNS 94 47,3617021 4452
NOS 108 1,6481481 178
NR 66 2,2878788 151
M 95 724,4 68818
NT 108 10,9074074 1178
Rapport de stage NOVARTIS PHARMA France
43
2011
Tableau coordonnées des modalités sur les axes factoriels (voir annexe Fig2)
Décomposition de l'inertie et du Khi-2
Valeur
singulière
Inertie
principale
Khi-2
Pourcentage
Pourcent.
cumulé
3 6 9 12 15
----+----+----+----+----+---
0.65331 0.42681 13241 12.99 12.99 **********************
0.56747 0.32202 9991 9.80 22.79 ****************
0.48098 0.23135 7177 7.04 29.83 ************
0.47653 0.22708 7045 6.91 36.74 ************
0.44378 0.19694 6110 5.99 42.74 **********
0.40949 0.16768 5202 5.10 47.84 *********
0.38734 0.15003 4654 4.57 52.41 ********
0.38401 0.14747 4575 4.49 56.89 *******
0.37851 0.14327 4445 4.36 61.25 *******
0.37797 0.14286 4432 4.35 65.60 *******
0.37703 0.14215 4410 4.33 69.93 *******
0.37503 0.14065 4364 4.28 74.21 *******
0.37401 0.13988 4340 4.26 78.47 *******
0.36196 0.13101 4065 3.99 82.45 *******
0.35589 0.12665 3929 3.85 86.31 ******
0.33842 0.11453 3553 3.49 89.79 ******
0.31078 0.09659 2997 2.94 92.73 *****
0.30009 0.09005 2794 2.74 95.48 *****
0.27913 0.07792 2417 2.37 97.85 ****
0.25283 0.06392 1983 1.95 99.79 ***
0.08269 0.00684 212 0.21 100.00
Total 3.28571 10193
6
100.00
Degrés de liberté = 128499
Rapport de stage NOVARTIS PHARMA France
44
2011
Tableau Historique des itérations Fig3.
Historique des itérations
Itération Critère
Changement relatif dans les valeurs initiales de classe
1 2 3 4 5 6 7 8 9 10
1 0.1326 0.075
8
0.0063
0
0.0007
44
0.043
4
0.018
0
0.0070
4
0.0012
0
0.0075
3
0.0276 0.026
8
2 0.1325 0.042
1
0 0 0 0 0 0 0 0.0021
0
0
3 0.1325 0 0 0 0 0 0 0 0 0 0
Fig4 tableau Historique de la classe.
Historique de la classe
NCL Classes
jointes FREQ SPRSQ RSQ ERSQ CCC PSF PST2
T
i
e
9 OB5 OB7 60 0.0012 .956 .892 68.2 12E3 66.4
8 OB1 OB4 290 0.0044 .951 .883 67.7 12E3 158
7 OB2 OB8 2024 0.0147 .937 .872 55.3 11E3 9847
6 CL8 OB3 359 0.0165 .920 .857 46.9 1E4 382
5 CL9 OB6 955 0.0183 .902 .835 42.7 1E4 1103
4 CL7 OB9 2745 0.0331 .869 .803 35.0 9773 3704
3 CL6 OB10 732 0.0892 .780 .750 11.9 7832 1651
2 CL3 CL4 3477 0.1076 .672 .631 9.57 9074 2008
1 CL2 CL5 4432 0.6719 .000 .000 0.00 . 9074
Rapport de stage NOVARTIS PHARMA France
45
2011
Bibliographie :
Data Mining et Statistique décisionnelle de Stéphane TUFFERY
Etude Statistique décisionnelle Stéphane TUFFERY.
Statistique explicative appliquée de J-P.NAKACHE, J.CONFAIS.
Rapport de stage NOVARTIS PHARMA France
46
2011
Recommended