Rapport de stage NOVARTIS PHARMA France

Analyse statistique d’indicateurs Relation

Professionnelle et Gestion de Visite Médicale

Auteur : BAH Mamadou Saidou

Master2 Modélisation Statistique-Economique et Financière

Université Paris1 PANTHEON-SORBONNE

Maitre de Stage : Gaelle Sorieul

Coordinatrice G.V.M. & Opérations Locales

Novartis Pharma S.A.S.

Communication & Marketing Services Novartis Pharma S.A.S.

2/4, rue Lionel Terray F-92500 Rueil-Malmaison

France

Phone: (33) 1 55476394 Email : gaelle.sorieul@novartis.com

Introduction générale

Dans le cadre de ma formation Master2 Modélisation Statistique Economique et

Financière de l’Université de Paris 1 PANTHEON-SORBONNE, je réalise, du 23 mai au

23 novembre 2011, un stage au service Gestion Visite Médicale et Relation

Professionnelle chez NOVARTIS PHARMA France.

Le but de ce stage est pour moi d’être confronté à un nouveau milieu, d’assumer

les responsabilités d’un projet, de contribuer de manière plus approfondie à divers projets

d’analyse de données et statistiques, dans le but de mettre mes connaissances et

compétence en pratique et d’en assimiler de nouvelles au sein de ce service.

C’est dans ce contexte, qui m’a été confiée les tâches suivantes :

1. Accompagner la coordinatrice RP/GVM (Relations Professionnelles/Gestion de la

visite Médicale) sur le suivi de l’activité opérationnelle relative à son service.

2. Procéder à la conception et le pilotage d’analyses et de recommandations basées

sur l’exploitation des données issues des systèmes d’information internes (outils

de datawarehousing, reporting activités, outil CRM…) et externes (plateforme

prestataire RP/GVM).

3. Etablir un apport proactif et réactif d’éléments d’analyse et de recommandations

pour une amélioration de la proposition Novartis sur chacun de ces services.

A ces misions s’ajoutera la nécessité de mener une réflexion pour ressortir une

synthèse générale à l’issue des résultats trouvés, pour avoir une vision globale et trouver

des solutions optimales.

Pour mener à bien ce projet, j’utilise le logiciel Excel pour le reporting, les

tableaux de bord et leur automatisation dynamique. Le logiciel SAS m’a permis de faire

le traitement des données, l’analyse des données et la modélisation. Ainsi, je bénéficie

d’un grand soutien pédagogique et une grande liberté pour mener à bien ce projet.

Afin de rendre compte du travail effectué, ce rapport s’articule en trois parties :

la première partie portera sur la présentation de NOVARTIS, la deuxième partie portera

sur la présentation de NOVARTIS PHARMA et le service RP/GVM du Novartis pharma,

la troisième partie portera sur la démarche du projet.

Table of Contents

Introduction générale ............................................................................................................................... 2

I. Présentation du NOVARTIS .............................................................................................................. 4 1. Novartis Monde ........................................................................................................................... 4 2. Novartis en France. ...................................................................................................................... 4 2.1 Les filiales de Novartis France ..................................................................................................... 4

II. Présentation de NOVARTIS PHARMA S.A.S et le service RP/GVM. ................................................... 5 1. NOVARTIS PHARMA S.A.S ...................................................................................................... 5 1.1. Les principales aires thérapeutiques : ....................................................................................... 5

III. Projet de Stage ................................................................................................................................ 6 1. Démarche du projet ..................................................................................................................... 6 2. Mise en place des indicateurs de suivi automatisé des RP pour le service RP/GVM Novartis

Pharma. ................................................................................................................................................ 7 2.1 Définition et importance des indicateurs ....................................................................................... 7 2.2 Démarche d’automatisation: ......................................................................................................... 7 2.3 Organisation des données : ........................................................................................................... 7 2.4 Programme Excel :....................................................................................................................... 8 2.5 Schéma du fichier de l’automatisation: ......................................................................................... 9 3. Mise en place d’une analyse des RP (classiques et pré-déclarées) et leur automatisation .............. 10 3.1 Reporting ................................................................................................................................... 10 3.2 Définition des indicateurs réalisés en year to date. ...................................................................... 10 3.3 Tableaux de croisement dynamiques, tableaux de bord sur les indicateurs crées dans la partie

analyse et leur présentation: ................................................................................................................ 11 3.3.1 Définition et importance de tableau de croisement dynamique : .............................................. 11 3.3.2 Définition et importance de tableau de bord : ......................................................................... 11 3.3.3 Présentation du tableau de bord suivi RP ................................................................................ 11 4. Mise en place d’une analyse des écarts et dysfonctionnement sur les dossiers ainsi que leur

automatisation ..................................................................................................................................... 12 5. Réflexion pour ressortir une synthèse générale............................................................................ 13 5.1 Modélisation des écarts et dysfonctionnements sur les dossiers facturés ...................................... 13 5.1.1 Choix de la modélisation : ..................................................................................................... 13 5.1.2 Démarche : ............................................................................................................................ 13 1) Etudes diagnostique des données et découpage en tranche des variables qualitatives. .................. 13 2) Calcul du coefficient de corrélation ............................................................................................ 18 3) Liaison variables quantitatives et la variable cible ....................................................................... 18 4) Liaison variables qualitatives et la variable cible ......................................................................... 19 5) Echantillonnage : ....................................................................................................................... 19 5.2 Segmentation : ........................................................................................................................... 28 5.2.1 Présentation de la base .......................................................................................................... 28 5.2.2 Analyse : ............................................................................................................................... 28

Conclusion .............................................................................................................................................. 40

Annexe.................................................................................................................................................... 41 Bibliographie : ..................................................................................................................................... 45

I. Présentation du NOVARTIS

1. Novartis Monde

Novartis est un groupe pharmaceutique suisse créé en 1996 par la fusion de Ciba

Geigy et de Sandoz qui sont aussi des laboratoires pharmaceutiques Suisse. Le Groupe

Novartis emploi plus de 119 000 collaborateurs et présent dans plus de 140 pays à travers

le monde. Il est classée 3ème

groupe Pharmaceutique au monde, 2ème

producteur de

médicaments générique et détient 6% du marché mondial de vaccin. Son chiffre d’affaire

en 2010 est de 50,6 M USD.

Il mène une stratégie gagnante basée sur quatre axes : la conception, le

développement, la fabrication et la commercialisation d’une gamme diversifiée de

produits innovants pour soigner les patients, soulager la douleur et améliorer la qualité de

2. Novartis en France.

De siège social basé à Rueil-Malmaison (Hauts-de-Seine), Novartis France est un

leader dans l’offre de médicaments innovants destinés à préserver la santé et à améliorer

le bien-être.

2.1 Les filiales de Novartis France

Comme le groupe mondial, Novartis France est organisé en quatre divisions :

Novartis pharma : propose des médicaments de marque dans huit aires

thérapeutiques : cardiologie, oncologie, neuroscience, pneumologie, santé des os,

transplantation/immunologie, infectiologie et ophtalmologie.

Sandoz : intervient sur le marché des médicaments génériques et est un pionnier

dans le domaine des bio similaire.

Novartis Consumer health : regroupe trois unités d’affaires : Novartis santé

animale (produits pour le bien-être des animaux), Novartis santé familiale

(médicaments de prescriptions et produits d’automédication), et Ciba vision

(produits pour la vision).

Novartis vaccines et Diagnostics : comprend une structure dédiée à la

commercialisation des vaccins en France et la structure européenne de production

de diagnostique sanguin.

II. Présentation de NOVARTIS PHARMA S.A.S et le

service RP/GVM.

1. NOVARTIS PHARMA S.A.S

Novartis Pharma S.A.S. a pour vocation de proposer des médicaments à valeur

ajoutée thérapeutique, efficaces et bien tolérés.

1.1. Les principales aires thérapeutiques :

Les aires thérapeutiques sont divisées en franchise. On distingue 8 aires thérapeutiques.

RHUMATOLOGIE : spécialisé dans le traitement contre le rhumatisme.

PNEUMOLOGIE : lutte contre l’asthme allergique

TRANSPLANTATION : spécialisée dans la transplantation d’organes.

CARDIOVASCULAIRE : lutte contre le diabète et hypertension.

NEUROLOGIE : propose à ses patients atteints de la maladie d’Alzheimer des

médicaments sous forme transdermique, donc d’une simplicité d’administration

inégalée.

OPHTALMOLOGIE : performants dans le traitement contre la forme néo

vasculaire (humide) de la dégénérescence maculaire liée à l’âge (DMLA).

ONCOLOGIE : traitement de cancers.

INFECTIOLOGIE : traite les maladies infectieuses.

2. LE SERVICE RP/GVM

Le service RP/GVM est garant des bonnes pratiques internes, de l’application du code

de la santé publique et des principes de la politique Novartis Globale et donne un cadre

réglementaire pour la réalisation des Opérations Locales.

Il assure la logistique et la distribution des éléments promotionnels en étudiant la

faisabilité de chaque demande et en proposant des solutions tout en maitrisant les coûts.

Il coordonne la distribution des échantillons médicaux et gère la relation avec les

Professionnels santé.

Il contribue à la formation des Visiteurs médicaux et des interlocuteurs du siège sur

les différents processus et Règlementaire en vigueur.

III. Projet de Stage

1. Démarche du projet

Pour mener à bien ce projet, j’ai consacré le début de mon stage à découvrir le

service et à connaître ses activités. J’ai alors pu mesurer l’importance de la tâche qui m’a

été confiée, mise en place des indicateurs automatisés de suivi des RP (Relation

Professionnelle) classiques et pré-déclarées, mise en place d’une analyse des RP et son

automatisation, mise en place d’une analyse des écarts et disfonctionnement sur les

dossiers et son automatisation, et en fin mener une réflexion pour ressortir une synthèse

générale.

Après la découverte, une première étape consistait à collecter toutes les données

nécessaires sur lesquelles portera l’analyse.

La seconde étape consiste à organiser l’automatisation du reporting de suivi les RP

(classiques et pré-déclarées) selon le choix du service RP/GVM.

La troisième étape qui correspond à la mise en place d’une analyse des RP

(classiques et pré-déclarées), consiste à élaborer une analyse plus pertinente qui permettra

d’approfondir le suivi des RP.

La quatrième partie qui correspond à la mise en place d’une analyse des écarts et

dysfonctionnement sur les dossiers, consiste à trouver une analyse qui porte sur le nombre

de dossiers réalisés, le nombre de dossiers qui ont fait des erreurs par type et par catégorie

pour chaque franchise.

Pour la cinquième partie qui porte sur la réflexion, dans la première partie, j’ai

essayé de faire un modèle de scoring (régression logistique type logit) pour cibler les

dossiers facturés qui ont une forte probabilité d’avoir des erreurs. Cette partie permettra

de voir quelles sont les variables qui expliquent la probabilité qu’un dossier ait une

erreur sur les factures et comment cette probabilité varie en fonction de la variation des

variables explicatives. Dans la deuxième partie, j’ai essayé de faire une segmentation sur

les OL (Opération Locale) de type RP (Relation Professionnelle) que je juge très

pertinent, puisqu’elle permet de les caractériser et définir une homogénéité selon leurs

caractéristiques communes.

Collecte des donnes et correction :

Pour la collecte des données, j’ai réalisé une extraction sur deux sources de données:

Crescendo : pour les données RP classique, et pré-déclarées

Charly : pour les données RNT (nombre de médecins invités dans les

opérations locales), nombre factures et nombre d’erreurs.

Concernant les anomalies des données, j’ai effectué des mails listes auprès du personnel

chargé de fournir ces données.

Type d’anomalie rencontrée :

Des doublons

Valeur manquante

Erreur de saisie

2. Mise en place des indicateurs de suivi automatisé des RP pour le

service RP/GVM Novartis Pharma.

Ce travail s’intègre dans la mise en place des processus et des outils attachés au suivi

des RP classiques et pré-déclarées.

2.1 Définition et importance des indicateurs

Le service RP/GVM souhaite suivre les franchises et comparer leur performance.

Elles sont suivies à travers les indicateurs suivants :

Nombre de RP Classique réalisées : indique le nombre d’OL de type Relations

Professionnelles classiques réalisées

Nombre de RP pré déclarées réalisées : indique le nombre d’OL de type

Relations Professionnelles pré-déclarées réalisées.

Nombre de RP arrivant à terme : indique le nombre d’OL de type Relations

Professionnelles pré-déclarées arrivant à terme.

Nombre d’invités : indique le nombre d’invités présents dans les OL de type

Relations professionnelles.

Une automatisation de ces indicateurs de suivi, permettra au service RP/GVM

d’actualiser les analyses de façon dynamique à chaque instant.

2.2 Démarche d’automatisation:

La première étape consiste à collecter les données nécessaires au suivi des RP,

la seconde étape consiste à créer un fichier sur Excel, puis organiser les feuilles selon les

critères choisis par le service, la troisième étape consiste à écrire des formules Excel qui

mettent en relation les résultats de tableau de croisement dynamique de toutes les feuilles,

puis la quatrième partie consiste à créer des graphiques qui sont reliés automatiquement

aux résultats. Ainsi cette automatisation va permettre une mise à jour dynamique des

résultats.

2.3 Organisation des données :

L’organisation des données sur un fichier Excel m’a permis d’adapter les données

selon les catégories définies par le service RP/GVM qui sont :

a. Nombre de RP classique et pré déclaré par franchise et par mois pour

l’année N-1 et N.

b. La moyenne des invités par franchise sur la période observée pour l’année

N-1 et N.

c. La moyenne des RNT réalisées par franchise sur la période observée pour

l’année N-1 et N.

Le fichier comprend 12 feuilles de calculs qui sont:

Feuille n°0 : Process

Feuille n°1 : tableau croisement dynamique des RP classiques et pré-déclarées

année N-1 par franchise.

Feuille n°2 : tableau de croisement dynamique des moyennes des invités année

N-1 par franchise.

Feuille n°3 : source (base de données des RP année N-1).

Feuille n°4 : tableau croisement dynamique des RP classiques et pré-déclarées

année N par franchise.

Feuille n°5 : tableau de croisement dynamique des moyennes des invités année N

par franchise.

Feuille n°6 : source (base de données des RP année N).

Feuille n°7 : tableau de croisement dynamique des moyennes des RNT année N-1

par franchise.

Feuille n°8 : source (base de données des RNT année N-1).

Feuille n°9 : tableau de croisement dynamique des moyennes des RNT année N

par franchise.

Feuille n°10 : source (base de données des RNT année N).

Feuille n°11 : récapitulatif des résultats de toutes les feuilles de calculs plus les

tableaux de bord par franchise.

2.4 Programme Excel :

Les fonctions Excel dont j’ai utilisé pour mettre un lien entre toutes les feuilles de

calculs :

FONCTION DEFINITION

Vlookup pour la recherche verticale.

Hlookup pour la recherche horizontale.

VALUE conversion d’un argument texte en nombre

SUMIF fait addition si la condition est respectée

INT arrondi à un entier inférieur

AVERAGE donne ma moyenne

TRUE renvoi la vraie valeur

OR donne la valeur Vrai si au moins un paramètre est vrai

NOT renvoi la valeur la valeur logique inverse

IF Renvoi vrai si la condition est réalisée

FALSE Renvoi faux si la condition n’est pas réalisée.

AND Si toutes les valeurs sont vraies alors la condition est vraie.

MONTH Renvoi le mois de 0 à 12

SUBTOTAL sous total d’une liste

CHAR Retour la valeur numérique d’un caractère.

CUNTIF Compte le nombre de cellules qui correspondent à la

condition.

2.5 Schéma du fichier de l’automatisation:

Explication : les reporting respectivement des tableaux de croisements dynamique des RP

année N et N-1 et ceux des RNT issues de la source facture. Tous résultats de ces

tableaux de croisement dynamique sont reliés à la feuille synthèse où on peut retrouver

l’ensemble des résultats ainsi que les graphiques correspondants et qui changent

automatiquement en fonction du choix.

3. Mise en place d’une analyse des RP (classiques et pré-déclarées) et leur

automatisation

La mise en place d’une analyse des RP servira non seulement au pilotage de

l’activité Relations Professionnelles pour les franchises, mais aussi d’optimiser les

dépenses. Les indicateurs d’analyse se déclinent sous la forme de nombre, de coûts, de

moyennes, de ratios et de pourcentage (pour comparer l’activité, et les dépenses pour

chaque franchise). Cette étape portera sur l’automatisation du reporting des tableaux de

croisement dynamiques et tableaux de bord des indicateurs créés.

3.1 Reporting

Définition : le reporting est l'opération consistant, pour une entreprise, à faire un

rapport de son activité ou désigne le document analysant le fonctionnement et l'activité

d'une entreprise dans un ou plusieurs domaines, pour une période donnée.

3.2 Définition des indicateurs réalisés en year to date.

Indicateurs de nombre :

a. Nombre total des RP : indique le nombre total des Relations

Professionnelles réalisées.

b. Nombre total de participants : indique le nombre total de participants

présents dans les Relations Professionnelles réalisées.

c. Nombre de no-show : indique le nombre de no-show dans les Relations

Professionnelles réalisées.

d. Nombre de rémunération : indique le nombre de personnes rémunérés dans

les Relations Professionnelles réalisées.

e. Nombre d’invités : indique le nombre de médecins présents dans les

Relations Professionnelles réalisées.

Indicateurs de coût:

a. Coût : indique le montant dépensé dans les Relations Professionnelles

réalisées.

Indicateurs de moyenne :

a. Coût moyen par participant : indique le coût moyen dépensé par un

participant à une Relation Professionnelle réalisée.

b. Coût moyen d’une RP indique :indique le coût moyen dépensé à une

Relation Professionnelle réalisée.

Indicateurs de part:

a. Part des no-show : indique la part des no-show sur les invités dans une

Relations Professionnelle réalisée.

b. Part du coût de no-show : indique le pourcentage du coût des no-show sur

le coût d’une Relation Professionnelle réalisée.

Indicateurs ratio :

a. Ration collaborateurs /invités : indique le ratio entre le nombre

collaborateurs et le nombre invités dans une Relation Professionnelle

réalisée.

3.3 Tableaux de croisement dynamiques, tableaux de bord sur les indicateurs crées dans la partie analyse et leur présentation:

3.3.1 Définition et importance de tableau de croisement dynamique :

Le tableau de croisement dynamique est un outil de gestion de base de données. Il

permet de pouvoir par la suite faire des opérations et permettre un refresh du chiffre quasi

instantané.

Après avoir mis en place les tableaux de croisement dynamiques, et fait un lien

entre toutes les feuilles de calcul (qui est dynamique dans le temps), la seconde étape du

reporting sur les RP, consiste à réaliser de tableau de bord, qui permettra au service

d’avoir une vision synthétique de l’activité des franchises.

3.3.2 Définition et importance de tableau de bord :

Le tableau de bord représente un document rassemblant des indicateurs aux quels

une entreprise veut avoir une vision. Il est souvent mensuel. Il apporte une aide de gestion

pour l’entreprise.

3.3.3 Présentation du tableau de bord suivi RP

L’idée de cette étape, est de trouver des graphiques qui représentent les résultats des

indicateurs tout en facilitant la compréhension.

Pour réaliser cette étape, j’ai utilisé les graphes en bâtons horizontaux, que je

trouve très simple à comprendre. Ce type de représentation m’a conduit à regrouper les

tableaux en trois catégories :

a) Catégorie «RP et montant des RP »

b) Catégorie « no-show et invités»

c) Catégorie « collaborateurs et invités »

4. Mise en place d’une analyse des écarts et dysfonctionnement sur les dossiers

ainsi que leur automatisation

Définition des écarts et dysfonctionnements des RP :

On appel écart et dysfonctionnement le non respect des règles Novartis et des

DMOS. Le traitement des écarts et dysfonctionnement varient en fonction de sa gravité

(intervention ou non de Novartis).On distingue des écarts en « amont » et en « aval » de

L’OL (Opération Locale).

Ces écarts et dysfonctionnements qui constituent le non conformité peuvent être

classés en catégorie :

Non-conformité des prises en charge

Ex : prise en charge d’un repas > 55€

Non-conformité des éléments des dossiers

Ex : Non respect du cahier de charges pour une RP.

Non-conformité sur les participants :

Ex : Dépassements de nombre de participants déclarés.

Dossier hors délai et /ou absent

Ex : pièces reçues hors délai de validation (pour une RP classique)

Pas de dossier DMOS.

Cohérence honoraire vs. Convention :

Ex : Montants différents entre une note d’honoraires et une convention.

d’Orateur.

Conformité des factures

Ex Factures sans le nombre de repas.

Facture sans TVA

Lieu de manifestation différent de celui déclaré.

Collaborateurs Novartis non identifié en commentaire.

Erreur encodage :

Ex : OL non validée par le supérieur hiérarchique à la réception des

pièces.

L’automatisation dynamique de cette partie reste la même que la précédente. Cette

partie permettra au service de connaitre le nombre de dossiers réalisés, le nombre de

dossiers qui ont eu d’erreurs par BU, par franchise et par réseau.

5. Réflexion pour ressortir une synthèse générale.

5.1 Modélisation des écarts et dysfonctionnements sur les dossiers facturés

Objectif : L’objectif de cette modélisation est :

a) Sélectionner les paramètres qui expliquent la probabilité de faire des erreurs

(Non-conformité) sur un dossier facturé.

b) Evaluer la variation de cette probabilité par rapport à la variation des

paramètres sélectionnés.

5.1.1 Choix de la modélisation :

La variable à prédire ayant deux valeurs (faire des erreurs ou non), alors la

régression logistique binaire avec sa simplicité semble plus adaptée. Dans notre cas nous

cherchons à écrire l’espérance conditionnelle de faire une erreur comme combinaison

linéaire des paramètres explicatifs.

E (Y/X=x)=Prob (Y=1/X=x).

5.1.2 Démarche :

Pour mener à bien cette démarche, on va :

Dans la première partie faire une étude diagnostique des données et un découpage

en tranche des variables qualitatives.

Dans la deuxième partie calculer le coefficient de corrélation, pour sélectionner

les variables quantitatives non corrélées.

Dans la troisième partie faire une liaison entre les variables quantitatives et la

variable cible, pour sélectionner les variables les plus significatives.

Dans la quatrième partie faire une liaison entre les variables qualitative et la

variable cible, pour sélectionner les variables les plus significatives.

Dans la cinquième partie construire un échantillon d’apprentissage, et de test.

Dans la sixième partie faire une régression logistique sur les variables discrétisées

indépendantes et sur les variables non corrélées.

Et en fin la septième partie portera sur la recherche du meilleur modèle.

1) Etudes diagnostique des données et découpage en tranche des variables qualitatives.

Répartition de la variable cible.

erreur Fréquence Pourcentage

Fréquence Pctage.

cumulée cumulé

0 16077 94.46 16077 94.46

1 943 5.54 17020 100.00

Pour une période observée entre février 2009 et novembre 2011, on a 17020

dossiers facturés, dont 16077 ont pas eu d‘erreurs et 943 ont eu d’erreurs.

Définition des variables :

Liste alphabétique des variables et des attributs

N Variable Type Long. Format Informat Libellé

1 Franchise Texte 9 $9. $9. Franchise

4 MONTANT Num. 8 MONTANT

7 NB_COLLABORATEURS Texte 2 $2. $2. Nombre

COLLABORATEURS

8 NB_TIERS Texte 3 $3. $3. nombre invités

9 Nbre_Remunerations Texte 2 $2. $2. Nombre

Rémunérations

3 STATUT_FACTURE Texte 10 $10. $10. STATUT FACTURE

5 TYPE_FACTURE Texte 26 $26. $26. TYPE FACTURE

6 TYPE_PAIEMENT Texte 17 $17. $17. TYPE de PAIEMENT

2 TYPE_RP Texte 27 $27. $27. TYPE Relation

Professionnelle

11 cout_total_no_show Num. 8 Coût total de no-show

12 erreur Num. 8 cible

10 nb_no_show_facture Texte 2 $2. $2. Nombre no-show

facturés

Etudes des variables qualitatives et création d’indicateurs agrégats :

Pour éviter les modalités à faibles effectifs avec la variable cible, on va essayer de

faire un regroupement.

Répartition des variables avec la variable cible :

Modalités initiales pour la variable franchise :

Table de Franchise par erreur

Franchise(Franchise) erreur

Fréquence 0 1 Total

CVM 1746 87 1833

Dom 218 16 234

Dom Onco 36 6 42

Gériatrie 30 2 32

Infectiologie 85 1 86

MG 7612 368 7980

Neuroscience 2435 208 2643

Oncologie 2113 166 2279

Ophtalmologie 698 36 734

Respiratoire 889 44 933

Transplantation 198 9 207

Neuroscience 17 0 17

Regroupement des modalités à faible effectif

Table de franchise bis par erreur

Franchise bis erreur

Fréquence

0 1 Total

Franchise_specia 3433 254 3687

mass_martek 10495 517 11012

Oncologie 2149 172 2321

Franchise_specia : regroupe Neuroscience, Ophtalmologie, Transplantation,

infectiologie, Gériatrie

Mass-market: regroupe Respiratoire, CVM, Dom, MG.

Oncologie : regroupe Dom Onco et Oncologie

Modalités initiales pour la variable STATUT_FACTURE:

Table de STATUT_FACTURE par défaut

STATUT_FACTURE(STATUT_FACTURE) erreur

En attente 66 8 74

Régulés 8 0 8

Validé 16003 935 16938

Modalités initiales pour la variable STUT_FACTURE:

Table de TYPE_FACTURE par défaut

TYPE_FACTURE(TYPE_FACTURE) erreur

Autres Frais 185 31 216

Don de Formation 3 0 3

Don de recherche 1 0 1

Don recherche enseignement. 444 0 444

Don recherche et formation 1 0 1

Fournitures diverses 109 11 120

Honoraires conférence 1167 166 1333

Imprimerie 69 11 80

Location Matériel 48 17 65

Location de Salle 358 65 423

Location de stand 298 27 325

Remboursement. Frais conférence 293 48 341

Restauration réception. 13101 567 13668

Regroupement des modalités à faible effectif :

Table de STATUT_FACbis par erreur

STATUT_FACbis erreur

Fréquence

0 1 Total

enattente 66 8 74

pasenatte 16011 935 16946

La modalité enattente regroupe toutes les factures en attentes et modalité pasenatte

regroupe celles qui ne sont pas en attentes.

Modalités initiales pour la variable TYPE_PAIEMENT :

Table de TYPE_PAIEMENT par défaut

TYPE_PAIEMENT(TYPE_PAIEMENT) erreur

Ordre de paiement 2238 369 2607

Paiement Siège 300 27 327

Remboursement DR 147 11 158

Remboursement VM 13392 536 13928

Table de typpaiemtbis par défaut

Typpaiemtbis erreur

Fréquence

0 1 Total

Autre 2538 396 2934

Remboursement 13539 547 14086

La modalité Remboursement regroupe tout type de remboursement.

Modalités initiales pour la variable TYPE_RP :

Table de TYPE_RP par défaut

TYPE_RP(TYPE_RP) erreur

Fréquence

0 1 Total

Don association médecins 443 0 443

Don association patients 6 0 6

Frais de stand 300 26 326

Honoraires orateurs 70 3 73

Invités PS congrès 179 26 205

Pot de thèse interne 37 0 37

RNT - Repas d’opportunité 1047 5 1052

RNT - Staff hospitalier 118 4 122

RNT – Repas d’opportunité 252 0 252

RNT – Staff hospitalier 58 0 58

RP 4837 799 5636

Relation normale de travail 8730 80 8810

Table de typ_RPbis par défaut

typ_RPbis erreur

Fréquence

0 1 Total

RP 4837 799 5636

autreRP 11240 144 11384

La modalité autreRP regroupe toutes les Opérations Locales qui ne sont pas des RP.

Etudes des variables quantitatives:

Variable quantitative MONTANT.

Moyenne 331.8098

Médiane 126.5

Coeff. de variation 248.5123

Nbre manquant 0

-2000 1200 4400 7600 10800 14000 17200 20400 23600 26800 30000

Moyenne 634.7966

Médiane 400

Nbre manquant 0

MONTANT

On remarque ya pas de valeurs manquantes mais la distribution n’est pas normale.

Variable quantitative coût no-show.

Moyenne 4.971066

Médiane 0

Nbre manquant 0

0 150 300 450 600 750 900 1050 1200 1350 1500 1650 1800

Moyenne 24.28513

Médiane 0

Nbre manquant 0

cout_total_no_show

On remarque ya pas de valeurs manquantes, mais la distribution n’est pas normale

L’analyse exploratoire nous a permis de voir que MONTANT et coût no-show

contiennent des valeurs négatives, qui sont rendues positives à la suite.

2) Calcul du coefficient de corrélation

Cette étape nous permet de détecter les paires de variables trop corrélées entre

elles pour pouvoir appartenir simultanément à un même model. On calculera les

coefficients de Pearson et tester l’hypothèse nulle de formule ci dessous :

Obs variable1 variable2 corrélation

1 Montant Montant 1.00000

2 Montant Coût no-show 0.18500

3 Coût no-show Montant 0.18500

4 Coût no-show Coût no-show 1.00000

Les résultats nous montrent que les deux variables quantitatives Montant et

coût no-show ne sont pas fortement corrélées.

3) Liaison variables quantitatives et la variable cible

Puisque les variables n’ont pas une distribution normale, on va utiliser le test non

paramétrique de Kruskal-Wallis qui compare la moyenne de plusieurs échantillons

indépendants. Il nous permettra de mesurer l’intensité de la liaison entre la variable cible

et les deux variables non corrélées « Montant et Coût no-show».

FREQUENCY

KWallis MIDPOINT

100.000000 300.000000 500.000000

Le graphique montre que les deux variables expliquent bien la variable cible (erreur).

r est estimation empirique de β

(coefficient de corrélation)

4) Liaison variables qualitatives et la variable cible : sélection les variables les

plus significatives

Le V de Cramer (X2 normalisé) nous permet de mesurer l’intensité de la liaison

entre la variable erreur et les variables qualitatives. Plus le V de cramer est proche de zéro

plus on a l’indépendance entre la variable erreur et les variables qualitatives.

Obs Value abs_V_Cramer Variable

1 -0.2656 0.26562 typ_RPbis

2 -0.1587 0.15873 typpaiemtbis

3 0.0505 0.05048 franchisebis

4 -0.0152 0.01522 STATUT_FACbis

On remarque une chute du V à partir de la 4ème

variable (franchisebis).Il est

certain que les variables qui ont un V de Cramer inférieur à 0,05 ne rentrent pas dans le

model.

5) Echantillonnage :

Pour obtenir un model non biaisé et robuste, nous séparons par tirage aléatoire simple

la population étudiée, en échantillon d’apprentissage qui va servir à l’estimation du modèle et

un échantillon de validation pour tester le modèle.

Echantillon de validation :

Fréquence Pctage.

cumulée cumulé

0 5428 94.38 5428 94.38

1 323 5.62 5751 100.00

Echantillon d’apprentissage

Fréquence Pctage.

cumulée cumulé

0 10649 94.50 10649 94.50

1 620 5.50 11269 100.00

6) Régression logistique

Dans un modèle logistique les paramètres à estimer sont les coefficients βi de la

combinaison linéaire exprimant le logit de l’espérance conditionnelle.

E (Y/X=x)=Prob (Y=1/X=x).

Soit le modèle à estimer :

E (Y/X=x) = β + βtyp_RPbis xtyp_RPbis + β typpaiemtbis x typpaiemtbis

+ β franchisebis x franchisebis + β STATUT_FACTbis x STATUT_FACbis

+ β montant x montant + β coût no-show x coût no-show.

L’estimation des paramètres passe par la méthode de maximum de vraisemblance qui est :

L (β, X1, X2,.......X

n)= Probβ(X=x

1)*Probβ(X=x

2)*......*Probβ(X=x

Mesure de la qualité et la performance du modèle :

Pour mesurer la qualité du modèle estimé, on va regarder le log de

vraisemblance, le critère AIC et SC et pour la performance on va faire le test de Hosmer

et Lemesshow et calculer l’aire sous la courbe de ROC.

Indicateur de la mesure de qualité du modèle :

Log de vraisemblance

Il repose sur l’hypothèse que tous les coefficients du modèle sont nuls sauf la

constante. C’est à dire D (β0) - D (βk)= -2[log L (β0)-logL (β0)] suit une loi de X2 à k

degrés de libertés sous l’hypothèse nulle H0 de la nullité de tous les coefficients.

On rejette H0 si D (β0) - D (βk) dépasse le seuil critique du X2à k degré de libertés.

Les tests AIC et SC :

AIC = -2Log [L (βk)] + 2(k+1)

SC= -2Log [L (βk)] + (k+1) log (n) plus ils sont bas plus le modèle est bon.

Le test de X2 sur les indicateurs de Wald :

Comme la régression linéaire, un estimateur est efficace si la variance est faible.

Dans notre cas on va calculer la statistique de Wald, qui permet de tester la significativité

des coefficients estimés. Cette statistique vaut :

(βj estimé /écart-type (βj estimé)) 2

Le test repose sur l’hypothèse :

H0 : βj estimé = 0, ==> (βj estimé / écart-type (βj estimé)) 2 suit une loi normale

standard. Si le ratio est supérieur à 3,84 => l’intervalle de confiance à 95% de βj ne

contient pas 0 d’où significativité de βj estimé si non on rejette H0.

Indicateurs de performances :

Test de concordance :

Supposons que n1 est l’effectif quand erreur =0 et n2 est l’effectif quand

Erreur =1, En prenant t=n1*n2 paires formées de erreur =1 et erreur =0, on parle de

concordance si la probabilité estimée pour erreur=1 est supérieur à celle de erreur =0.

Estimation du modèle

Pour estimer notre modèle, on va dans un premier temps faire une régression

logistique pas à pas ascendante (stepwise) dans l’échantillon d’apprentissage, regardé

les indicateurs de mesure de qualité, la concordance des signes, les indicateurs de

performance du modèle (calculer l’aire sous la courbe de ROC) et appliquer le même

modèle dans l’échantillon de validation pour voir s’il est robuste.

a. Régression logistique pas à pas ascendante sue l’échantillon d’apprentissage

Estimations par l'analyse du maximum de vraisemblance

Paramètre DDL

Valeur

estimée

Erreur Khi-2 Pr > Khi-

2 type de Wald

Intercept 1 -2.3211 0.0720 1040.2330 <.0001

franchisebis franchise_specia 1 0.5185 0.1037 24.9912 <.0001

franchisebis oncologie 1 0.7001 0.1184 34.9363 <.0001

typpaiemtbis autre 1 0.5933 0.0923 41.3281 <.0001

typ_RPbis autreRP 1 -2.4016 0.1148 437.6832 <.0001

montant 1 0.000106 0.000041 6.6453 0.0099

Estimation des rapports des cotes :

Estimations des rapports de cotes

Valeur estimée

du point

Intervalle de confiance

de Wald à 95 %

franchisebis Francfise_specia vs

mass_martek

1.679 1.371 2.058

franchisebis oncologie vs

mass_martek

2.014 1.597 2.540

typpaiemtbis autre vs

remboursement

1.810 1.510 2.169

typ_RPbis autreRP vs RP 0.091 0.072 0.113

montantposi 1.000 1.000 1.000

Dans ce tableau les valeurs supérieures à 1 ont une influence positive et les valeurs inférieures à 1 ont une

influence négative.

Mesure de la qualité du modèle :

Pour mesurer la qualité du modèle estimé, on va regarder le log de vraisemblance, le

critère AIC et SC.

Statistiques d'ajustement du modèle

Critère Constante unique

Constante et

covariable

AIC 4803.359 3981.425

SC 4810.688 4025.403

-2 Log L 4801.359 3969.425

Dans notre cas les résultats montrent bien que D (β0) - D (βk) > au seuil 13 et le

modèle complet a un SC et un AIC plus bas que le modèle avec constante unique.

Concordance des signes des coefficients estimés sur les variables retenues

par le modèle:

Variable type de franchise

Table de franchisebis par erreur

franchisebis erreur

Fréquence

0 1 Total

Pourcentage

Pctage en ligne

Pctage en col.

franchise_specia

2262 163 2425

20.07 1.45 21.52

93.28 6.72

21.24 26.29

mass_martek

6936 342 7278

61.55 3.03 64.58

95.30 4.70

65.13 55.16

oncologie

1451 115 1566

12.88 1.02 13.90

92.66 7.34

13.63 18.55

Total 10649 620 11269

94.50 5.50 100.00

Variable type paiement :

Table de typpaiemtbis par erreur

typpaiemtbis erreur

Fréquence

0 1 Total

Pourcentage

Pctage en ligne

Pctage en col.

1707 261 1968

15.15 2.32 17.46

86.74 13.26

16.03 42.10

remboursement

8942 359 9301

79.35 3.19 82.54

96.14 3.86

83.97 57.90

Total 10649 620 11269

94.50 5.50 100.00

Variable type de dossier

Table de typ_RPbis par erreur

typ_RPbis erreur

Fréquence

0 1 Total

Pourcentage

Pctage en ligne

Pctage en col.

3216 521 3737

28.54 4.62 33.16

86.06 13.94

30.20 84.03

autreRP

7433 99 7532

65.96 0.88 66.84

98.69 1.31

69.80 15.97

Total 10649 620 11269

94.50 5.50 100.00

Le signe des coefficients estimés concorde avec la répartition des modalités dans la base.

Mesure de la performance du modèle :

Test de concordance :

Association des probabilités prédites et des réponses observées

Pourcentage concordant 79.9 D de

Somers

Pourcentage discordant 16.4 Gamma 0.660

Pourcentage lié 3.7 Tau-a 0.066

Paires 6602380 c 0.818

Dans notre cas on a 79% de concordance et 16,4 non concordance, l’aire sous la

courbe de ROC vaut 0.818 et l’indice de Gini vaut 0.635.La courbe de ROC nous permet

de voir la prédiction d’un modèle. Chaque élément de la courbe correspond à la matrice

de confusion définie par une certaine valeur du seuil.

Tableau de classification

Table de classification

Niveau de Correct Incorrect Pourcentages

proba.

Evénement

Correct

Sensi- Spéci- Faux Faux

événement événement bilité ficité POS NEG

0.000 620 0 10649 0 5.5 100.0 0.0 94.5 .

0.100 361 8886 1763 259 82.1 58.2 83.4 83.0 2.8

0.200 95 10347 302 525 92.7 15.3 97.2 76.1 4.8

0.300 5 10626 23 615 94.3 0.8 99.8 82.1 5.5

0.400 0 10648 1 620 94.5 0.0 100.0 100.0 5.5

0.500 0 10649 0 620 94.5 0.0 100.0 . 5.5

0.600 0 10649 0 620 94.5 0.0 100.0 . 5.5

0.700 0 10649 0 620 94.5 0.0 100.0 . 5.5

0.800 0 10649 0 620 94.5 0.0 100.0 . 5.5

0.900 0 10649 0 620 94.5 0.0 100.0 . 5.5

1.000 0 10649 0 620 94.5 0.0 100.0 . 5.5

Dans ce tableau, en prenant une probabilité de 0.50, on a 10649 prédits par le modèle

non événement alors qu’ils sont non événements et 620 prédits par le modèle non

événement alors qu’ils sont des événements soit 94,5% de bonne prédiction.

Application du modèle estimé sur l‘échantillon de validation :

Mesure de la performance du modèle :

Pourcentage concordant 81.2 D de Somers 0.660

Paires 1753244 c 0.830

On remarque sur l’échantillon de validation, le modèle arrive à capter 83,0% de vrais

positives alors que dans l’échantillon d’apprentissage il capte 81,8% de vrais positives.

7) Recherche du meilleur modèle.

Pour la recherche du meilleur modèle, on va dans le premier temps faire une

régression logistique pas à pas descendante (backward). Dans le deuxième temps on va

sélectionner les variables quantitatives significatives et tester l’effet de linéarité

a. Régression logistique pas à pas descendante sur l’échantillon d’apprentissage

Les paramètres estimés, les mesures de qualités et la concordance des signes restent

inchangés.

Mesure de la performance du modèle sur l’échantillon d’apprentissage :

Paires 6602380 c 0.818

On remarque que les résultats restent inchangés. Même chose pour l’échantillon de

validation c = 0.830.

b. Effet de linéarité du montant des dossiers

Cette étape consiste à savoir si on a l’effet de linéaire du montant. Cela revient dans

un premier temps à prendre le carrée du montant et voir s’il est significatif et dans le

second temps discrétiser la variable montant et voir si les modalités sont significatifs.

Régression logistique avec montant élevé au carré :

Paramètre DDL

Valeur

estimée

2 type de Wald

Intercept 1 -2.2864 0.0715 1023.2859 <.0001

On remarque le montant élevé au carré n’est pas significatif, ce la veut dire qu’il n’y pas

d’effet.

Régression logistique avec discrétisation de la variable montant :

L’idée consiste à regrouper tous les dossiers qui ont un montant inférieur à la

moyenne dans une classe et tous les dossiers qui ont un montant supérieur à la moyenne

dans une autre classe puis faire une régression logistique en tenant compte de toutes les

autres variables.

Tableau de répartition des classes

Table de montant par erreur

montant erreur

Fréquence

0 1 Total

Pourcentage

Pctage en ligne

Pctage en col.

montant RP inferieure à la

moyenne

12074 417 12491

70.94 2.45 73.39

96.66 3.34

75.10 44.22

montant RP supérieur à la

moyenne

4003 526 4529

23.52 3.09 26.61

88.39 11.61

24.90 55.78

Total 16077 943 17020

94.46 5.54 100.00

Mesure de performance

Paires 6602380 c 0.816

Les résultats de la régression logistique restent inchangés que la précédente c’est

à dire les modalités montant ne sont pas significatifs et en plus on remarque une baisse

de l’aire sous la courbe de ROC qui passe de 0.818 à 0.816.

En comparant ces différentes méthodes, on retiendra la régression logistique pas à pas

ascendante avec montant non discrétisé et non élevé au carré.

Paramètre DDL

Valeur

estimée

2 type de Wald

Intercept 1 -2.3211 0.0720 1040.2330 <.0001

montant 1 0.000106 0.000041 6.6453 0.0099

Interprétation du modèle estimé :

Un dossier facturé en Franchise Spécialisés a une forte probabilité d’avoir des

erreurs par rapport à un dossier facturé en Mass-Market.

Un dossier facturé en Oncologie a encore plus de probabilité d’avoir des erreurs

par rapport à un dossier facturé en Mass-Market.

Les dossiers de type de paiement « remboursement » ont une probabilité faible

d’avoir des erreurs par rapport aux autres types de paiements.

Les dossiers RP facturés ont plus de probabilité d’avoir des erreurs par rapport

aux autres.

Plus le montant d’un dossier est élevé plus ont a la une forte probabilité de faire

des erreurs.

5.2 Segmentation :

Définition : La segmentation consiste à rassembler des individus en fonction de

leurs caractéristiques communes, pour constituer des groupes homogènes.

Objectif : mieux connaître les RP pour pouvoir mettre en place des actions

différenciées (les RP concernent que celles qui font la restauration).

L’idée : l’idée de cette segmentation est de regarder, si malgré la distinction des

franchises par les indicateurs crées, leur regroupement est-il possible en fonctions de

toutes caractéristiques observées ?

Exemple : l’indicateur coût moyen de no-show par franchise montre bien que la

CARDIOLOGIE et la TRANSPLANTATION sont différentes. Avec cette différence,

peut-on dire que ces deux franchises sont homogènes en tenant compte de toutes leurs

caractéristiques ?

Cette analyse portera sur, soit en faisant un graphique de nuage de points, soit en

calculant leur coefficient de corrélation linéaire, voire faire même une régression linéaire

de l’une sur l’autre.

5.2.1 Présentation de la base

La base initiale :

Observation 5265

Nombre de variables 16

variables qualitatives 1

variables quantitatives 15

La base du reporting

Observation 2679

Nombre de variables 6

Le nombre de variables étant très élevé, nous devrons faire une étude simultanée.

Cette étude ne serait-ce qu’en réalisant un graphique. Mais la difficulté reste sur le

nombre de variables. L’Analyse en Composante factoriel nous permettra de résoudre ce

problème.

L’objectif d’une analyse en composante factoriel, est de revenir à un espace de

dimension réduite (par exemple 2) en déformant le moins possible la réalité. Il s’agit donc

d’obtenir le résumé le plus pertinent des données initiales. Dans notre cas, l’étude sera

entièrement réalisée à l’aide du logiciel SAS.

5.2.2 Analyse :

Pour mener à bien cette analyse, on va dans un premier temps faire une étude

diagnostic des donnes, dans un second temps créer des indicateurs agrégats, dans le

troisième temps faire une analyse de données (analyse factorielle), dans le quatrième

temps faire une classification et en fin le cinquième temps consistera à l’identification

des classes et leur interprétation.

1) Diagnostic des données :

L’objectif de cette partie est de voir comment se comportent les indicateurs de

suivi des RP qui ont permis de faire le reporting.

Statistique descriptive sur l ‘ensemble :

Variables Definition N Moyenne Ecart-type Valeurs manquantes

PRT Participants 5265 8.44957265 10.7657327 0

CTNS Coût no-show 5265 16.769117 82.733513 0

NR Nombre rémunés 1201 1.70024979 1.31024486 0

M Montant 5265 540.43304 528.038738 0

NT Invites’ 2679 12.3072041 10.270867 0

NOS Nombre no-show 5265 0.38461538 1.7803039 0

Notons au passage que les 6 indicateurs considérés n’ont pas le même ordre de grandeur.

Les statistiques descriptives des chaque franchise sont à l’annexe (Fig.1). Les résultats

montrent que les indicateurs de suivi des RP n’ont pas une distribution normale et la part

des valeurs manquantes est nulle.

2) Création des indicateurs agrégats:

L’objectif de cette étape est d’unifié les données pour construire des indicateurs

pertinents.

Indicateur créé Définition

participant total Nombre de participants dans RP

coût total no-show Coût des no-show dans les RP

nombre total no-show Nombre de no-show dans les RP

nombre total rémunérations Nombre de rémunération dans les RP

nombre total d'invités Nombre d’invités dans les RP

montant total RP Montant dépensé dans les RP

Rappel : les RP signifient les Relations Professionnelles.

3) Analyse de données (analyse factorielle)

Définition : L’analyse factorielle est une technique qui permet de traiter des

tableaux de données nombres. Elle permet d’analyse un tableau à plusieurs données en

une série de tableaux plus simples qui sont une bonne approximation de celui-ci. Ces

tableaux peuvent être exprimables sous forme de graphes.

Choix de la méthode de l’analyse factorielle :

Le but de l’analyse étant de ressortir les caractéristiques de chaque franchise, puis

regrouper les plus semblables, alors la technique la plus adaptée est l’analyse en

correspondance multiple.

Définition de l’analyse en composante multiple:

L’analyse en composante multiple, est une méthode factorielle de réduction de

dimension pour l’exploitation statistique des données qualitatives complexes.

Puis que cette méthode ne marche que pour les variables qualitatives, cherchons à

discrétiser les indicateurs agrégats.

Présentation et Définition des Indicateurs discrétisées:

Variables

discrétisées Définitions

Partinf

OL dont le nombre de participants est inférieur à la moyenne générale de l’ensemble des OL

réalisées

partEg OL dont le nombre de participants est égal à la moyenne générale de l’ensemble des OL réalisées

patsup OL dont le nombre de participants supérieur à la moyenne générale de l’ensemble des OL réalisées

nonrensparti les valeurs manquantes de nombre de participants

CSOinf OL dont le coût de no-show est inférieur à la moyenne générale de l'ensemble des OL réalisées

CSOEg OL dont le coût de no-show est égal à la moyenne générale de l'ensemble des OL réalisées

CSOsup OL dont le coût de no-show est supérieur à la moyenne générale de l'ensemble des OL réalisées

nonrensCSO des OL qui n'ont pas de no-show

NSOinf OL dont le nombre de no-show est inférieur à la moyenne générale de l'ensemble des OL réalisées

NSOsup OL dont le nombre de no-show est supérieur à la moyenne générale de l'ensemble des OL réalisées

NSOEg OL dont le nombre de no-show est égal à la moyenne générale de l'ensemble des OL réalisées

nonrensNSO des OL qui n'ont pas de no-show

Nbremuinf OL dont le nombre rémunérés est inférieur à la moyenne générale de l’ensemble des OL réalisées

NbremuEg OL dont le nombre rémunérés est égal à la moyenne générale de l’ensemble des OL réalisées

Nbremusup OL dont le nombre rémunérés est supérieur à la moyenne générale de l’ensemble des OL réalisées

nonrensBreremu les valeurs manquantes de nombre de rémunérés

NBtierinf OL dont le nombre d'invités est inférieur à la moyenne générale de l’ensemble des OL réalisées

NBtierEg OL dont le nombre d'invités est égal à la moyenne générale de l’ensemble des OL réalisées

Nbtiersup OL dont le nombre d'invités est supérieur à la moyenne générale de l’ensemble des OL réalisées

nonrensNBtier les valeurs manquantes de nombre d'invités

MtRPinf OL dont le montant est inférieur à la moyenne générale de l’ensemble des OL réalisées

MtRPEg OL dont le montant est égal à la moyenne générale de l’ensemble des OL réalisées

MtRPsup OL dont le montant est supérieur à la moyenne générale de l’ensemble des OL réalisées

RPCVM OL CVM

RPDom OL Dom

RPGeri OL Gériatrie

RPInfec OL Infectiologie

RRNeuro OL Neuroscience

RPMG OL MG

RPOnco OL Oncologie

RPOhpta OL Ophtalmologie

RPRespi OL

Rptrans OL Pneumologie

NB : dans notre cas on ne tient pas compte de la taille des indicateurs pour leur

regroupement, puisque chaque indicateur est différent de l’autre.

Recherche des axes factoriels

Le principe de la recherche des axes factoriels repose sur l’inertie totale des

observations. Cette inertie totale égale à la somme des valeurs propres du tableau de Burt,

qu’on peut avoir à partir du tableau disjonctif complet.

Pour une modalité d’effectif nj, sa contribution à l’inertie totale est

1/P (1-nj/n). Cette formule nous montre bien la nécessité d’éviter d’avoir des

modalités à effectifs faible.

Pour une variable de modalité mi sa contribution à l’inertie totale est de :

1/P (1-mj/m). Comme elle dépend du nombre de modalités, on voit qu’il ya intérêt

d’éviter des disparités entre les nombres de modalités des différentes variables.

La somme des valeurs propres vaut (Nombre total de modalités)-1 /nombre de

variables Tableau de la décomposition de l’inertie et du khi-2 (voir annexe Fig2).

Explication du tableau : le principe est de sélectionner les axes dont leur valeur

propre dépasse 0,25. Dans notre cas seuls les axes 1 et 2 ont des valeurs qui dépassent

0.25. On ne retiendra que deux axes principaux pour la projection.

Représentation sur les axes 1 et 2

Interprétation

Les RP renseignées deux fois sont des Relations Professionnelle réalisées plupart

en Infectiologie et elles n’ont pas d’invités.

Les Relations Professionnelles dont le coût de no-show est supérieur à la moyenne

sont des Relations Professionnelles dont le nombre de no-show est supérieur à la

moyenne.

En Oncologie et en Gériatrie on a beaucoup de Relations Professionnelles dont le

nombre d’invité est inférieur à la moyenne.

Les Relations Professionnelles dont les montant est supérieur à la moyenne sont

des Relations Professionnelles dont le nombre de participants est supérieur à la

moyenne.

4) Classification :

Définition : La classification est une opération statistique qui consiste à regrouper

des objets (individus ou variables) en un nombre limité de groupes qui ont des

caractéristiques similaires ou différentes. En marketing, elle est particulièrement adaptée

à la recherche des différents profils de client constituant une clientèle. Elle peut aussi

permettre de suivre l’évolution d’un client au fil des mois.

Choix de la méthode de classification :

Le nombre d’observations étant très élevé, les méthodes mixtes de classification

semble plus adaptées.

Définition : le principe de la méthode mixtes consiste à combiner les points forts

des méthodes hiérarchiques et des méthodes de partitionnement (centre mobiles, k-

means...).La méthode de partitionnement (centre mobile) se déroule en 4 étapes.

Etape1 : on choisit k individus comme centres initiaux des classes (on tire au sort,

ou l’on prend les k premiers, ou l’on prend 1 sur n/k).

Etape 2 : on calcul les distances entre chaque individu et chaque centre Ci de

l’étape précédente, et on affecte chaque individu au centre le plus proche, ce qui

définit k classes.

Etape 3 : on remplace les k centres Ci par les barycentres des k classes définies à

l’étape2.

Etape 4 : on regarde si les centres restent suffisamment stables.

Tableau Historique des itérations voir annexe Fig3.

Tableau des classes :

Synthèse de la classe

sse Fréquence

RMS Std

Deviation

Distance max. de Rayon

Classe la

plus proche

Distance Bet

la valeur initiale dépassé

Cluster Cen

troids

à l'observation

1 200 0.4337 2.0848 4 1.5117

2 121 0.3345 2.3554 8 2.0327

3 69 0.5827 2.1725 4 2.0549

4 90 0.5538 1.7089 1 1.5117

5 48 0.3841 1.8443 7 2.0221

6 895 0.3474 2.5208 5 3.2539

7 12 0.3868 1.3668 5 2.0221

8 1903 0.0750 1.9937 9 1.4255

9 721 0.2731 2.0565 8 1.4255

10 373 0.4000 2.3935 9 2.1137

La colonne classe représente l’ensemble des classes obtenues à l’issus des

itérations.

La colonne distance sépare l’individu du centre de sa classe.

Au final on a 10 classes qu’il faut regrouper.

Variable non corrélées retenues pour la classification

Statistiques pour variables

Variable E-t total Dans E-t R-carré

RSQ/(1-

CNSmoy 0.69156 0.13772 0.960419 24.264934

BNSmoy 0.59934 0.14358 0.942729 16.460708

Mtmoy 0.46320 0.30466 0.568257 1.316192

franchi 2.47899 0.42028 0.971316 33.862077

OVER-ALL 1.34140 0.27796 0.957150 22.337020

Performance de la classification :

Les statistiques : pseudo F, R2 et le cubique curium critérium (CCC), sous critère

de non corrélation des variables nous permettent de savoir si la classification est bonne.

Hypothèse : il faut que CCC soit supérieur à 2, R2 calculer sous l’hypothèse nulle soit

proche de 1.

Tableau de résultats

Pseudo F Statistic = 10974.92

Approximate Expected Over-All R-Squared = 0.87925

Cubic Clustering Criterion = 98.442

D’après ces résultats, on peut dire que notre classification est bonne.

Classification par CHA par la méthode de Ward.

Le principe est de chercher à chaque étape les classes les plus proches pour les

fusionner.

Pour la liaison des classes, voir annexe Fig4 tableau Historique de la classe.

Mesure de la qualité de la CHA:

Le R2(RSQ) est la proportion de l’inertie expliquée par les classes (inertie inter

classe/ inertie totale). La représentation graphique si dessous nous montre que le dernier

saut important de R2 est fait en passant de k à k+1 classes. Dans notre cas l’option est

visiblement 2 ou 4 classes.

R-carré

Nombre de classifications

1 2 3 4 5 6 7 8 9 10

les axes factoriels 1 et 2

Le cubic clustering criterion (CCC) indique si la classification est bonne

(CCC>2).Si le CCC est légèrement négative, le risque d’oublie est faible et cette valeur

légèrement négative peut indiquer la présence de petites classes. Une bonne partition en

k+1 classes se manifestera par un creux pour k classes et un pic pour k+1 classes qui

seront suivis soit d’une baisse légère ou une hausse légère.

La représentation graphique si dessous nous montre que le k+1 correspond à 2 ou 4

classes.

Critère de classification cubique

1 2 3 4 5 6 7 8 9 10

Le R2 semi-partiel mesure la perte d’inertie provoquée en regroupant deux

classes, c’est à dire la baisse du R2 .Le SPRSQ indiqué pour k classes est la perte d’inertie

interclasse résultant de passage de k+1 classes à k classes.

La représentation graphique si dessous nous montre le k+1 correspond à 2 ou 4 classes.

R-carré semi-partiel

1 2 3 4 5 6 7 8 9 10

Sur l’ensemble, le nombre de classes à retenir varie entre 2 et 4, la repartion en 2

classes semble bien raisonnable.

Représentation du l’arbre de classification :

5) Indentification des classes et leur interprétation :

Table de CNSmoy par CLUSTER

CNSmoy CLUSTER

Fréquence

1 2 Total

Pourcentage

Pctage en ligne

Pctage en col.

CSOinf

895 3118 4013

20.19 70.35 90.55

22.30 77.70

93.72 89.68

CSOsup

37 251 288

0.83 5.66 6.50

12.85 87.15

3.87 7.22

nonrensCSO

23 108 131

0.52 2.44 2.96

17.56 82.44

2.41 3.11

Total 955 3477 4432

21.55 78.45 100.00

Variable coût no-show :

Table de BNSmoy par CLUSTER

BNSmoy CLUSTER

Fréquence

1 2 Total

Pourcentage

Pctage en ligne

Pctage en col.

NSOinf

892 3098 3990

20.13 69.90 90.03

22.36 77.64

93.40 89.10

NSOsup

63 379 442

1.42 8.55 9.97

14.25 85.75

6.60 10.90

Total 955 3477 4432

21.55 78.45 100.00

Variables montant RP :

Table de Mtmoy par CLUSTER

Mtmoy CLUSTER

Fréquence

1 2 Total

Pourcentage

Pctage en ligne

Pctage en col.

MtRPinf

916 3264 4180

20.67 73.65 94.31

21.91 78.09

95.92 93.87

MtRPsup

39 213 252

0.88 4.81 5.69

15.48 84.52

4.08 6.13

Total 955 3477 4432

21.55 78.45 100.00

Variable indicateur de franchise :

Table de franchi par CLUSTER

franchi CLUSTER

Fréquence

1 2 Total

Pourcentage

Pctage en ligne

Pctage en col.

double

602 0 602

13.58 0.00 13.58

100.00 0.00

63.04 0.00

287 0 287

6.48 0.00 6.48

100.00 0.00

30.05 0.00

65 0 65

1.47 0.00 1.47

100.00 0.00

6.81 0.00

RPGeri

0.02 0.07 0.09

25.00 75.00

0.10 0.09

RPInfec

0 17 17

0.00 0.38 0.38

0.00 100.00

0.00 0.49

RPNeuro 0 2167 2167

0.00 48.89 48.89

0.00 100.00

0.00 62.32

0 497 497

0.00 11.21 11.21

0.00 100.00

0.00 14.29

RPOnco

0 351 351

0.00 7.92 7.92

0.00 100.00

0.00 10.09

RPOphta

0 240 240

0.00 5.42 5.42

0.00 100.00

0.00 6.90

RPrespi

0 172 172

0.00 3.88 3.88

0.00 100.00

0.00 4.95

RPtrans

0 30 30

0.00 0.68 0.68

0.00 100.00

0.00 0.86

Total 955 3477 4432

21.55 78.45 100.00

Interprétation des classes :

En matière de coût et nombre de no-show, du montant de réalisation d’une RP les

franchises :

Transplantation, Respiratoire, Ophtalmologie, Oncologie, MG, Neuroscience,

Infectiologie et Gériatrie ont la même caractéristique. Ils constituent la deuxième

classe.

Les Dom, les CVM et les RP deux fois renseignées ont la même caractéristique.

Ils constituent la première classe.

Conclusion

J’ai mis en place l’automatisation des Analyses et du suivi des Relations

Professionnelles organisées par NOVARTIS PHARMA France, selon les critères définis

par le service RP/GVM. J’ai essayé de rendre accessible à tout le personnel du service par

la mise en place d’un process. Le travail réalisé va permettre au service d’une part de

suivre périodiquement l’évolution de ces activités et d’autre part, d’évaluer et de

comparer les franchises, tout en réduisant le temps de traitement qui était de 3 jours pour

le suivi des RP et maintenant 1 journée maximum. Elle permettra aussi de laisser une

traçabilité des résultats trouvés.

Les indicateurs que j’ai mis en place vont permettre au service de suivre à chaque

moment le montant dépensé dans les Relations Professionnelles et l’analyse des erreurs

permettra de voir les dossiers qui ont eu d’erreurs.

Le prochain cap qui était de mener une réflexion, la modélisation a permis de voir

quels sont les facteurs qui expliquent la probabilité d’un dossier ait une erreur. Cette étape

va aider le service dans leur prise de décision pour mener des actions. La segmentation a

permis de bien comprendre le comportement des Relations Professionnelles des

différentes franchises.

Points à améliorer

Concernant la segmentation, l’étude peut être améliorée en prenant plusieurs

variables et faire une analyse en composante principale sur les variables quantitatives

continues et refaire une analyse en composante multiple sur l’ensemble des variables. On

peut faire un découpage par réseau et non par franchise pour trouver plusieurs classes.

Concernant la modélisation, on peut faire un modèle pôlytomique non ordonnée

pour ressortir toutes les catégories d’erreurs que peut avoir un dossier.

C’est avec un grand intérêt et une grande satisfaction que j’abouti à ces projets. Ce

stage m’a procuré une grande expérience, notamment par rapport à la collecte des

données, la recherche d’information pertinente, la valorisation du travail, l’aptitude de

travailler en équipe avec autonomie et la gestion du temps de travail.

Cette démarche aboutit à l’explication de mes résultats, et enfin à la rédaction de

ce rapport.

Annexe

Statistique descriptive en fonction des franchises :

Franchise Variables N Moyenne somme

Infectiologie PRT 13 21,9230769 285

CTNS 9 13,3333333 120

NOS 13 1,6923077 22

NR 0 , ,

M 6 947,8333333 5687

NT 13 20,3076923 264

Neuroscience PRT 360 19,2166667 6918

CTNS 340 17,4294118 5926

NOS 360 0,725 261

NR 40 0,05 2

M 256 796,390625 203876

NT 360 17,5361111 6313

Oncologie PRT 310 15,9645161 4949

CTNS 286 12,3811189 3541

NOS 310 0,4903226 152

NR 49 13 0,2653061

M 173 579,6127168 100273

NT 310 14,1645161 4391

Ophtalmologie PRT 166 13,0361446 2164

CTNS 154 35,7792208 5510

NOS 166 0,9939759 165

NR 18 0,1666667 3

M 138 706,4565217 97491

NT 166 11,2590361 1869

Cardiologie PRT

Transplantation PRT 24 20,0833333 482

CTNS 24 35,75 858

NOS 24 0,9166667 22

NR 2 0 0

M 15 695,8666667 10438

NT 24 18,0416667 433

MG PRT 1430 12,7958042 18298

CTNS 1393 15,6346016 21779

NOS 1430 0,4678322 669

NR 890 1,888764 1681

M 1301 681,2628747 886323

NT 1430 10,5363636 15067

CVM PRT 213 15,0234742 3200

CTNS 195 18,9846154 3702

NOS 213 0,6197183 132

NR 94 1,2021277 113

M 163 673,9386503 109852

NT 213 13,2159624 2815

Dom PRT 51 13,549019 691

CTNS 49 28,428571

NOS 51 0,8627451 44

NR 39 1,9230769 75

M 46 915,0434783 42092

NT 51 11,627451 593

Geriatrie PRT 4 13,75 55

CTNS 4 13,75 55

NOS 4 0,25 1

NR 3 1,3333333 4

M 4 636,25 2545

NT 4 12 48

Respi PRT 108 13,287037 1435

CTNS 94 47,3617021 4452

NOS 108 1,6481481 178

NR 66 2,2878788 151

M 95 724,4 68818

NT 108 10,9074074 1178

Tableau coordonnées des modalités sur les axes factoriels (voir annexe Fig2)

Décomposition de l'inertie et du Khi-2

Valeur

singulière

Inertie

principale

Pourcentage

Pourcent.

cumulé

3 6 9 12 15

----+----+----+----+----+---

0.65331 0.42681 13241 12.99 12.99 **********************

0.56747 0.32202 9991 9.80 22.79 ****************

0.48098 0.23135 7177 7.04 29.83 ************

0.47653 0.22708 7045 6.91 36.74 ************

0.44378 0.19694 6110 5.99 42.74 **********

0.40949 0.16768 5202 5.10 47.84 *********

0.38734 0.15003 4654 4.57 52.41 ********

0.38401 0.14747 4575 4.49 56.89 *******

0.37851 0.14327 4445 4.36 61.25 *******

0.37797 0.14286 4432 4.35 65.60 *******

0.37703 0.14215 4410 4.33 69.93 *******

0.37503 0.14065 4364 4.28 74.21 *******

0.37401 0.13988 4340 4.26 78.47 *******

0.36196 0.13101 4065 3.99 82.45 *******

0.35589 0.12665 3929 3.85 86.31 ******

0.33842 0.11453 3553 3.49 89.79 ******

0.31078 0.09659 2997 2.94 92.73 *****

0.30009 0.09005 2794 2.74 95.48 *****

0.27913 0.07792 2417 2.37 97.85 ****

0.25283 0.06392 1983 1.95 99.79 ***

0.08269 0.00684 212 0.21 100.00

Total 3.28571 10193

100.00

Degrés de liberté = 128499

Tableau Historique des itérations Fig3.

Historique des itérations

Itération Critère

Changement relatif dans les valeurs initiales de classe

1 2 3 4 5 6 7 8 9 10

1 0.1326 0.075

0.0063

0.0007

0.0070

0.0012

0.0075

0.0276 0.026

2 0.1325 0.042

0 0 0 0 0 0 0 0.0021

3 0.1325 0 0 0 0 0 0 0 0 0 0

Fig4 tableau Historique de la classe.

Historique de la classe

NCL Classes

jointes FREQ SPRSQ RSQ ERSQ CCC PSF PST2

9 OB5 OB7 60 0.0012 .956 .892 68.2 12E3 66.4

8 OB1 OB4 290 0.0044 .951 .883 67.7 12E3 158

7 OB2 OB8 2024 0.0147 .937 .872 55.3 11E3 9847

6 CL8 OB3 359 0.0165 .920 .857 46.9 1E4 382

5 CL9 OB6 955 0.0183 .902 .835 42.7 1E4 1103

4 CL7 OB9 2745 0.0331 .869 .803 35.0 9773 3704

3 CL6 OB10 732 0.0892 .780 .750 11.9 7832 1651

2 CL3 CL4 3477 0.1076 .672 .631 9.57 9074 2008

1 CL2 CL5 4432 0.6719 .000 .000 0.00 . 9074

Bibliographie :

Data Mining et Statistique décisionnelle de Stéphane TUFFERY

Etude Statistique décisionnelle Stéphane TUFFERY.

Statistique explicative appliquée de J-P.NAKACHE, J.CONFAIS.

Rapport de stage NOVARTIS PHARMA France

Documents

Diovan - Novartis Pharma

Exforge - Novartis Pharma

Disease Management Marcel Marolf Novartis Pharma Schweiz AG 29. April 2002 Zürich

Gilenya - Novartis Pharma

1) 3572.00 : Cusomer Servic 68-0800 KR Sc. AG Novartis Pharma Stein AGO Schaffhauserstrasse 4332 Stein, Switzerland

Pharma · Issue 2011 pack azine · Pharma · Issue 2011 azine Novartis | Facility of the Year Award 2011 Roche | Efficient and Flexible Secondary Packaging North China Pharmaceutical

Novartis Pharma Principles and Practices for Professionals (NP4)

Novartis Pharma (Parazelsus)1

INTRODUCTION TO HEART FAILURE © 2015 Novartis Pharma AG, May 2015, GLCM/HTF/0027b

Erfolgreiche PAT-Implementierungen in der pharmazeutischen ... · Erfolgreiche PAT-Implementierungen in der pharmazeutischen Industrie Dr. Jacques Wiss Novartis Pharma AG, Basel,

SWOT analysis of novartis pharma

Chemical Entity extraction using the chemicalize.org-technology Josef Scheiber Novartis Pharma AG – NITAS/TMS

hp spig 2011 web · MVZ Labor Dr. Limbach und Kollegen GbR Novartis Pharma GmbH Otsuka Pharma GmbH PrimUS Medical Instruments GmbH Roche Pharma AG Talecris Biotherapeutics. 8 allgemeine

Mr. Ashish from Novartis conducting campus interviews · PHARMA MINDZ; 3rd National Pharma Fest- 2012 Pharma Mindz (cultural cum academic program) was organized at I.T.S. Pharmacy

Myfortic - Novartis Pharma

Novartis Pharma AG: Master of Engineering Data

Lageplan · A. Kreft 13.15 Uhr Update ... Chugai Pharma Europe Ltd. Gilead Sciences GmbH ... Neovii Biotech GmbH Novartis Pharma GmbH Takeda Pharma Vertrieb GmbH & Co. KG

2015 Report rzn December Novartis Pharma Russia (PDF 1331.2 KB)

Diagnostics 2011: M&A surges, companion diagnostics accelerate, and · PDF filefrom the pharma sector. Novartis, for ... Number of companion diagnostics partnerships with pharma 2004–2010

Innate Pharma Rapport-Annuel