Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
F. Mauny - UFR SMP - université de
Franche-Comté 1
Statistique descriptive
Evaluation des méthodes d’analyse appliquées aux sciences de la vie et de la santé
Frédéric Mauny - 27 & 28 septembre 2012
Représentation des données :tableaux, graphiques et indices
1© F. Mauny - UFR SMP – Université de Franche-Comté
UE 4
Plan du cours
• Introduction
– Statistique descriptive– Nature des caractères étudiés– Principe de notation– Présentation de l’information
• Indices
• Graphiques
2© F. Mauny - UFR SMP – Université de Franche-Comté
F. Mauny - UFR SMP - université de
Franche-Comté 2
Statistique descriptive
• Première étape du travail statistique. L'observation ou l'expérience fournissent des donnéesdonnées, caractères ou valeurs numériques
• L'ensemble des résultats obtenus constitue une série statistiquesérie statistique
Ex: 125, 178, 169, 123, 95, 128, 142, 147, 112, 165, 105
3© F. Mauny - UFR SMP – Université de Franche-Comté
• Classer les résultats obtenus, les présenter sous une forme condensée fidèleune forme condensée fidèle, plus facile à manipuler (tableaux de bord, graphiques) pour en obtenir une vision globale
• Utiliser des indices pour décrire la positionposition et la dispersiodispersion de la série statistique
• Permettre les comparaisonscomparaisons
• Dépend de la nature de l’information: caractère qualitatifqualitatif ou quantitatifquantitatif
4© F. Mauny - UFR SMP – Université de Franche-Comté
Statistique descriptive
F. Mauny - UFR SMP - université de
Franche-Comté 3
Nature des données
• Qualitative
– Ordinale : bandelettes U (0,+,++,+++)– Nominale : sexe, couleur yeux, statut marital
• Quantitative
– Discrète: le nombre d’enfants, le nombre d’ovocytes
– continue : le poids, la taille, l’indice de masse corporelle, la TA
• Date
5© F. Mauny - UFR SMP – Université de Franche-Comté
Dépend de la façon de traiter l’information
• Ex : temps de gestation humaine, en nb de semaines d’aménorrhée, mais…
• Ex : La tension artérielle (TA)Valeur mesurée ou statut hypertendu (oui/non)
6© F. Mauny - UFR SMP – Université de Franche-Comté
avant 33 SA entre 33 et 37 SA 37 SA et +
grand et TG prématuré
prématuré Non prématuré
Nature des données
F. Mauny - UFR SMP - université de
Franche-Comté 4
Convention de notation
• N taille de la population, n taille de l’échantillon observé
• X et Y caractères définis dans la population
• x et y caractères définis dans l’échantillon
• xi et yi valeurs observées chez le sujet i
7© F. Mauny - UFR SMP – Université de Franche-Comté
8
Présentation de l’information
Ex: 125, 178, 169, 123, 95, 128, 142, 147, 112, 165, 105
• Une série
• Ensemble d’informations
• Tableau de distribution des fréquences
© F. Mauny - UFR SMP – Université de Franche-Comté
F. Mauny - UFR SMP - université de
Franche-Comté 5
Tableaux de distribution des fréquences
• QUALITATIF, mise en forme immédiate – ni fréquence absolue, fi=ni/n fréquence relative– Ex: 120 sujets buveurs excessifs, statut marital
9© F. Mauny - UFR SMP – Université de Franche-Comté
Statut marital ni fi
Célibataire 30 0,25
Pacs 18 0,15
Marié 24 0,20
Divorcé 36 0,30
Veuf 12 0,10
• QUANTITATIF, transformation des données• Répartitions en classes (nombre, amplitude)
– Ex : 800 patients vus en consultation
10© F. Mauny - UFR SMP – Université de Franche-Comté
Age (années) ni fi
15 - 24 246 0,31
25 - 34 272 0,34
35 - 44 157 0,19
45 - 54 85 0,11
55 - 64 40 0,05
Tableaux de distribution des fréquences
F. Mauny - UFR SMP - université de
Franche-Comté 6
• Introduction
• Indices
– Indices de position• Mode, médiane, moyenne
– Indices de dispersion• Etendue, quantiles, variance, écart-type
• Graphiques
11© F. Mauny - UFR SMP – Université de Franche-Comté
Plan du cours
12© F. Mauny - UFR SMP – Université de Franche-Comté
Indices de position
F. Mauny - UFR SMP - université de
Franche-Comté 7
• Définition – la valeur de la série la plus fréquemment
rencontrée
• Détermination
– Identification de toutes les valeurs distinctes et comptage
• Unité
– identique à celle de la série
13© F. Mauny - UFR SMP – Université de Franche-Comté
Indices de position le mode
Indices de position le mode
• Ex : 10 femmes, consultation pour infertilité
14© F. Mauny - UFR SMP – Université de Franche-Comté
Sujet 1 2 3 4 5 6 7 8 9 10
xi 37 29 31 39 38 35 34 33 35 32
Age (année) ni
xi=29 1
xi=31 1
Xi=32 1
xi=33 1
xi=34 1
xi=35 2
xi=37 1
Xi=38 1
xi=39 1
F. Mauny - UFR SMP - université de
Franche-Comté 8
Indices de position la médiane
• Définition
– la série étant ordonnée par ordre croissant, valeur seuil qui partage la série en deux groupes de même effectif
• Détermination
– numérique ou graphique
– la série doit être ordonnée– n impair (n=2p+1)
• valeur centrale
– n pair (n=2p)15© F. Mauny - UFR SMP – Université de Franche-Comté
12 xax ×=
2
)( 1++= pp xx
mediane
1+= pxmediane
Indices de position la médiane
• Unité
– identique à celle de la série
16© F. Mauny - UFR SMP – Université de Franche-Comté
12 xax ×=
F. Mauny - UFR SMP - université de
Franche-Comté 9
• Ex : infertilité, série ordonnée
• 5eme valeur x5e= 34 & la 6eme x6e =35
• médiane=(34+35)/2=34,5 ans
17© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Sujet 2 3 10 8 7 6 9 1 5 4
xi 29 31 32 33 34 35 35 37 38 39
Indices de position la médiane
Indices de position la moyenne
• Notation – µ lorsque l’on considère la population– m ou lorsque l’on considère un échantillon
• Définition – Somme de toutes les valeurs divisée par le
nombre de valeurs (effectif)
• Calcul
18© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
n
xx i∑=
N
X i∑=µ
x
F. Mauny - UFR SMP - université de
Franche-Comté 10
Indices de position la moyenne
• Unité
– identique à celle de la série
19© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Simplifications du calcul
• Si les données en classes d’effectif ni
• Si alors
• Si alors
20© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de position la moyenne
∑∑ == iiii
xfn
xnx
12 xax ×= 12 xax ×=
axx += 12 axx += 12
F. Mauny - UFR SMP - université de
Franche-Comté 11
• Ex : infertilité
Σx=37+29+31+39+38+35+34+33+35+32
Σx=343
21© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
3,3410
343==Σ=n
xx i ans
Sujet 1 2 3 4 5 6 7 8 9 10
xi 37 29 31 39 38 35 34 33 35 32
Indices de position la moyenne
• Si erreur de saisie
Σx=37+29+31+39+38+35+34+33+35+12
Σx=323
22© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
3,3210
323 ==Σ=n
xx i ans
Sujet 1 2 3 4 5 6 7 8 9 10
xi 37 29 31 39 38 35 34 33 35 1212
Indices de position la moyenne
F. Mauny - UFR SMP - université de
Franche-Comté 12
23© F. Mauny - UFR SMP – Université de Franche-Comté
Indices de dispersion
Indices de dispersion l’étendue
• Valeurs minimale et maximale– Les valeurs la plus faible (ou petite) et la valeur
la plus élevée (ou grande) de la série
Ex : infertilité xmin=29 ans & xmax=39 ans• Etendue
– L’écart entre la plus petite et la plus grande valeur de la série : étendue= xmax – xmin
Ex : infertilitéétendue=39-29=10 ans
24© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
F. Mauny - UFR SMP - université de
Franche-Comté 13
Indices de dispersion les quantiles
25© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
• Définition
– Sur la série ordonnée, valeur seuil qui partage la série en deux groupes, une proportion p des données en dessous et une proportion 1-p au dessus de cette valeur
• Détermination
– numérique ou graphique
– la série doit être ordonnée
• Unité
– identique à celle de la série
Indices de dispersion les quantiles
26© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
• Quartiles : 3 valeurs seuil– Q1 (p=0,25 ou 25%), Q2 (50%) et Q3 (75%)– Q2= ?
• Déciles : 9 valeurs seuil– D1 (p=0,10 ou 10%), D2 (20%)… et D9 (90%)
• Percentiles– P1 (p=0,01 ou 1%), P2 (2%)… et P99 (99%)
F. Mauny - UFR SMP - université de
Franche-Comté 14
Indices de dispersion la variance
• Notation
– σ² lorsque l’on considère la population
– s² lorsque l’on considère un échantillon
• Principe
– Quantifier l’écart entre la valeur moyenne et les différentes valeurs de la série
– Pour tout i, soit l’écart ei
– Sur la série, sommation des écarts Σei,
mais
27© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
xxe ii −=
∑∑ =−= 0)( xxe ii
• Définition – L’écart au carré moyen…
• Calcul :
– Somme des carrés des écarts à la moyenne
– Rapportée à l’effectif– Soit échantillon population
28© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de dispersion la variance
∑∑ −= )²(² xxe ii
N
ei∑=²
²σ1
²²
−= ∑
n
es i
F. Mauny - UFR SMP - université de
Franche-Comté 15
• Unité
– Carré de l’unité de la série – Ex : variance de l’âge (en année) →annees²
• Simplifications du calcul
– Soit échantillon population
29© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de dispersion la variance
( )n
xxxxe i
iii
2
²)²(² ∑∑∑∑ −=−=
( )
1
²²
2
−
−=
∑∑n
n
xx
s
ii
( )
NN
XX i
i
2
²²
∑∑ −=σ
Les données en classes, d’effectif ni
• Echantillon
• Population
30© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de dispersion la variance
( )
−
−= ∑∑ n
xnxn
ns ii
ii
2
2
1
1²
( )
−= ∑∑ N
XNXN
Nii
ii
2
21²σ
F. Mauny - UFR SMP - université de
Franche-Comté 16
Données transformées
• Si alors
• Si alors
31© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de dispersion la variance
12 xax ×=
axx += 12
²²² 12 sas ×=
²² 12 ss =
• Ex : infertilité
32© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de dispersion la variance
Sujet 1 2 3 4 5 6 7 8 9 10 Σ
xi 37 29 31 39 38 35 34 33 35 32 343
2,7 -5,3 -3,3 4,7 3,7 0,7 -0,3 -1,3 0,7 -2,3
7,29 28,09 10,89 22,09 13,69 0,49 0,09 1,69 0,49 5,29 90,1
xxi −)²( xxi −
1,90)²( =−∑ xxi
Σxi²=1369+841+961+1521+1444+1225+1156+1089+1225+1024=11 855
( )1,90
10
)²343(11855²
2
=−=− ∑∑ n
xx i
i
F. Mauny - UFR SMP - université de
Franche-Comté 17
• Ex : infertilité
n=10
33© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de dispersion la variance
01,109
1,90
1
²² ==
−= ∑
n
es i
1,90² =∑e
ans²
• Notation
– population : – échantillon :
• Calcul
– racine carrée de la variance
• Unité
– même unité que celle de la série
• Ex : infertilité
34© F. Mauny - UFR SMP – Université de Franche-Comté
n
xx i∑=
n
xx i∑=
n
xx i∑=
Indices de dispersion l’écart-type
σs
16,301,109
1,90
1
²===
−= ∑
n
es i ans
F. Mauny - UFR SMP - université de
Franche-Comté 18
Plan du cours
• Introduction
• Indices
• Graphiques
– caractère qualitatif– caractère quantitatif
35© F. Mauny - UFR SMP – Université de Franche-Comté
36© F. Mauny - UFR SMP – Université de Franche-Comté
Graphiques
Caractère qualitatif
F. Mauny - UFR SMP - université de
Franche-Comté 19
Graphiques C. qualitatif
Diagramme en bâtonsDéfinition
– A partir de la table de répartition, pour chaque classe i, on détermine l’effectif ni et la fréquence relative fi
– La hauteur des bâtons représente l’effectif ni (ou fi) de chaque modalité du caractère
– Les figurés sont disjoints : pas de continuité entre les classes
37© F. Mauny - UFR SMP – Université de Franche-Comté
38
Nombre d’enfants ni fi
1 56 0,24
2 78 0,33
3 52 0,22
4 28 0,12
5 18 0,08
6 et plus 2 0,01
EX : 234 femmes, dépistage avec mammographie +
Nombre d’enfants
Fré
quen
ce r
elat
ive
6 et plus
Graphiques C. qualitatif
© F. Mauny - UFR SMP – Université de Franche-Comté
F. Mauny - UFR SMP - université de
Franche-Comté 20
Graphiques C. qualitatif
Diagramme en secteursPrincipe
– A partir de la table de répartition, pour chaque classe i, on détermine la fréquence relative fi
– L’aire de chaque secteur est proportionnelle à la fréquence relative fi
– Soit l’ens. de la série = 360°angleclasse i= 360 * ni/n = 360 * fi
– Figurés sont joints, la totalité du disque ↔ l’ensemble des classes observées
Σfi=139© F. Mauny - UFR SMP – Université de Franche-Comté
© F. Mauny - UFR SMP – Université de Franche-Comté 40
Graphiques C. qualitatif
Ex : 120 buveurs excessifsStatut marital ni fi
Célibataire 30 0,25
Pacs 18 0,15
Marié 24 0,20
Divorcé 36 0,30
Veuf 12 0,10
F. Mauny - UFR SMP - université de
Franche-Comté 21
41© F. Mauny - UFR SMP – Université de Franche-Comté
Graphiques
Caractère quantitatif
Diagramme en bâtons• Définition
– Cf. caractère qualitatif
• Ex : 117 femmes, cancer du sein
42© F. Mauny - UFR SMP – Université de Franche-Comté
Nombre d’enfants ni fi
1 28 0,24
2 39 0,33
3 26 0,22
4 14 0,12
5 9 0,08
6 1 0,01
Graphiques C. quantitatif discret
F. Mauny - UFR SMP - université de
Franche-Comté 22
Graphiques C. quantitatif discret
• Ex : 117 femmes, cancer du sein
43© F. Mauny - UFR SMP – Université de Franche-Comté
Nombre d’enfants
Fré
quen
ce r
elat
ive
Nombre d’enfants ni fi
1 28 0,24
2 39 0,33
3 26 0,22
4 14 0,12
5 9 0,08
6 6 1 0,01
Graphiques C. quantitatif continu
HistogrammePrincipe
– découper une distribution continue en intervalles contigus sans chevauchement et généralement d’étendues égales → classes.
44© F. Mauny - UFR SMP – Université de Franche-Comté
Valeurs observées du caractère
xmin xmaxI I I I I I I I I
Amplitude = a
F. Mauny - UFR SMP - université de
Franche-Comté 23
Graphiques C. quantitatif
Construction– Amplitude a= étendue / nb de classes– [xmin; xmin+a[, [xmin+a; xmin+2a[ …– A chaque classe sont allouées les valeurs de la
série comprises dans l’intervalle [borne.inf;borne.sup[ – La hauteur du rectangle est proportionnelle à la
fréquence relative fi=ni/n ou à l’effectif ni si si l’amplitude des classes est constante
– Par sommation successive des fi, on calcule la fréquence relative cumulée Fi
45© F. Mauny - UFR SMP – Université de Franche-Comté
Indices de position & distribution
46© F. Mauny - UFR SMP – Université de Franche-Comté
mode < médiane < moyenne
moyenne < médiane < mode mode ≈ médiane ≈ moyenne
F. Mauny - UFR SMP - université de
Franche-Comté 24
Exemple
Etude en population générale à Antananarivo (Madagascar) portant sur 773 sujets adultes
Caractères recueillis : âge en années, sexe, poids, taille, indice de masse corporelle (poids/taille²), tension artérielle (TA) systolique et la TA diastolique, nombre d’habitants du foyer…
47© F. Mauny - UFR SMP – Université de Franche-Comté
Exemple
Nature des données ( QL, QNT…)
- Age (en années)
- Sexe
- Nombre d’habitants du foyer
- TA systolique (en mm Hg)
- Indice de masse corporelle, IMC (en kg/m²)
- IMC (<20, [20-25[, [25-30[, 30 et +)
48© F. Mauny - UFR SMP – Université de Franche-Comté
F. Mauny - UFR SMP - université de
Franche-Comté 25
Exemple
Nature des données ( QL, QNT…)
49© F. Mauny - UFR SMP – Université de Franche-Comté
Age (en années) QNT discr.
Sexe QLT nom.
Nombre d’habitants du foyer QNT discr.
TA systolique (en mm Hg) QNT cont.
Indice de masse corporelle (en kg/m²) QNT cont.
IMC (<20, [20-25[, [25-30[, 30 et +) QLT ordin.
Classe de TA (mm Hg) Effectif90-99 18
100-109 93
110-119 198
120-129 218
130-139 131
140-149 56
150-159 25
160-169 16
170-179 5
180-189 8
190-199 3
200-209 1
210-219 1
Ex : tableau de distribution des fréquences
Identifier
• nombre de classes
• Pour chaque classe– bornes
– amplitude
– ni
– centre de la classe
– fi
– Fi
© F. Mauny - UFR SMP – Université de Franche-Comté
F. Mauny - UFR SMP - université de
Franche-Comté 26
Classe de TA (mm Hg) ni Centre C
ifi
Fi
[90-100[ 18 95 0,0232859 0,0232859
[ 100-110[ 93 105 0,12031048 0,14359638
[ 110-120[ 198 115 0,25614489 0,39974127
[ 120-130[ 218 125 0,28201811 0,68175938
[ 130-140[ 131 135 0,1694696 0,85122898
[ 140-150[ 56 145 0,07244502 0,923674
[ 150-160[ 25 155 0,03234153 0,95601552
[ 160-170[ 16 165 0,02069858 0,9767141
[ 170-180[ 5 175 0,00646831 0,98318241
[ 180-190[ 8 185 0,01034929 0,99353169
[ 190-200[ 3 195 0,00388098 0,99741268
[ 200-210[ 1 205 0,00129366 0,99870634
[ 210-220[ 1 215 0,00129366 1
Ex : tableau de distribution des fréquences
© F. Mauny - UFR SMP – Université de Franche-Comté
Classe de TA (mm Hg) Effectif90-99 18
100-109 93
110-119 198
120-129 218
130-139 131
140-149 56
150-159 25
160-169 16
170-179 5
180-189 8
190-199 3
200-209 1
210-219 1
Ex : tableau de distribution des fréquences
Déterminer
• mode, moyenne
• Q1, médiane et Q3
• Variance et écart-type
Classe modale [120-130[
Centre de la classe =
125 mm Hg
© F. Mauny - UFR SMP – Université de Franche-Comté
F. Mauny - UFR SMP - université de
Franche-Comté 27
Classe de TA (mm Hg) ni Centre C
in
i * C
ini * C
i²
[90-100[ 18 95 1710 162450
[ 100-110[ 93 105 9765 1025325
[ 110-120[ 198 115 22770 2618550
[ 120-130[ 218 125 27250 3406250
[ 130-140[ 131 135 17685 2387475
[ 140-150[ 56 145 8120 1177400
[ 150-160[ 25 155 3875 600625
[ 160-170[ 16 165 2640 435600
[ 170-180[ 5 175 875 153125
[ 180-190[ 8 185 1480 273800
[ 190-200[ 3 195 585 114075
[ 200-210[ 1 205 205 42025
[ 210-220[ 1 215 215 46225
Calcul des Σnixi et Σnixi²
© F. Mauny - UFR SMP – Université de Franche-Comté
Exemple
Somme des 773 valeurs
o Σnixi= ΣniCi=97 175
o Σnixi²= ΣniCi²=12 442 925
• mm Hg•• mm Hg
54© F. Mauny - UFR SMP – Université de Franche-Comté
71,12577397175 ==x92,293)773)²97175(12442925(7721² =−×=s
14,1792,293 ==s
F. Mauny - UFR SMP - université de
Franche-Comté 28
Histogramme et polygone des
fréquences relatives cumulées
TA systolique en mm HG
0
50
100
150
200
250
90-9
9
100-
109
110-
119
120-
129
130-
139
140-
149
150-
159
160-
169
170-
179
180-
189
190-
199
200-
209
210-
219
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
Effe
ctifs
Fréquence relative cum
ulée
Q1 =114 mm Hg
Q3 =132 mm Hg
médiane =124 mm Hg
© F. Mauny - UFR SMP – Université de Franche-Comté
Conclusion
Description :
première étape de l’approche statistique
• Evaluer l’ordre de grandeur et la variabilité des caractères étudiés
• Contrôler la qualité des informations
• Synthétiser et présenter les données
• Orienter la démarche de l’analyse
Etape décisive
56© F. Mauny - UFR SMP – Université de Franche-Comté