28
F. Mauny - UFR SMP - université de Franche-Comté 1 Statistique descriptive Evaluation des méthodes d’analyse appliquées aux sciences de la vie et de la santé Frédéric Mauny - 27 & 28 septembre 2012 Représentation des données : tableaux, graphiques et indices 1 © F. Mauny - UFR SMP – Université de Franche-Comté UE 4 Plan du cours Introduction Statistique descriptive Nature des caractères étudiés Principe de notation Présentation de l’information Indices Graphiques 2 © F. Mauny - UFR SMP – Université de Franche-Comté

Plan du cours - Université de Franche-Comtémedecine-pharmacie.univ-fcomte.fr/download/ufr-smp/document/co… · • Percentiles – P1 (p=0,01 ou 1%), P2 (2%)… et P99 (99%) F

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

F. Mauny - UFR SMP - université de

Franche-Comté 1

Statistique descriptive

Evaluation des méthodes d’analyse appliquées aux sciences de la vie et de la santé

Frédéric Mauny - 27 & 28 septembre 2012

Représentation des données :tableaux, graphiques et indices

1© F. Mauny - UFR SMP – Université de Franche-Comté

UE 4

Plan du cours

• Introduction

– Statistique descriptive– Nature des caractères étudiés– Principe de notation– Présentation de l’information

• Indices

• Graphiques

2© F. Mauny - UFR SMP – Université de Franche-Comté

F. Mauny - UFR SMP - université de

Franche-Comté 2

Statistique descriptive

• Première étape du travail statistique. L'observation ou l'expérience fournissent des donnéesdonnées, caractères ou valeurs numériques

• L'ensemble des résultats obtenus constitue une série statistiquesérie statistique

Ex: 125, 178, 169, 123, 95, 128, 142, 147, 112, 165, 105

3© F. Mauny - UFR SMP – Université de Franche-Comté

• Classer les résultats obtenus, les présenter sous une forme condensée fidèleune forme condensée fidèle, plus facile à manipuler (tableaux de bord, graphiques) pour en obtenir une vision globale

• Utiliser des indices pour décrire la positionposition et la dispersiodispersion de la série statistique

• Permettre les comparaisonscomparaisons

• Dépend de la nature de l’information: caractère qualitatifqualitatif ou quantitatifquantitatif

4© F. Mauny - UFR SMP – Université de Franche-Comté

Statistique descriptive

F. Mauny - UFR SMP - université de

Franche-Comté 3

Nature des données

• Qualitative

– Ordinale : bandelettes U (0,+,++,+++)– Nominale : sexe, couleur yeux, statut marital

• Quantitative

– Discrète: le nombre d’enfants, le nombre d’ovocytes

– continue : le poids, la taille, l’indice de masse corporelle, la TA

• Date

5© F. Mauny - UFR SMP – Université de Franche-Comté

Dépend de la façon de traiter l’information

• Ex : temps de gestation humaine, en nb de semaines d’aménorrhée, mais…

• Ex : La tension artérielle (TA)Valeur mesurée ou statut hypertendu (oui/non)

6© F. Mauny - UFR SMP – Université de Franche-Comté

avant 33 SA entre 33 et 37 SA 37 SA et +

grand et TG prématuré

prématuré Non prématuré

Nature des données

F. Mauny - UFR SMP - université de

Franche-Comté 4

Convention de notation

• N taille de la population, n taille de l’échantillon observé

• X et Y caractères définis dans la population

• x et y caractères définis dans l’échantillon

• xi et yi valeurs observées chez le sujet i

7© F. Mauny - UFR SMP – Université de Franche-Comté

8

Présentation de l’information

Ex: 125, 178, 169, 123, 95, 128, 142, 147, 112, 165, 105

• Une série

• Ensemble d’informations

• Tableau de distribution des fréquences

© F. Mauny - UFR SMP – Université de Franche-Comté

F. Mauny - UFR SMP - université de

Franche-Comté 5

Tableaux de distribution des fréquences

• QUALITATIF, mise en forme immédiate – ni fréquence absolue, fi=ni/n fréquence relative– Ex: 120 sujets buveurs excessifs, statut marital

9© F. Mauny - UFR SMP – Université de Franche-Comté

Statut marital ni fi

Célibataire 30 0,25

Pacs 18 0,15

Marié 24 0,20

Divorcé 36 0,30

Veuf 12 0,10

• QUANTITATIF, transformation des données• Répartitions en classes (nombre, amplitude)

– Ex : 800 patients vus en consultation

10© F. Mauny - UFR SMP – Université de Franche-Comté

Age (années) ni fi

15 - 24 246 0,31

25 - 34 272 0,34

35 - 44 157 0,19

45 - 54 85 0,11

55 - 64 40 0,05

Tableaux de distribution des fréquences

F. Mauny - UFR SMP - université de

Franche-Comté 6

• Introduction

• Indices

– Indices de position• Mode, médiane, moyenne

– Indices de dispersion• Etendue, quantiles, variance, écart-type

• Graphiques

11© F. Mauny - UFR SMP – Université de Franche-Comté

Plan du cours

12© F. Mauny - UFR SMP – Université de Franche-Comté

Indices de position

F. Mauny - UFR SMP - université de

Franche-Comté 7

• Définition – la valeur de la série la plus fréquemment

rencontrée

• Détermination

– Identification de toutes les valeurs distinctes et comptage

• Unité

– identique à celle de la série

13© F. Mauny - UFR SMP – Université de Franche-Comté

Indices de position le mode

Indices de position le mode

• Ex : 10 femmes, consultation pour infertilité

14© F. Mauny - UFR SMP – Université de Franche-Comté

Sujet 1 2 3 4 5 6 7 8 9 10

xi 37 29 31 39 38 35 34 33 35 32

Age (année) ni

xi=29 1

xi=31 1

Xi=32 1

xi=33 1

xi=34 1

xi=35 2

xi=37 1

Xi=38 1

xi=39 1

F. Mauny - UFR SMP - université de

Franche-Comté 8

Indices de position la médiane

• Définition

– la série étant ordonnée par ordre croissant, valeur seuil qui partage la série en deux groupes de même effectif

• Détermination

– numérique ou graphique

– la série doit être ordonnée– n impair (n=2p+1)

• valeur centrale

– n pair (n=2p)15© F. Mauny - UFR SMP – Université de Franche-Comté

12 xax ×=

2

)( 1++= pp xx

mediane

1+= pxmediane

Indices de position la médiane

• Unité

– identique à celle de la série

16© F. Mauny - UFR SMP – Université de Franche-Comté

12 xax ×=

F. Mauny - UFR SMP - université de

Franche-Comté 9

• Ex : infertilité, série ordonnée

• 5eme valeur x5e= 34 & la 6eme x6e =35

• médiane=(34+35)/2=34,5 ans

17© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Sujet 2 3 10 8 7 6 9 1 5 4

xi 29 31 32 33 34 35 35 37 38 39

Indices de position la médiane

Indices de position la moyenne

• Notation – µ lorsque l’on considère la population– m ou lorsque l’on considère un échantillon

• Définition – Somme de toutes les valeurs divisée par le

nombre de valeurs (effectif)

• Calcul

18© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

n

xx i∑=

N

X i∑=µ

x

F. Mauny - UFR SMP - université de

Franche-Comté 10

Indices de position la moyenne

• Unité

– identique à celle de la série

19© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Simplifications du calcul

• Si les données en classes d’effectif ni

• Si alors

• Si alors

20© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de position la moyenne

∑∑ == iiii

xfn

xnx

12 xax ×= 12 xax ×=

axx += 12 axx += 12

F. Mauny - UFR SMP - université de

Franche-Comté 11

• Ex : infertilité

Σx=37+29+31+39+38+35+34+33+35+32

Σx=343

21© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

3,3410

343==Σ=n

xx i ans

Sujet 1 2 3 4 5 6 7 8 9 10

xi 37 29 31 39 38 35 34 33 35 32

Indices de position la moyenne

• Si erreur de saisie

Σx=37+29+31+39+38+35+34+33+35+12

Σx=323

22© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

3,3210

323 ==Σ=n

xx i ans

Sujet 1 2 3 4 5 6 7 8 9 10

xi 37 29 31 39 38 35 34 33 35 1212

Indices de position la moyenne

F. Mauny - UFR SMP - université de

Franche-Comté 12

23© F. Mauny - UFR SMP – Université de Franche-Comté

Indices de dispersion

Indices de dispersion l’étendue

• Valeurs minimale et maximale– Les valeurs la plus faible (ou petite) et la valeur

la plus élevée (ou grande) de la série

Ex : infertilité xmin=29 ans & xmax=39 ans• Etendue

– L’écart entre la plus petite et la plus grande valeur de la série : étendue= xmax – xmin

Ex : infertilitéétendue=39-29=10 ans

24© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

F. Mauny - UFR SMP - université de

Franche-Comté 13

Indices de dispersion les quantiles

25© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

• Définition

– Sur la série ordonnée, valeur seuil qui partage la série en deux groupes, une proportion p des données en dessous et une proportion 1-p au dessus de cette valeur

• Détermination

– numérique ou graphique

– la série doit être ordonnée

• Unité

– identique à celle de la série

Indices de dispersion les quantiles

26© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

• Quartiles : 3 valeurs seuil– Q1 (p=0,25 ou 25%), Q2 (50%) et Q3 (75%)– Q2= ?

• Déciles : 9 valeurs seuil– D1 (p=0,10 ou 10%), D2 (20%)… et D9 (90%)

• Percentiles– P1 (p=0,01 ou 1%), P2 (2%)… et P99 (99%)

F. Mauny - UFR SMP - université de

Franche-Comté 14

Indices de dispersion la variance

• Notation

– σ² lorsque l’on considère la population

– s² lorsque l’on considère un échantillon

• Principe

– Quantifier l’écart entre la valeur moyenne et les différentes valeurs de la série

– Pour tout i, soit l’écart ei

– Sur la série, sommation des écarts Σei,

mais

27© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

xxe ii −=

∑∑ =−= 0)( xxe ii

• Définition – L’écart au carré moyen…

• Calcul :

– Somme des carrés des écarts à la moyenne

– Rapportée à l’effectif– Soit échantillon population

28© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de dispersion la variance

∑∑ −= )²(² xxe ii

N

ei∑=²

²σ1

²²

−= ∑

n

es i

F. Mauny - UFR SMP - université de

Franche-Comté 15

• Unité

– Carré de l’unité de la série – Ex : variance de l’âge (en année) →annees²

• Simplifications du calcul

– Soit échantillon population

29© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de dispersion la variance

( )n

xxxxe i

iii

2

²)²(² ∑∑∑∑ −=−=

( )

1

²²

2

−=

∑∑n

n

xx

s

ii

( )

NN

XX i

i

2

²²

∑∑ −=σ

Les données en classes, d’effectif ni

• Echantillon

• Population

30© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de dispersion la variance

( )

−= ∑∑ n

xnxn

ns ii

ii

2

2

1

( )

−= ∑∑ N

XNXN

Nii

ii

2

21²σ

F. Mauny - UFR SMP - université de

Franche-Comté 16

Données transformées

• Si alors

• Si alors

31© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de dispersion la variance

12 xax ×=

axx += 12

²²² 12 sas ×=

²² 12 ss =

• Ex : infertilité

32© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de dispersion la variance

Sujet 1 2 3 4 5 6 7 8 9 10 Σ

xi 37 29 31 39 38 35 34 33 35 32 343

2,7 -5,3 -3,3 4,7 3,7 0,7 -0,3 -1,3 0,7 -2,3

7,29 28,09 10,89 22,09 13,69 0,49 0,09 1,69 0,49 5,29 90,1

xxi −)²( xxi −

1,90)²( =−∑ xxi

Σxi²=1369+841+961+1521+1444+1225+1156+1089+1225+1024=11 855

( )1,90

10

)²343(11855²

2

=−=− ∑∑ n

xx i

i

F. Mauny - UFR SMP - université de

Franche-Comté 17

• Ex : infertilité

n=10

33© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de dispersion la variance

01,109

1,90

1

²² ==

−= ∑

n

es i

1,90² =∑e

ans²

• Notation

– population : – échantillon :

• Calcul

– racine carrée de la variance

• Unité

– même unité que celle de la série

• Ex : infertilité

34© F. Mauny - UFR SMP – Université de Franche-Comté

n

xx i∑=

n

xx i∑=

n

xx i∑=

Indices de dispersion l’écart-type

σs

16,301,109

1,90

1

²===

−= ∑

n

es i ans

F. Mauny - UFR SMP - université de

Franche-Comté 18

Plan du cours

• Introduction

• Indices

• Graphiques

– caractère qualitatif– caractère quantitatif

35© F. Mauny - UFR SMP – Université de Franche-Comté

36© F. Mauny - UFR SMP – Université de Franche-Comté

Graphiques

Caractère qualitatif

F. Mauny - UFR SMP - université de

Franche-Comté 19

Graphiques C. qualitatif

Diagramme en bâtonsDéfinition

– A partir de la table de répartition, pour chaque classe i, on détermine l’effectif ni et la fréquence relative fi

– La hauteur des bâtons représente l’effectif ni (ou fi) de chaque modalité du caractère

– Les figurés sont disjoints : pas de continuité entre les classes

37© F. Mauny - UFR SMP – Université de Franche-Comté

38

Nombre d’enfants ni fi

1 56 0,24

2 78 0,33

3 52 0,22

4 28 0,12

5 18 0,08

6 et plus 2 0,01

EX : 234 femmes, dépistage avec mammographie +

Nombre d’enfants

Fré

quen

ce r

elat

ive

6 et plus

Graphiques C. qualitatif

© F. Mauny - UFR SMP – Université de Franche-Comté

F. Mauny - UFR SMP - université de

Franche-Comté 20

Graphiques C. qualitatif

Diagramme en secteursPrincipe

– A partir de la table de répartition, pour chaque classe i, on détermine la fréquence relative fi

– L’aire de chaque secteur est proportionnelle à la fréquence relative fi

– Soit l’ens. de la série = 360°angleclasse i= 360 * ni/n = 360 * fi

– Figurés sont joints, la totalité du disque ↔ l’ensemble des classes observées

Σfi=139© F. Mauny - UFR SMP – Université de Franche-Comté

© F. Mauny - UFR SMP – Université de Franche-Comté 40

Graphiques C. qualitatif

Ex : 120 buveurs excessifsStatut marital ni fi

Célibataire 30 0,25

Pacs 18 0,15

Marié 24 0,20

Divorcé 36 0,30

Veuf 12 0,10

F. Mauny - UFR SMP - université de

Franche-Comté 21

41© F. Mauny - UFR SMP – Université de Franche-Comté

Graphiques

Caractère quantitatif

Diagramme en bâtons• Définition

– Cf. caractère qualitatif

• Ex : 117 femmes, cancer du sein

42© F. Mauny - UFR SMP – Université de Franche-Comté

Nombre d’enfants ni fi

1 28 0,24

2 39 0,33

3 26 0,22

4 14 0,12

5 9 0,08

6 1 0,01

Graphiques C. quantitatif discret

F. Mauny - UFR SMP - université de

Franche-Comté 22

Graphiques C. quantitatif discret

• Ex : 117 femmes, cancer du sein

43© F. Mauny - UFR SMP – Université de Franche-Comté

Nombre d’enfants

Fré

quen

ce r

elat

ive

Nombre d’enfants ni fi

1 28 0,24

2 39 0,33

3 26 0,22

4 14 0,12

5 9 0,08

6 6 1 0,01

Graphiques C. quantitatif continu

HistogrammePrincipe

– découper une distribution continue en intervalles contigus sans chevauchement et généralement d’étendues égales → classes.

44© F. Mauny - UFR SMP – Université de Franche-Comté

Valeurs observées du caractère

xmin xmaxI I I I I I I I I

Amplitude = a

F. Mauny - UFR SMP - université de

Franche-Comté 23

Graphiques C. quantitatif

Construction– Amplitude a= étendue / nb de classes– [xmin; xmin+a[, [xmin+a; xmin+2a[ …– A chaque classe sont allouées les valeurs de la

série comprises dans l’intervalle [borne.inf;borne.sup[ – La hauteur du rectangle est proportionnelle à la

fréquence relative fi=ni/n ou à l’effectif ni si si l’amplitude des classes est constante

– Par sommation successive des fi, on calcule la fréquence relative cumulée Fi

45© F. Mauny - UFR SMP – Université de Franche-Comté

Indices de position & distribution

46© F. Mauny - UFR SMP – Université de Franche-Comté

mode < médiane < moyenne

moyenne < médiane < mode mode ≈ médiane ≈ moyenne

F. Mauny - UFR SMP - université de

Franche-Comté 24

Exemple

Etude en population générale à Antananarivo (Madagascar) portant sur 773 sujets adultes

Caractères recueillis : âge en années, sexe, poids, taille, indice de masse corporelle (poids/taille²), tension artérielle (TA) systolique et la TA diastolique, nombre d’habitants du foyer…

47© F. Mauny - UFR SMP – Université de Franche-Comté

Exemple

Nature des données ( QL, QNT…)

- Age (en années)

- Sexe

- Nombre d’habitants du foyer

- TA systolique (en mm Hg)

- Indice de masse corporelle, IMC (en kg/m²)

- IMC (<20, [20-25[, [25-30[, 30 et +)

48© F. Mauny - UFR SMP – Université de Franche-Comté

F. Mauny - UFR SMP - université de

Franche-Comté 25

Exemple

Nature des données ( QL, QNT…)

49© F. Mauny - UFR SMP – Université de Franche-Comté

Age (en années) QNT discr.

Sexe QLT nom.

Nombre d’habitants du foyer QNT discr.

TA systolique (en mm Hg) QNT cont.

Indice de masse corporelle (en kg/m²) QNT cont.

IMC (<20, [20-25[, [25-30[, 30 et +) QLT ordin.

Classe de TA (mm Hg) Effectif90-99 18

100-109 93

110-119 198

120-129 218

130-139 131

140-149 56

150-159 25

160-169 16

170-179 5

180-189 8

190-199 3

200-209 1

210-219 1

Ex : tableau de distribution des fréquences

Identifier

• nombre de classes

• Pour chaque classe– bornes

– amplitude

– ni

– centre de la classe

– fi

– Fi

© F. Mauny - UFR SMP – Université de Franche-Comté

F. Mauny - UFR SMP - université de

Franche-Comté 26

Classe de TA (mm Hg) ni Centre C

ifi

Fi

[90-100[ 18 95 0,0232859 0,0232859

[ 100-110[ 93 105 0,12031048 0,14359638

[ 110-120[ 198 115 0,25614489 0,39974127

[ 120-130[ 218 125 0,28201811 0,68175938

[ 130-140[ 131 135 0,1694696 0,85122898

[ 140-150[ 56 145 0,07244502 0,923674

[ 150-160[ 25 155 0,03234153 0,95601552

[ 160-170[ 16 165 0,02069858 0,9767141

[ 170-180[ 5 175 0,00646831 0,98318241

[ 180-190[ 8 185 0,01034929 0,99353169

[ 190-200[ 3 195 0,00388098 0,99741268

[ 200-210[ 1 205 0,00129366 0,99870634

[ 210-220[ 1 215 0,00129366 1

Ex : tableau de distribution des fréquences

© F. Mauny - UFR SMP – Université de Franche-Comté

Classe de TA (mm Hg) Effectif90-99 18

100-109 93

110-119 198

120-129 218

130-139 131

140-149 56

150-159 25

160-169 16

170-179 5

180-189 8

190-199 3

200-209 1

210-219 1

Ex : tableau de distribution des fréquences

Déterminer

• mode, moyenne

• Q1, médiane et Q3

• Variance et écart-type

Classe modale [120-130[

Centre de la classe =

125 mm Hg

© F. Mauny - UFR SMP – Université de Franche-Comté

F. Mauny - UFR SMP - université de

Franche-Comté 27

Classe de TA (mm Hg) ni Centre C

in

i * C

ini * C

[90-100[ 18 95 1710 162450

[ 100-110[ 93 105 9765 1025325

[ 110-120[ 198 115 22770 2618550

[ 120-130[ 218 125 27250 3406250

[ 130-140[ 131 135 17685 2387475

[ 140-150[ 56 145 8120 1177400

[ 150-160[ 25 155 3875 600625

[ 160-170[ 16 165 2640 435600

[ 170-180[ 5 175 875 153125

[ 180-190[ 8 185 1480 273800

[ 190-200[ 3 195 585 114075

[ 200-210[ 1 205 205 42025

[ 210-220[ 1 215 215 46225

Calcul des Σnixi et Σnixi²

© F. Mauny - UFR SMP – Université de Franche-Comté

Exemple

Somme des 773 valeurs

o Σnixi= ΣniCi=97 175

o Σnixi²= ΣniCi²=12 442 925

• mm Hg•• mm Hg

54© F. Mauny - UFR SMP – Université de Franche-Comté

71,12577397175 ==x92,293)773)²97175(12442925(7721² =−×=s

14,1792,293 ==s

F. Mauny - UFR SMP - université de

Franche-Comté 28

Histogramme et polygone des

fréquences relatives cumulées

TA systolique en mm HG

0

50

100

150

200

250

90-9

9

100-

109

110-

119

120-

129

130-

139

140-

149

150-

159

160-

169

170-

179

180-

189

190-

199

200-

209

210-

219

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Effe

ctifs

Fréquence relative cum

ulée

Q1 =114 mm Hg

Q3 =132 mm Hg

médiane =124 mm Hg

© F. Mauny - UFR SMP – Université de Franche-Comté

Conclusion

Description :

première étape de l’approche statistique

• Evaluer l’ordre de grandeur et la variabilité des caractères étudiés

• Contrôler la qualité des informations

• Synthétiser et présenter les données

• Orienter la démarche de l’analyse

Etape décisive

56© F. Mauny - UFR SMP – Université de Franche-Comté