Introduction à La Statistique Www.etu-sup.com

  • Upload
    etu-sup

  • View
    222

  • Download
    1

Embed Size (px)

Citation preview

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    Manuel et exercices corrigs

    Introduction la mthode

    statistiqueBernard Goldfarb

    Catherine Pardoux

    6edition

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    Dunod, Paris, 2011

    ISBN 978-2-10-055892-6

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    TABLE DES MATIRES III

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Table des matiresAvant-propos IX

    1. Distributions statistiques un caractre 1

    I. Dfinitions 1

    A. Population, individu, chantillon 1B. Variables 2

    II. Reprsentations graphiques 3

    A. Distributions statistiqueset reprsentations graphiques 4B. Le diagramme branche et feuille 10

    III. Les indicateurs statistiques 13A. Conditions de Yule 13B. Les indicateurs de tendance centrale et de position 14C. Les indicateurs de dispersion 23D. Les caractristiques de forme 26E. Les caractristiques de dispersion relative 29

    IV. La bote de distribution 33

    A. Rsum dune distribution par des quantiles 33

    B. Reprsentation dune bote de distribution 34C. Interprtation dune bote de distribution 36

    V. Bilan 37

    Testez-vous 39

    Exercices 41

    2. Indices statistiques 47

    I. Indices lmentaires 47

    A. Dfinition 47B. Proprits 48

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    IV INTRODUCTION LA MTHODE STATISTIQUE

    II. Indices synthtiques 49

    A. Indices synthtiques de Laspeyres et Paasche :premires formules 50

    B. Formules dveloppes 51C. Comparaison des indices de Laspeyres et de Paasche 52D. Indice de Fisher 54E. Proprits des indices de Fisher, Laspeyres et Paasche 55F. Utilisation de ces trois indices 56

    III. Indices-chanes 56

    A. Raccord dindices 56B. Les indices-chanes 57

    C. Indices publis par lINSEE 58IV. Traitement statistique des indices 58

    A. chelle logarithmique 59B. Proprits dun graphique ordonne logarithmique 60

    V. Bilan 61

    Testez-vous 62

    Exercices 63

    3. Distributions statistiques deux caractres 67

    I. Distributions statistiques deux variables 67

    A. Distribution conjointe 67B. Distributions marginales 69C. Distributions conditionnelles 69D. Dpendance et indpendance statistique 71

    II. Deux variables quantitatives 72

    A. Caractristiques dun couplede deux variables quantitatives 73

    B. Ajustement linaire dun nuage de points 74C. Interprtation du coefficient de corrlation linaire 76D. Comparaison des deux droites des moindres carrs 81E. Le coefficient r et la qualit de lajustement linaire 82

    III. Une variable qualitative et une variable quantitative 86A. Mesure de la liaison par le rapport de corrlation 87B. Comparaison du coefficient de corrlation linaire

    et des rapports de corrlation 89

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    TABLE DES MATIRES V

    Dunod.Lapho

    tocopienonautoriseestundlit.

    IV. Deux variables qualitatives 90

    V. Bilan 92

    Testez-vous 94Exercices 97

    4. Sries chronologiques et prvision 103

    I. lments constitutifs dune srie chronologique 103A. La tendance long terme 103B. Le mouvement saisonnier 104

    C. Les irrgularits 104D. Les perturbations 104

    II. Les modles de composition dune srie chronologique 105

    III. Analyse de la tendance 108A. Ajustement de la tendance par une fonction analytique 108B. Dfinition dune moyenne mobile 109C. Dtermination de la tendance par la mthode

    des moyennes mobiles 110

    D. Inconvnients de la mthode des moyennes mobiles 112IV. Correction des variations saisonnires 113

    A. Modle additif 113B. Modle multiplicatif 114C. Autres approches 115

    V. Un exemple de dcomposition dune srie chronologique 115A. Schma additif 116

    B. Schma multiplicatif 118VI. Les mthodes de lissage exponentiel 120

    A. Le lissage exponentiel simple 120B. Le lissage exponentiel double 125

    Testez-vous 127Exercices 128

    5. Modle probabiliste et variable alatoire 131

    I. lments de calcul des probabilits 133A. Notion de probabilit 133B. Probabilits conditionnelles 136

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    VI INTRODUCTION LA MTHODE STATISTIQUE

    II. Variables alatoires une dimension 142

    A. Dfinitions 142B. Loi de probabilit dune variable alatoire 144

    C. Loi dune fonction de variable alatoire 149

    III. Couple de variables alatoires 151

    A. Fonction de rpartition dun couple alatoire 151B. Loi dun couple alatoire discret 151C. Loi dun couple de variables alatoires continues 154

    IV. Indicateurs des variables alatoires 155

    A. Mode 156B. Esprance mathmatique 156C. Variance 160D. Covariance de deux variables alatoires,

    coefficient de corrlation linaire 162E. Moment, fonction gnratrice des moments 163F. Indicateurs de forme 164G. Quantiles 165

    V. Convergence des variables alatoires relles 166

    Testez-vous 172

    Exercices 176

    6. Les principaux modles statistiques discrets 179

    I. Les modles lmentaires 181

    A. Le schma de Bernoulli 181

    B. La loi uniforme discrte 183

    II. Les schmas de Bernoulli itratifs 184

    A. Le schma binomial 185B. Le schma hypergomtrique 191C. La loi gomtrique et la loi de Pascal 193

    III. La loi de Poisson 198

    A. Dfinitions et proprits 199B. Abord statistique 203C. Abord probabiliste 203

    Exercices 207

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    TABLE DES MATIRES VII

    Dunod.Lapho

    tocopienonautoriseestundlit.

    7. Les principaux modles statistiques continus 211

    I. Modles continus simples 211

    A. La loi uniforme continue 211B. La loi exponentielle 214

    II. La loi normale ou loi de Laplace-Gauss 219

    A. La loi normale centre rduite 219B. La loi normale (m, ) 220C. Usage des tables 226D. Abord statistique de la loi normale 233E. Abord probabiliste de la loi normale 235

    F. Correction de continuit 239III. Les lois drives de la loi normale 240

    A. La loi du khi-deux 240B. La loi de Student 247C. La loi de Fisher-Snedecor 252

    IV. Quelques autres modles continus courants 256

    A. La loi log-normale 256

    B. La loi de Pareto 260C. La loi de Weibull 265D. La loi logistique 268

    V. Bilan 271

    Testez-vous 273

    Exercices 276

    Rponses aux questionnaires Testez-vous 283

    Corrigs des exercices 289

    Annexes 335

    I. Formulaire lmentaire de combinatoire 335

    A. Ensemble des parties dun ensemble 335B. Arrangements avec rptition 335

    C. Permutations 336D. Arrangements sans rptition 336E. Combinaisons sans rptition 337F. Coefficients multinomiaux 339

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    VIII INTRODUCTION LA MTHODE STATISTIQUE

    II. Principaux modles de probabilits : mthodes de calculs 339A. Loi binomiale 339B. Loi de Poisson 340

    C. Loi de Gauss centre rduite 340D. Loi du khi-deux 341E. Loi de Student 341F. Loi de Fisher-Snedecor 342

    III. Introduction la simulation des lois de probabilit 343A. La place des mthodes de simulation 343B. Les principes de la simulation sur tableur 343C. Simulation de lois discrtes 344

    D. Simulations de lois continues 344E. Quelques exemples et applications 346

    IV. Tables 351

    Bibliographie 361

    Lexique anglais/franais 363

    Lexique franais/anglais 367

    Index 371

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    AVANT-PROPOS IX

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Avant-proposTout le monde sait et dit que celui qui observe sans ide, observe en vain.lments de philosophie, Alain (1868 1951)

    Le recueil, le traitement et lanalyse de linformation sont au cur de tousles processus de gestion et de dcision. Les mthodes de description, de pr-

    vision et de dcision se sont considrablement enrichies et dveloppes, cequi place la statistique applique1au carrefour de lobservation et de la mod-lisation.

    Lutilisation des mthodes statistiques sest gnralise avec le dveloppe-ment et linterprtation de logiciels et progiciels (gnralistes ou spcialiss),assurant la gestion des donnes, les calculs, les reprsentations graphiques

    Plusieurs gnrations de logiciels statistiques 2se sont succd en modi-fiant considrablement, dabord, lanalyse des donnes statistiques et main-tenant, lenseignement de la statistique. Sous peine dtre noy, non plusdans les calculs mais dans les rsultats, lutilisateur doit disposer dides pr-cises sur les outils, leurs fonctions et leurs champs dapplication.

    Nous avons ainsi voulu guider les futurs consommateurs et utilisateursde donnes vers les descriptions statistiques majeures et les reprsentationscourantes des phnomnes rencontrs dans tous les domaines de lactivithumaine.

    La visualisation par tableaux et graphiques 3est une clef indispensablepour traiter et comprendre efficacement les multiples ensembles de donnes

    statistiques ; lusage gnralis qui en est fait pour tous les publics et par denombreux mdias confirme son importance.

    Dans cette sixime dition, nous avons maintenu toute notre attention surles visualisations, ainsi que sur la pratique et lutilisation du tableur Excel largement rpandu.

    1. laquelle les programmes, tant de lenseignement secondaire que de lenseignement sup-rieur, accordent une place de plus en plus importante.2. Sans compter les versions volues des langages de programmation scientifique qui mettentlapplication de traitements trs sophistiqus la porte du plus grand nombre.3. La reprsentation visuelle est remarquablement mise en valeur dans le trs bel ouvrage deEdward R. Tufte (1991) : The Visual Display of Quantitative Information , Graphics Press,Cheshire, Connecticut

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    X INTRODUCTION LA MTHODE STATISTIQUE

    La thorie reste volontairement limite pour donner toute son importance lapproche interprtative des donnes. Le lecteur, selon ses connaissancespralables et son intrt pour la formalisation, pourra en premire lecture pas-

    ser outre la prsentation de certains supports thoriques. Ce livre nest quuneintroduction la mthode statistique, et nous donnons quelques rfrencesdouvrages pour largir ides et connaissances.

    Dans cette sixime dition, nous avons remis jour, partir des recueilsles plus rcents, les donnes de nombreux exemples et des exercices (com-plts et enrichis). Nous avons galement inclus une trs brve introductionillustre la pratique et lusage de la simulation, outil de plus en plus incon-tournable dans des secteurs tels que la logistique, la stratgie, ou encorelanalyse financire

    Issu de nombreuses expriences denseignement en formation initialecomme en formation continue pour des tudiants en sciences conomiques,en sciences de gestion et en informatique de gestion, ce livre tient compte deleurs besoins et des dernires volutions. Nous pensons quil correspond bienaux exigences actuelles. Nous remercions par avance les lectrices et les lec-teurs qui voudront bien nous faire part de leurs remarques ou suggestions.

    Bernard GoldfarbCatherine Pardoux

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 1

    Dunod.Lapho

    tocopienonautoriseestundlit.

    1. D istributionsstatistiques un caractre

    Le savant doit ordonner ; on fait la science avec des faits

    comme une maison avec des pierres ;

    mais une accumulation de faits nest pas plus une science

    quun tas de pierres nest une maison.

    La Science et lhypothse,Henri Poincar (1854-1912)

    a statistique descriptive est un ensemble de mthodes permettantde dcrire, prsenter, rsumer des donnes souvent trs nom-

    breuses. Ces mthodes peuvent tre numriques (tris, laborationde tableaux, calcul de moyennes) et/ou mener des reprsentationsgraphiques.

    I. Dfinitions

    A. Population, individu, chantillonUnepopulationest lensemble des lments auxquels se rapportent les don-nestudies. En statistique, le terme population sapplique des ensem-bles de toute nature : tudiants dune acadmie, production dune usine,poissons dune rivire, entreprises dun secteur donn

    Des enqutes de lOffice statistique des communauts europennes don-nent la dure hebdomadaire moyenne du travail des salaris temps com-

    plet pour 15 pays membres. Les rsultats de ces enqutes ne donnent pasdinformation atomise un niveau plus bas que le pays ; la populationde rfrence nest donc pas ici lensemble (plusieurs millions) de tous lessalaris des 15 pays. Ltude de ces 15 observations concerne un ensemble

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    2 INTRODUCTION LA MTHODE STATISTIQUE

    de 15 units(statistiques), les 15 pays slectionns qui constituent la popu-lationde ltude.

    Dans une population donne, chaque lment est appel individu ou

    unit statistique .La collecte dinformations sur une population peut tre effectue sur la

    totalit des individus ; on parle alors denqutes exhaustives. Lorsque lataille de la population tudie est leve, de telles enqutes sont fort co-teuses ou impossibles, et le cas chant, leurs rsultats souvent trs longs rassembler peuvent tre dpasss avant mme la fin de lenqute. Cestla raison pour laquelle on a souvent recours aux enqutes par sondagequiportent sur une partie de la population appele chantillon.Les observa-tions obtenues sur une population ou sur un chantillon constituent un

    ensemble de donnes auxquelles sappliquent les mthodes de la statistiquedescriptive dont le but est de dcrire le plus compltement et le plus sim-plement lensemble des observations quelles soient relatives toute lapopulation ou seulement un sous-ensemble.

    B. VariablesChaque individu dune population peut tre dcrit selon une ou plusieurs

    variables qui peuvent tre des caractristiques qualitatives ou prendre desvaleurs numriques.

    Une variable est dite qualitativesi ses diffrentes ralisations (modalits)ne sont pas numriques. Ainsi : le sexe, la situation matrimoniale, la catgoriesocioprofessionnelle sont des variables qualitatives. On peut toujours rendrenumrique une telle variable en associant un nombre chaque modalit ; ondit alors que les modalits sont codes. Bien entendu, les valeurs numriquesnont dans ce cas aucune signification particulire, et effectuer des oprationsalgbriques sur ces valeurs numriques na pas de sens.

    Une variable est dite quantitativelorsquelle est intrinsquement numri-que : effectuer des oprations algbriques (addition, multiplication) sur unetelle variable a alors un sens. Une variable quantitative peut tre une variablestatistique discrte ou continue.

    Les variables statistiques discrtessont des variables qui ne peuvent pren-dre que des valeurs isoles, discrtes. Le nombre denfants dune famille, lenombre de ptales dune fleur, le nombre de buts marqus lors dune rencon-tre de football sont des variables quantitatives discrtes. Le plus frquem-

    ment, les valeurs possibles sont des nombres entiers.Les variables statistiques continues peuvent prendre toutes les valeurs

    numriques possibles dun ensemble inclus dans : le revenu, la taille, letaux de natalit sont des variables continues.

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 3

    Dunod.Lapho

    tocopienonautoriseestundlit.

    La distinction entre variables quantitatives discrtes et continues peutparatre factice, car toute mesure est discrte en raison dune prcision tou-jours limite ; et inversement, lorsquune variable discrte peut prendre un

    grand nombre de valeurs et que la taille de la population (ou de lchantillon)tudie est leve, on regroupera des valeurs voisines et la variable sera, parextension, traite comme une variable continue. En pratique, lorsque lesvaleurs dune variable sont regroupes en kclasses, la variable est traitecomme une variable quantitative continue, mais elle peut aussi tre envisagecomme une variable qualitative kmodalits.

    Les donnes dont on dispose sont les modalits ou valeurs prises parplusieurs variables qualitatives ou quantitatives sur les individus dunepopulation ou dun chantillon ; pour une population dentreprises, on peut

    disposer, par exemple, de donnes sur le chiffre daffaire, le bnfice net,le nombre demploys, la masse salariale annuelle, le secteur dactivitprincipale

    On peut, dans un premier temps, dcrire chaque variable sparment, puisensuite, tudier les relations ou liaisons existantes entre elles. Ainsi, dans celivre, nous envisagerons dabord les populations statistiques dcrites selonune seule variable, puis selon deux variables. Ltude des populations carac-trises par plus de deux variables nest pas aborde dans cet ouvrage.

    II. Reprsentations graphiques

    Deux mthodes de reprsentation des donnes vont tre exposes. On com-mencera par celles adaptes aux donnes nombreuses et/ou anonymes, cest--dire pour lesquelles lidentit des individus na pas t releve ou ne pr-sente pas dintrt tre conserve pour linterprtation. Ceci nest pas le caslorsque les individus sont peu nombreux (rgions, pays), o on dfinira unnouveau mode de reprsentation graphique d J.W. Tukey ( II.B.). Ltudedune population selon une variable sera restreinte au cas des variables quan-titatives, car la description dune population selon une variable qualitative esttotalement rsume dans un tableau de pourcentages ou dans un diagrammecirculaire, appel aussi diagramme en camembert (cf. figure 1.1).

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    4 INTRODUCTION LA MTHODE STATISTIQUE

    A. Distributions statistiqueset reprsentations graphiques

    Considrons une variable observe sur une population de nindividus. Si

    la variable Xprendkvaleurs ou ensembles de valeurs (appels dans ce quisuit, modalits), le premier traitement des donnes brutes consiste compterle nombre nidindividus qui prsentent la iemodalit (i = 1, 2, , k).

    1) Variables statistiques discrtes

    Les rsultats concernant les observations de la variableXdont lensemble desvaleurs est {x

    i, i = 1, , k}, sont prsents dans le tableau des effectifs (xi , ni)

    ou dans le tableau des frquences (xi , fi) avecfi= ni/n(on utilise souvent lepourcentage 100 f

    i). Il est prfrable de calculer les frquences partir des

    effectifs cumuls ( II.A.3) afin que des erreurs successives darrondis nedonnent pas une somme totale de frquences diffrente de 1.

    Pomme de table

    Prune

    Pche et nectarine

    Noix

    Olives

    Abricot

    Autres fruits

    Poire de table

    Cerise

    24 %

    8,8%

    8 %6 %5 %

    5 %

    10 %

    12 %

    10 %

    10 %

    10 %

    Pomme cidre

    Figure 1.1 Surface du verger franais en 2005

    Extrait de Agreste, GraphAgri2006,Ministre de lAgriculture et de la Pche.

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 5

    Dunod.Lapho

    tocopienonautoriseestundlit.

    On prsente logiquement les modalits numriques en ordre croissant. Onpeut associer ces tableaux une reprsentation graphique appele diagramme en btons .

    Un diagramme en btons (cf. figure 1.2) est construit dans un systmedaxes rectangulaires ; les valeurs de la variable statistique Xsont portes enabscisse ; partir de chaque valeur xi , on trace un segment de droite verticalet dont la hauteur est proportionnelle leffectif correspondant. On peut rete-nir indiffremment une chelle qui explicite les effectifs ni , ou une chelle

    qui explicite les frquences fi . Pour les distributions du tableau 1.1, on pour-rait reprsenter sur le mme graphique les diagrammes en btons de plusieurspays avec des couleurs diffrentes, chaque couleur correspondant un pays,ce qui permettrait de comparer les distributions du nombre de personnes parmnage.

    Source:Tableaux de lconomie Franaise 1999-2000, INSEE.

    Tableau des effectifs Tableau des frquences

    Modalit Effectif Modalit Frquence

    x1...

    xi...

    xk

    n1...n

    i...

    nk

    x1...

    xi...

    xk

    f1= n1/n...

    fi= n

    i/n

    ..

    .f

    k= n

    k/n

    Tableau 1.1 Mnages suivant le nombre de personnes du mnagedans quelques pays en 1995 (%)

    Allemagne Espagne Finlande France Grce Irlande Italie Pays-Bas Portugal

    Mnages de : 1 personne 2 personnes 3 personnes 4 personnes 5 personnes et plus

    Ensemble (en milliers)

    34,432,316,012,64,7

    34 413

    12,724,521,824,017,0

    12 112

    37,431,014,411,95,3

    2 222

    29,231,816,814,2

    8,0

    23 126

    20,728,919,821,78,9

    3 756

    22,823,115,617,121,4

    1 146

    22,723,115,617,121,4

    1 146

    30,634,013,415,96,2

    6 425

    13,726,424,722,812,4

    3 275

    nii 1= n= fi

    i 1=

    k

    1=

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    6 INTRODUCTION LA MTHODE STATISTIQUE

    2) Variables statistiques continues

    Linfinit des valeurs observables ne rend pas possible la gnralisation dudiagramme en btons. Le domaine de variation dune variable statistiquecontinueXest partag en k parties . Lintervalle [ xi1, xi [ ferm gauche,ouvert droite, est appel ieclasse (i = 1,2, ,k) ; son amplitude est gale :

    ai=xi xi1

    Il arrive que lamplitude des classes extrmes soit indtermine : la pre-mire classe tant dfinie par moins de, et la dernire par plus de(cf.tableau 1.2).

    Le choix des extrmitsdes classes se fait partir des donnes brutes ; lenombre kde classes doit tre modr (usuellement entre 4 et 10). Le dcou-page en classes est assez souvent choisi tel que lamplitude des classes soitconstante, ou tel que les effectifs des classes soient constants (par exemple,10 % de la population dans chaque classe, cf.tableau 1.6).

    Le classement dune srie statistique correspond une perte dinformation

    par rapport aux donnes initiales puisque seuls les effectifs des classes sontretenus. Le travail sur une telle srie impose alors lhypothse que les don-nes sont rparties uniformment lintrieur de chacune des classes. Onparle aussi d quirpartition des individus ou encore d homognit danschacune des classes. Chaque partie de la classe correspond alors un effectifproportionnel sa longueur. Lide est, bien sr, que chaque classe repr-sente une entit qui doit se distinguer par rapport aux autres classes. Commeprcdemment, les rsultats sont prsents dans un tableau deffectifs ou defrquences. On associe un tel tableau un histogramme qui est une reprsen-

    tation graphique trs rpandue. Lhistogramme est constitu de la juxtaposi-tion de rectangles (pour respecter lhypothse dquirpartition) dont lesbases reprsentent les diffrentes classes et dont les surfaces sontproportion-nelles aux effectifs des classes (cf. figure 1.3).

    1 2 3 4 5 ou +

    10%

    20%

    30%Nombre depersonnes

    fi(%)

    1 29,22 31,8

    3 16,8

    4 14,2

    5 ou plus 8,0

    100 %

    Figure 1.2 Diagramme en btons Nombre de personnes par mnage en France en 1995

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 7

    Dunod.Lapho

    tocopienonautoriseestundlit.

    On verra par la suite quune difficult du travail avec des sries classesest le choix des limites pour les classes extrmes, indispensable aussi pour letrac de lhistogramme.

    la ieclasse, correspond un rectangle dont la base est lintervalle [ xi 1, xi[et dont la surface est proportionnelle la frquence fi(ou leffectif ni). Siles classes ont toutes la mme amplitude, les hauteurs des rectangles sontproportionnelles aux frquences. Dans le cas o les classes sont damplitudesingales, la hauteur du rectangle correspondant la ieclasse damplitude aiserahi= fi/ai.La surface du rectangle reprsentant la ieclasse sera ainsi galefi

    Pour une srie dobservations relatives une variable statistique X dis-crte ou continue classe, la donne des modalits et de leurs frquences est

    appele distribution statistique de la variable X.

    Tableau 1.2 Chmeurs BIT selon le sexe et lanciennet de chmage en septembre 2006

    Distribution en milliers Distribution en pourcentage

    Anciennet dinscription Hommes Femmes Hommes Femmes

    Moins dun mois 180,3 181,0 16,5 16,8

    Dun moins de trois mois 203,9 204,9 18,6 19,0De trois moins de six mois 169,3 163,1 15,5 15,1

    De six mois moins dun an 202,1 191,1 18,5 17,7

    Dun moins de deux ans 197,3 199,3 18,0 18,5

    De deux moins de trois ans 74,5 75,4 6,8 7,0

    Trois ans ou plus 67,1 62,9 6,1 5,8

    Ensemble 1 094,5 1 077,7 100,1 100,1

    Anciennet moyenne en jours 341,5 334,5Source :Bulletin Mensuel des Statistiques du Travail, www.travail.gouv.fr, octobre 2006.

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    8 INTRODUCTION LA MTHODE STATISTIQUE

    La classe Trois ans ou plus est suppose borne suprieurement par5 ans (60 mois).

    3) Frquences cumules et courbe cumulative

    a) Tableau des frquences cumules

    Les tableaux de frquences (ou deffectifs) qui viennent dtre dfinis peu-vent tre modifis de facon prsenter un rsum des donnes sous uneforme diffrente.

    On appelle effectif cumul de la ie classe, le nombre dindividus Nipour

    lesquels la variable prend une valeur infrieure xi:

    Ni= pour i= 1, 2, , k

    On dfinit de mme Fi , la frquence cumulede la ieclasse : Fi= Ni/n

    1

    fiai

    3 6 12 24

    Mois

    60360

    Figure 1.3 Histogramme de la distribution des chmeurs Femmes selon lanciennet(voir tableau 1.2)

    njj i

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 9

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Les tableaux deffectifs cumuls ou de frquences cumules se dduisentdes tableaux deffectifs ou de frquences (non cumuls) en substituant auxeffectifs ou frquences non cumuls les effectifs ou frquences cumuls. Les

    deux types de tableaux sont donc quivalents (cf. figures 1.2 et 1.4).b) Fonction cumulative et courbe cumulative

    La courbe cumulativeou courbe des frquences cumules est la reprsentationgraphique des frquences cumules. Plus prcisment, la courbe cumulativeest la reprsentation graphique de la proportion F(t)des individus de la popu-lation dont le caractre prend une valeur infrieure t. Cette fonction, appelefonction cumulative oufonction de rpartition, est :

    1.dfinie pour tout t 2.croissante (mais non strictement croissante)3. nulle pour tinfrieur min xi

    1in4.gale 1 pour tau moins gal max xi

    1in

    Pour une variable statistique discrte, cette fonction est une fonction enescalier, prsentant en chacune des valeurs possibles xi, un saut gal la fr-quence correspondante f

    i

    (cf.figure 1.4).Dans le cas dune variable statistique continue, la fonction cumulative

    nest connue que pour les valeurs de Xgales aux extrmits des classes.Lhypothse dquirpartition ( II.A.2) implique que la fonction F estlinaire entre ces valeurs ( cf.figure 1.5). Cette fonction est donc continue etlinaire par morceaux.Ici encore, il est ncessaire de choisir des limites pourles classes extrmes.

    Ces frquences cumules sont des frquences cumules ascendantes, carelles ont t obtenues en calculant les frquences Fidindividus pour lesquel-les le caractre tudi Xest auplusgal xi; on peut aussi dfinir les fr-

    1 2 3 4 5 et +

    100 %t F(t)(%)

    < 1 0[1 ; 2[ 29,2

    [2 ; 3[ 61,0

    [3 ; 4[ 77,8

    [4 ; 5[ 92,0

    5 100

    Figure 1.4 Graphe des frquences cumules de la distribution reprsente la figure 1.2

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    10 INTRODUCTION LA MTHODE STATISTIQUE

    quences cumules descendantes, cest--dire les frquences pour lesquellesle caractre tudi Xest suprieur xi. Quand on ne spcifie pas le type defrquences cumules, on sous-entend quil sagit des frquences cumulesascendantes.

    B. Le diagramme branche et feuille Lorsque la taille de la population tudie nest pas trop leve (infrieure la centaine), il est intressant dutiliser la reprsentation en diagramme branche et feuille due J. W. Tukey 1. Ce diagramme tient la fois dutableauet de la reprsentation graphiqueet donne une vision densemble desdonnes sans perdrelinformation numrique valeur par valeur.

    1) Profondeur dune observationSelon quon range les valeurs observes de la variable statistiqueXde la plusfaible la plus leve ou de la plus leve la plus faible, on associe cha-que observation xideux rangs, croissant et dcroissant. On dit alors que ladistribution est ordonne.

    On appelleprofondeurdexile nombre gal au plus petit des deux rangs .

    Les dures hebdomadaires du travail des salaris temps complet dans lespays de lUnion europenne ( cf.tableau 1.3) peuvent tre ordonnes, et on

    en dduit la profondeur de chaque valeur de chacune des sries.

    1. J. W. Tukey, Exploratory Data Analysis (EDA), Addison-Wesley, 1977.

    Fi

    13 6 12 24 36 600

    Mois

    100

    t F(t)(%)

    0 0

    1 16,83 35,8

    6 50,9

    12 68,7

    24 87,2

    36 94,2

    60 100

    Figure 1.5 Courbe cumulative de la distribution reprsente la figure 1.3

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 11

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Source:Tableaux de lconomie Franaise, INSEE.

    Le nombre de pays tant impair et gal 15, il y a deux valeurs de pro-fondeur 1, 2, 3, 4, 5, 6, 7 et une seule valeur de profondeur 8 (cf.tableau 1.4).

    Tableau 1.4 Pays ordonns selon la dure hebdomadaire du travail des salaris temps complet en 2000

    Tableau 1.3 Dure hebdomadaire du travail des salaris temps completdans lUnion europenne (heures)

    1990 1995 2000

    AllemagneAutricheBelgique

    DanemarkEspagneFinlandeFranceGrceIrlande

    ItalieLuxembourg

    Pays-BasPortugal

    Royaume-UniSude

    39,940,1383940,738,439,640,240,4

    38,639,93941,943,740,7

    39,739,338,43940,738,639,940,340,2

    38,439,539,541,243,940

    40,140,138,539,340,639,338,940,939,9

    38,639,83940,343,640

    Rangcroissant

    Rangdcroissant

    Profondeur Dure (heures) Pays

    1234567891011

    12131415

    15141312111098765

    4321

    12345678

    765

    4321

    38,538,638,939,039,339,339,839,9

    40,040,140,1

    40,340,640,943,6

    BelgiqueItalie

    FrancePays-BasDanemarkFinlande

    LuxembourgIrlande

    SudeAllemagneAutriche

    PortugalEspagneGrce

    Royaume-Uni

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    12 INTRODUCTION LA MTHODE STATISTIQUE

    2) La reprsentation en diagramme branche et feuille

    Son principe consiste distinguer deux parties pour tout nombre : les chiffres deplus faible poids, lafeuille, et les chiffres de plus haut poids , la branche.

    La figure 1.6 reproduit les diagrammes Branche et feuille donns parle logiciel SPSS pour les sries du tableau 1.3.

    Par exemple, pour le diagramme de lanne 1995 de la figure 1.6, en serfrant aux valeurs ordonnes :

    la valeur 38,4 est reprsente par la branche 38 et la feuille 4 (pour lesdeux observations) ;

    la valeur 38,6 est reprsente par la branche 38 et la feuille 6.Ces trois observations conduisent lcriture : 3,00 38. 446La valeur 43,9 est beaucoup plus leve que les autres ; elle est mention-

    ne comme valeur extrme. On verra comment une valeur est ainsi clas-

    se ( IV.B). Le nombre de feuilles de chaque branche donnant leffectif, unhistogramme classes gales damplitude 1 donne une reprsentation simi-laire, mais lavantage du diagramme branche et feuille est de conserver icilinformation donne par le premier chiffre dcimal, donc de garder linfor-mation de la rpartition lintrieur des classes.

    Les logiciels choisissent, selon la structure des donnes, des amplitudes gales 1, 0,5 ou 0,25. La plage des valeurs tant plus restreinte en 2000 quen1990 et 1995, le logiciel SPSS a choisi des amplitudes gales 1 pour lesannes 1990 et 1995, et des amplitudes gales 0,5 pour lanne 2000.

    On peut complter ce type de diagramme pour garder lidentit des indivi-dus en indiquant symtriquement lidentit de chaque feuille ( cf.figure 1.7).On pourrait aussi reprsenter dos dosles distributions correspondant deuxannes diffrentes pour suivre lvolution de la dure hebdomadaire du travail.

    1990Frequency Stem & Leaf

    1995Frequency Stem & Leaf

    2000Frequency Stem & Leaf

    3,00 38 . 0465,00 39 . 006995,00 40 . 124771,00 41 . 91,00 Extrmes (>=43,7)

    3,00 38 . 4466,00 39 . 0355794,00 40 . 02371,00 41 . 21,00 Extrmes (>=43,9)

    0,00 38 .3,00 38 . 5693,00 39 . 0332,00 39 . 894,00 40 . 01132,00 40 . 691,00 Extrmes (>=43,6)

    Stem width : 1,0Each leaf : 1 case(s)

    Stem width : 1,0Each leaf : 1 case(s)

    Stem width : 1,0Each leaf : 1 case(s)

    Figure 1.6 Branche et feuille (logiciel SPSS) pour les sries du tableau 1.3

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 13

    Dunod.Lapho

    tocopienonautoriseestundlit.

    III. Les indicateurs statistiques

    Le tableau de distribution dune variable statistique prsente linformationrecueillie sur cette variable. Une reprsentation graphique en fournit un por-trait pour apprhender plus facilement la globalit de linformation. On peutdsirer aller plus loin en cherchant caractriser la reprsentation visuellepar des lments synthtiques sur :

    la valeur de la variable situe au centre de la distribution : la ten-dance centrale et, plus gnralement, un indicateur de position nonncessairement centrale, lie un rang donn ;

    la variation des valeurs :ladispersion;

    laforme de la distribution ;

    les aspects particuliers : valeurs extrmes, groupes de valeurs

    Ces indicateurs tant exprims dans les units de la variable tudie, on

    verra quil peut tre intressant pour comparer plusieurs distributions entreelles de calculer des caractristiques de dispersion relative.

    A. Conditions de YuleLe statisticien britannique Yule 1a nonc un certain nombre de propritssouhaites pour les indicateurs des sries statistiques ; ceux-ci doivent tredune part, des rsums maniables et dautre part, les plus exhaustifs pos-sibles relativement linformation contenue dans les donnes.

    Frequency Stem & Leaf

    3,006,004,001,001,00

    Fin It BelFr All P.Bas Lux Aut Dk

    Esp Gr Irl SudPor

    R-U

    38 . 44639 . 03557940 . 023741. 2Extremes (> = 43,9)

    Stem width : 1,0Each leaf : 1 case(s)

    Figure 1.7 Diagramme Branche et feuille complt par lidentit des pays (1995)

    1. G. Udny Yule et M. G. Kendall, An Introduction to the Theory of Statistics , Charles Griffin& Co, 14 edition, 1950.

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    14 INTRODUCTION LA MTHODE STATISTIQUE

    Dans son schma, une caractristique statistique doit tre une valeur-type :1.dfinie de faon objective et donc indpendante de lobservateur ;2.dpendante de toutes les observations ;

    3.de signification concrte pour tre comprise par des non-spcialistes ;4.simple calculer ;5.peu sensible aux fluctuations dchantillonnage ;6.se prtant aisment aux oprateurs mathmatiques classiques.En ralit, on ne dispose pas de caractristiques rpondant simultanment

    ces six conditions. Le choix dun indicateur sera lobjet dun compromisguid par la spcificit de ltude en cours.

    B. Les indicateurs de tendance centrale et de positionSelon lusage courant, toutes les mesures de tendance centrale mritent lenom de moyenne . Lorsquon parle de moyenne, on pense la moyennearithmtique ; mais il existe dautres types de moyennes, chacune dentreelles ayant la proprit de conserver une caractristiquede lensemble quandon remplace chaque lment de lensemble par cette valeur unique ; chaquemoyenne na donc dintrt que pour autant que cette proprit soit utile 1.

    Les moyennes sont des valeurs abstraites qui, sauf par hasard, ne cor-

    respondent aucune ralisation concrte.

    1) La moyenne arithmtique

    On appelle moyenne arithmtiquela somme de toutes les donnes statistiquesdivise par le nombre de ces donnes. La moyenne arithmtique conserve lasomme totale des valeursobserves : si on modifie les valeurs de deux obser-vations dune srie statistique tout en conservant leur somme, la moyenne dela srie sera inchange.

    Soit la srie statistique de donnes brutes : x1, , x i, , x n , sa moyennearithmtique a pour expression :

    Bien entendu, si une valeur xi de X est observe ni fois, commexi+xi + +xi =nixi , la formule prcdente devient :

    1. Ch. Antoine, Les moyennes au quotidien , dansLes Moyennes, Que Sais-je, PUF, n 3383,1998, p. 107.

    x 1n--- xi

    i 1=

    n

    =

    x

    1

    n---n

    i

    xii 1=

    k

    f

    i

    xii 1=

    k

    = =

    n

    i

    fois

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE

    15

    Dunod.Lapho

    tocopienonautoriseestundlit.

    o k

    dsigne le nombre de valeurs distinctes

    deX

    et

    Lorsquon a une variable statistique continue, on ne connat pas les valeurs

    exactes prises par la variable, mais seulement le nombre dobservations lintrieur de chaque classe. Pour calculer la moyenne arithmtique dunetelle variable, on ramne chaque observation au centre de sa classe,

    ceci enraison de lhypothse dquirpartition lintrieur des classes, et cel revient considrer la moyenne des individus de la i

    e

    classe gale

    (

    x

    i

    1

    + x

    i

    )/2.

    Dans le cas des classes extrmes non limites, le choix des limites de cesclasses influe videmment sur la valeur de la moyenne arithmtique. Ceslimites devront tre choisies en fonction des connaissances sur les donnes

    et en noubliant pas lhypothse de base : lhomognit lintrieur desclasses. Pour une classe extrme dans laquelle on sait quil ny a pas quir-partition, les observations tant vraisemblablement en majorit regroupessur une partie de la classe, il conviendra de choisir la borne extrme :

    moins faible que la borne relle (suppose) sil sagit de la premireclasse ;

    plus faible que la borne relle (suppose) sil sagit de la dernire classe.

    Cest ce qui a t fait pour la srie prsente au tableau 1.2 et la figure 1.3,

    lanciennet moyenne du chmage a t considre gale 48 mois pour ceuxdont lanciennet tait au moins gale 36 mois et la borne suprieure de ladernire classe a t de ce fait fixe 60 mois (lhypothse dquirpartitionamne considrer que la moyenne des observations dune classe est gale aucentre de la classe).

    Proprits

    1.

    La moyenne est une caractristique qui satisfait toutes les conditions

    de Yule, sauf la conditions 5 : une observation extrme (exceptionnel-lement leve ou faible) peut avoir une forte incidence sur sa valeur.

    2.

    La somme algbrique des carts des valeurs dune variable statisti-

    que sa moyenne arithmtique est nulle :

    3. Lorsquon fait subir une variable statistique Xune transformationaffine, cest--dire un changement dorigine et dunit {

    Y = aX + x

    0

    }, samoyenne arithmtique subit la mme transformation :

    4.

    Soit une population

    de taille n

    partage en deux sous-populations

    1

    de taille n

    1

    et

    2

    de taille n

    2

    .Soit X

    , une variable statistique observe sur la population

    , on peutexprimer sa moyenne en fonction de ses moyennes sur

    1

    et sur

    finin----=

    fii 1=

    k

    xi x( ) 0=

    y ax x0+=

    x x1 x2

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    16

    INTRODUCTION LA MTHODE STATISTIQUE

    Exemple

    Lanciennet moyenne dinscription au chmage pour hommes et femmes

    runis en septembre 2006 est gale (

    cf.

    tableau 1.2 pour les donnes) :338 jours

    2) Dautres moyennes

    a) La moyenne gomtrique

    Cest la moyenne applicable des mesures de grandeurs dont la croissanceest gomtrique ou exponentielle.

    La moyenne gomtrique conserve le produit des x i: si on modifie lesvaleurs de deux observations tout en conservant leur produit, la moyennegomtrique sera inchange.

    La moyenne gomtrique Gde la srie de valeurs x1, , x i, , x nsup-poses toutes positives (strictement), est dfinie ainsi :

    Lorsque la distribution de la variable statistique est donne par les kcouples(xi,ni), les xitant tous positifs ; la moyenne gomtrique a pour expression :

    Exemple

    Supposons que pendant une dcennie, les salaires aient t multiplispar 2 et que pendant la dcennie suivante, ils aient t multiplis par 4 ;le coefficient multiplicateur moyen par dcennie est gal :

    La moyenne arithmtique (= 3) nest pas gale au coefficient demand.

    2 en remarquant que la somme totale sobtient en additionnant:

    Ce rsultat se gnralise une partition en ksous-populations (k 2) :

    nxn1x1et n2x2

    x 1n--- n1x1 n2x2+( )=

    x 1n--- nixi

    i 1=

    k

    =

    x 12 172,2------------------ 1 094,5 341 1 077,7+ 334( )=

    G xii 1=

    n

    n= ln G( ) 1 n--- ln xi( )i

    1

    =

    n

    =

    G xini

    i 1=

    k

    n xifi

    i

    1

    =

    k = = ln G( ) fi ln xi( )i

    1

    =

    k

    =

    2 4 8 2,83=

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE

    17

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Prenons, par exemple, un salaire de 300

    au dbut de la premire dcennie,il sera de 300

    2

    4 = 2 400

    au bout des vingt ans, ce qui qui vaut 300

    (2,83)

    2

    , soit un coefficient multiplicateur moyen de 2,83 par dcennie.

    b) La moyenne harmonique

    La moyenne harmonique

    est linverse de la moyenne arithmtique des inversesdes valeurs. L

    inverse de la moyenne harmonique conserve ainsi la somme desinverses des x

    i

    : si on modifie les valeurs de deux observations tout en conser-vant la somme de leurs inverses, la moyenne harmonique sera inchange.

    ou

    La moyenne harmonique peut tre utilise lorquil est possible dattribuerun sens rel aux inverses des donnes en particulier pour les taux de change,les taux dquipement, le pouvoir dachat, les vitesses. Elle est notammentutilise dans les calculs d

    indices

    .

    Exemple

    On achte des dollars une premire fois pour 100

    au cours de 1,23

    ledollar, une seconde fois pour 100

    au cours de 0,97 le dollar.Le cours mo yen du dollar pour lensemble de ces deux oprations estgal :

    La moyenne arithmtique (= 1,1) ne reprsente pas le cours mo yen dudollar.

    Comparaison des 3 moyennes tudiesOn montre que si les xisont tous positifs :

    minxiHG maxxilin lin

    Lgalit de deux de ces moyennes entre elles entrane leur galit dansleur ensemble, et dans ce cas, toutes les valeurs xisont gales.

    3) Le mode

    Pour obtenir une mesure de la tendance centrale non influence par lesvaleurs extrmes de la distribution, on peut prendre la valeur ou la classede valeurs du caractre pour laquelle le diagramme en btons respective-

    ment lhistogramme prsente son maximum : cest le mode respectivementlintervalle modal de la distribution ; dans le cas o le diagramme en btons ou lhistogramme prsente aussi un maximum local, il y a deux modes respectivement deux classes modales.

    H n1

    xi----

    i 1=

    n

    ------------= H 1

    fixi----

    i 1=

    k

    ------------=

    200

    100

    1,23---------- 100

    0,97----------+

    --------------------------- 1,085

    x

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    18 INTRODUCTION LA MTHODE STATISTIQUE

    Lorsque la variable statistique est discrte, le mode se dfinit donc laidedu tableau de distribution ou du diagramme en btons. Pour la distributionprsente la figure 1.2, le mode est gal 2. Si la frquence maximum cor-

    respond deux valeurs successives de la variable, il y a un intervalle modal.Lorsquune distribution prsente plusieurs modes auxquels correspondent(gnralement) des frquences diffrentes, cest souvent lindice du mlangede deux ou plusieurs populations ayant chacune leur mode propre(cf. figure 1.8). Un exemple peut en tre la distribution des pointures dechaussures des hommes et femmes runies.

    Lorsque la variable statistique est continue, la classe modaleest la classedont la frquence par unit damplitude est la plus leve. Pour la distributionprsente la figure 1.3, la classe modale est la classe [1, 3[. Mais cette

    dtermination nest absolument pas prcise, car elle dpend du dcoupage enclasses retenu ; son intrt est limit par cette imprcision.Dans le cas dune distribution discrte, le mode satisfait aux conditions 1,

    3, 4 et 5 de Yule. Dans le cas de la distribution du nombre denfants parfamille, le mode est rellement une valeur typique et parat mieux correspon-dre la ralit que la moyenne arithmtique qui est rarement un nombreentier et qui est sensiblement influence par un nombre relativement petit defamilles trs nombreuses. linverse de la moyenne arithmtique, le modenglige dlibrement la prcision numrique au profit de la reprsentativit.

    Dans un tel cas, il est souvent souhaitable de disposer de ces deux mesuresde la tendance centrale.

    Le mode, historiquement lun des premiers paramtres de position utili-ss, est un peu moins employ aujourdhui.

    4) La mdiane et les quantiles

    Bien quhomognes dans leur composition, de nombreuses distributions pr-sentent de trs grands carts entre les valeurs extrmes de leurs lments.

    De plus, elles ont souvent un manque de symtrie prononc, les lmentsayant tendance sagglomrer plus prs dun extrme que de lautre. Les

    1ermode 2emode

    Figure 1.8 Exemple de distribution bimodaledune variable discrte

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 19

    Dunod.Lapho

    tocopienonautoriseestundlit.

    distributions de salaires ou de revenus en donnent des exemples typiques .Il est vident que, dans de tels cas, nous avons besoin dune mesure de latendance centrale qui ne soit pas influence par un nombre relativement petit

    de valeurs extrmes se situant en queue de la distribution.a) La mdiane

    La mdiane est la valeur de la variable statistique telle quil y ait autantdobservations suprieures et dobservations infrieures cette valeur. Ellepartage la srie statistique en deux parties dgal effectif. Elle se dterminesoit partir de la srie des valeurs ordonnes, soit partir de la fonctioncumulative ( II.A.3).

    Pour les variables statistiques discrtes , la mdiane est dtermine

    laide de la profondeur .Dans le cas o la srie comporte un nombre impair ndobservations, la

    mdiane est gale la valeur de profondeur maximum (n + 1)/2 : pour la sriedes 15 valeurs du tableau 4, la mdiane est gale la valeur de profondeur8, soit 39,9 h.

    Dans le cas o la srie comporte un nombre pair ndobservations, lamdiane est la moyenne arithmtique des deux valeurs de profondeur n/2 etest ainsi dfinie comme la valeur de profondeur ( n + 1)/2.

    La mdianeest ainsi dans tous les cas la valeur de profondeur(n + 1)/2.Lorsque les donnes dune variable statistique discrte sont classes, il

    nexiste gnralement pas une valeur mdiane Mepour laquelle la fonctioncumulative vaut 50 %. Il faut dans ce cas utiliser dautres valeurs typiquespour caractriser la tendance centrale de la srie : ceci est le cas pour la dis-tribution du nombre de personnes par mnage dont la fonction cumulative estreprsente la figure 1.4.

    Pour les variables statistiques continues , la valeur mdiane Me esttelle que F(Me) = 50% . On commence par chercher la classe mdiane laide des frquences cumules, la classe mdiane [xi 1, x i[ tant telle queFi 1 < 50% et Fi> 50%. La valeur de la mdiane sobtient ensuite par inter-polation linaireen raison de lhypothse dquirpartition lintrieur desclasses. Cette dtermination peut se faire par le calcul ou graphiquement(cf.figure 1.9) :

    Pour la distribution de lanciennet du chmage des femmes (tableau 1.2et figure 1.5), la mdiane appartient la classe [3 ; 6[ :

    Me xi 1xi xi 1-----------------------

    0 5, Fi 1fi

    ------------------------= Me x= i 1 xi xi 1( )+0,5

    F

    i

    1

    fi -----------------------

    Me 3 3+ 50 35,815,1

    ---------------------- 5,8 mois=

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    20

    INTRODUCTION LA MTHODE STATISTIQUE

    La mdiane peut aussi tre dtermine partir de la courbe des frquencescumules comme labscisse du point dordonne 50 %.

    Une seule observation trs leve (ou trs faible) peut influencer fortementla moyenne, alors que la mdiane peut supporter sans tre modifie quunemoiti des observations soit trs leve (ou trs faible) : on dit que la mdianeest

    rsistante.

    La mdiane satisfait aux conditions 1, 3, 4 et 5 de Yule.

    Dans le cas de distribution unimodale, la mdiane est frquemment com-prise entre la moyenne arithmtique et le mode, et plus prs de la moyenne

    que du mode. Si la distribution est symtrique, ces trois caractristiques

    detendance centrale sont confondues

    (

    cf.

    figure 1.10).

    Fi-1

    0,5

    Fi

    Me xixi-1

    fi

    0,5-Fi-1

    Figure 1.9 Dtermination graphique de la mdiane pour une variable continue

    { Mo = Me = x } x

    xxMo Me

    Distribution tale

    vers la droite

    xx MoMe

    Distribution tale

    vers la gauche

    Distribution

    symtrique

    Figure 1.10 Positions respectives du mode, de la mdiane et de la moyenne

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE

    21

    Dunod.Lapho

    tocopienonautoriseestundlit.

    b) Les quantiles

    Les quantiles

    sont des

    indicateurs de position

    .

    Le quantile dordre

    (0

    1), not x

    , est tel quune proportion

    des individus ait une valeur du caractre X

    infrieure ou gale x

    Le quantile x

    0,5

    est gal la mdiane.

    On utilise couramment les quantiles dordre 1/4, 1/2 et 3/4. Ils sont ainsinots etnomms :

    Q1= premier quartile = x 0,25Q2= deuxime quartile = mdiane = x 0,5Q3= troisime quartile = x 0,75

    Les quartiles se dterminent, comme la mdiane, laide de la profondeur(variable discrte), ou laide des frquences cumules (variable continue).

    Dans le cas dune variable statistique discrte, le premier quartile Q1et le troi-sime quartile Q3sont des lments de mme profondeur gale (m + 1)/2 omdsigne la partie entire de la profondeur de la mdiane. On peut aussiconsidrer Q1comme la mdiane des mpremires valeurs de la srie et Q3comme la mdiane des mdernires valeurs. Ainsi par exemple, pour une sriede 39 observations, la mdiane a une profondeur gale 20, et les quartiles

    Q1 et Q3 sont de profondeur 10,5 ; pour une srie de 50 observations, lamdiane a une profondeur de 25,5 et la partie entire de cette profondeurtant 25, les quartiles Q1et Q3sont de profondeur 13.

    La pratique de la dtermination des quartiles ne respecte pas toujours ladfinition prcdente due Tukey. Ainsi les calculatrices de poche (TI,Casio,) dterminent le 1 erquartile (resp. le 3 equartile) comme la mdianedes valeurs de profondeur infrieure (resp. suprieure) la profondeur de lamdiane. Le rsultat diffre de celui calcul avec la dfinition de Tukey dansle cas dun nombre impair dobservations. Le logiciel SPSS dtermine deux

    types de quartiles : Valeurs charnires selon la dfinition de Tukey, et Moyenne pondre laide dune formule dinterpolation linaire[Dodge, 1993]. La dtermination des premier et troisime quartiles nest passtandardise.

    Pour la distribution de la dure hebdomadaire du travail dans les 15 paysde lUnion europenne en 2000 ( cf.tableau 1.4), les premier et troisimequartiles sont les valeurs de profondeur 4,5 :

    Q1= 39,15 h et Q3= 40,2h

    Dans le cas dune variable statistique continue, on a F(Q1) = 0,25 etF(Q3) = 0,75 et on calcule les quartiles par interpolation linaire , en raisonde lhypothse dquirpartition.Pour la distribution de lanciennet du ch-mage des femmes ( cf.figure 1.5) :

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    22 INTRODUCTION LA MTHODE STATISTIQUE

    On peut dfinir partir des quartiles Q1 et Q3 le paramtre de tendance

    centrale (Q1+ Q3)/2, gal la mdiane dans le cas dune distribution sym-trique, ainsi que lintervalle interquartile [Q1, Q3] qui contient 50 % des obser-vations.

    Plus gnralement, deux quantiles dordres complmentaires x et x1-dfinissent un intervalle dont le milieu peut tre considr comme un para-

    mtre de tendance centrale.De la mme faon, on dfinit les dcilesD1,D2, , D9qui sont les quan-tilesxi/10(i = 1 9), les vingtiles, quantilesxi/20( i = 1 19), les centiles, etc.

    Les classes dune variable statistique continue sont souvent dfinies laide des dciles. Dans ce cas, on a 10 classes contenant chacune 10 % deleffectif total (cf.tableau 1.5 et figure 1.11).

    Tableau 1.5 Distribution des salaires annuels nets de tous prlvementspour les salaris temps complet du secteur priv et semi-public

    Dciles*

    (en euros courants)Ensemble Hommes Femmes

    2000 2006 2000 2006 2000 2006

    D1D2D3D4

    Mdiane

    D6D7D8D9

    10 79012 22013 52014 91016 500

    18 410

    20 89024 78032 810

    12 71814 21915 54516 97718 631

    20 685

    23 43027 82636 941

    11 23012 76014 14015 58017 270

    19 330

    22 17026 66035 020

    13 18114 77616 20917 72919 466

    21 657

    24 73429 78740 305

    10 19011 42012 50013 71015 130

    16 810

    18 85021 62026 950

    12 07513 43114 53115 71517 141

    18 924

    21 30024 59030 962

    D9/D1 3 2,9 3,2 3,1 2,6 2,6

    Salaire moyen 20 400 23 292 21 890 24 912 17 510 20 232

    * En 2006, 10 % des salaris temps complet du secteur priv et semi-public gagnent un salaire annuelnet infrieur 12 718 euros, 20 % infrieur 14 219 euros

    Source : INSEE.

    Q1 1 2+25 16,8

    19----------------------= 1,9 mois

    Q3 12 12+75 68,7

    18,5----------------------= 16,1 mois

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 23

    Dunod.Lapho

    tocopienonautoriseestundlit.

    C. Les indicateurs de dispersion1) Ltendue

    Ltendueest la diffrence entre la plus grande et la plus petite des valeurs

    observes :tendue= max xi min xi

    lin lin

    Cette mesure de la dispersion ne dpend que des valeurs extrmessouventexceptionnelles ; elle ne satisfait pas aux conditions 2 et 5 de Yule. Il fautremarquer aussi que la forme de la distribution entre les valeurs extrmesninflue pas sur ltendue. Cependant, cette caractristique, tant facile cal-culer et ayant une signification concrte facile comprendre, est frquem-ment utilise en contrle industriel de fabrication.

    2) Ltendue interquartile

    De par la dfinition des quartiles, lintervalle interquartile [ Q1,Q3] contient50 % des observations. Sa longueur, note EIQ(tendue InterQuartile), estun indicateur de dispersion :

    EIQ = Q3Q1Le calcul de ltendue interquartile a lavantage par rapport celui de

    ltendue dcarter les valeurs extrmes, souvent sans signification.Plus gnralement, les longueurs des fourchettes dfinies par les dciles

    extrmes, les centiles extrmes constituent des indicateurs de dispersioncontenant respectivement 80 % et 98 % des observations.

    D1D

    2D

    3D

    4D

    5 D

    6 D

    7 D

    8 D

    9

    hi=10

    Di Di 1

    h2

    h1

    Figure 1.11 Histogramme de la distribution des salaires Ensemble en 2000

    (voir tableau 1.5)

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    24 INTRODUCTION LA MTHODE STATISTIQUE

    3) Lcart absolu moyen

    On peut dfinir une caractristique de dispersion dune distribution statisti-

    que en calculant les carts des observations une tendance centrale C. Latendance centrale de la srie ( xi C) ne peut pas tre une mesure de disper-sion puisque les carts positifs sont compensables par les carts ngatifs.

    Par contre, la srie dfinit une variable statistique positive dont lesvaleurs centrales constituent une mesure de dispersion.

    Lcart absolu moyen la mdiane est la moyenne arithmtique desvaleurs absolues des carts la mdiane ; on dmontre que cest le plus petitcart absolu moyen :

    ou

    Lcart absolu moyen la moyenne est la moyenne arithmtique desvaleurs absolues des carts la moyenne arithmtique :

    ou

    Dans le cas dune variable continue classe, on considre, comme pour lecalcul de la moyenne, que chaque individu a sa valeur gale au milieu de saclasse daffectation.

    4) Lcart-typeLcart-typesXdune variable statistiqueXest la mesure de dispersion la pluscouramment utilise.

    Algbriquement, il se dfinit comme laracine carre de la variance,et la varianceest la moyenne arithmtique des carrs des carts la moyenne arithmtique :

    ou

    Il est possible de dvelopper la formule de la variance pour obtenir uneexpression mieux adapte au calcul (mais cette formule devient inusite depar la diffusion des calculatrices munies des fonctions statistiques 1) :

    1. Les calculatrices munies des fonctions statistiques donnent les valeurs de la moyenne et delcart-type dune variable statistique dont on a saisi la distribution. Certaines calculatrices(dont les calculatrices de marque CASIO) proposent deux carts-types : net n-1. La valeur

    de ncorrespond celle de lcart-type sX dfini ici et utilis en statistique descriptive ; quant celle de n 1 , elle est utilise en infrence statistique et se dduit de npar la formule

    suivante :

    xi C

    eMe1

    n--- xi Mei 1=

    n

    = eMe fi xi Mei 1=

    k

    =

    ex1

    n--- xi x

    i 1=

    n

    = ex fi xi xi 1=

    k

    =

    varX( )1

    n--- xi x( )2

    i 1=

    n

    = varX( ) fi xi x( )2

    i 1=

    k

    = sX varX( )=

    n 12 n

    n 1------------n

    2=

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 25

    Dunod.Lapho

    tocopienonautoriseestundlit.

    ou

    Dans le cas dune variable statistique continue, on ramne la valeur de cha-que individu au milieu de sa classe daffectation. L encore, le choix des bornesdes classes extrmes non limites doit tre fait avec prcaution.

    Mais, alors que pour le calcul de la moyenne, lerreur lie ce choix taitfaible dans le cas de distributions approximativement symtriques autour de

    la moyenne, il nen est pas de mme pour le calcul de la variance o leserreurs sajoutent et ne peuvent pas se compenser.

    Lcart-type est exprim dans la mme unitque les observations, alorsque la variance sexprime dans le carr de cette unit.

    On dmontre que lcart-type, donnant plus de poids aux observationsextrmes que lcart absolu moyen la moyenne, lui est toujours suprieur :

    Proprits

    1.Lcart-type satisfait aux conditions 1, 2 et 6 de Yule ; lcart-typeest plus sensibleaux fluctuations dchantillonnage et aux valeurs extr-mes que la moyenne, en raison des lvations au carr.

    2.On montre que la variance est le plus petit cart quadratique moyen,cest--dire :

    pour tout C

    3.Lorsque deux variables Xet Ysont en correspondance par le chan-gement dorigine x0et le changement dchelle a, les cart-types se cor-respondent par le seul changement dchelle apris en valeur absolue :

    4.Soit une populationde taille ncompose de deux sous-populations1de taille n1et 2de taillen2.SoitX, une variable statistique observesur la population , on peut exprimer sa variance var( X) en fonction de

    , , , var(X1) et var(X2) :

    varX( ) 1n--- xi x( )2

    i 1=

    n

    1n--- xi2

    i 1=

    n

    x( )2= =

    varX( ) fii 1

    k

    xi x( )2 fixi2 x( )2i 1=

    k

    ==

    sX ex

    var X ( ) 1n--- xi C( )2

    i 1=

    n

    Y aX x0+= sY a sX=

    x x1 x2

    varX( ) 1n--- n1var X 1( ) n2var X 2( ) n1 x1 x( )

    2 n2 x2 x( )2

    + + +

    =

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    26 INTRODUCTION LA MTHODE STATISTIQUE

    Dautres mesures de la dispersion peuvent tre envisages. On peut cal-culer un cartmdian,gal la mdiane de la srie des valeurs absolues descarts une valeur centrale choisie. On peut aussi calculer la diffrencemoyennegale la moyenne arithmtique des valeurs absolues des diffren-ces entre les observations prises deux deux. Cest cet indicateur de disper-sion qui est utilis pour le calcul de lindice de concentration de Gini ( III.E)et qui, ne mesurant pas la dispersion par rapport la moyenne, est adapt auxdistributions non symtriques.

    D. Les caractristiques de formeLa plupart des distributions statistiques sont unimodales. En complment deltude de la tendance centrale et de la dispersion, il est intressant de reprerla forme (dj mise en vidence par une reprsentation graphique) par desmesures de son asymtrie(en anglais, skewness) et de son aplatissement(kurtosis).

    La symtrie est un concept important pour plusieurs raisons. Toutdabord, la dfinition de la tendance centrale est sans ambiguit pour une dis-tribution symtrique puisque pour une telle distribution, la mdiane est gale la moyenne et pour tout compris entre 0 et 0,5, et ladispersion des observations est symtrique par rapport la moyenne. Dautrepart, de nombreuses mthodes statistiques reposent sur une hypothse de dis-

    tribution(s) normale(s) ou sen approchant (chapitre 7). Le caractre de sym-trie dune distribution apparat donc particulirement important.

    Les mesures de la forme sont indpendantes des units de mesure de lavariable tudie.

    Il faut bien remarquer que la variance de Xsur est la somme pond-re des variances deXsur 1et 2augmente de la somme pondre descarrs des diffrences entre la moyenne de Xsur et les moyennes sur1et 2. Ce rsultat se gnralise une partition en ksous-populations(k 2).

    5.Les distributions statistiques symtriques telles quenviron : 2/3 de la distribution se situent moins dun cart-type de ; 95 % de la distribution se situent moins de deux carts-types desont dites normales (chapitre 7, II).Le triplet( ) est un rsum exhaustifdes distributions de ce type.

    Dans de nombreux cas, la normalit tant approximative, ( ) est alors

    un rsum (quasi-exhaustif) qui prsente un intrt primordial.

    xx

    n x sX, ,n x sX, ,

    x x1 +( )/2

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 27

    Dunod.Lapho

    tocopienonautoriseestundlit.

    1) Dfinition des moments centrs

    Le moment centrdordre rdune distribution est gal la moyenne arith-

    mtique des puissances dordre rdes carts :

    ou

    Remarque

    Le moment centr 1est nul, et le moment centr 2nest autre que lavariance et ne peut tre nul, comme tous les moments centrs dordrepair, que si toutes les observations ont la mme valeur.

    2) Lasymtrie

    Pour une distribution symtrique, la moyenne arithmtique est gale lamdiane et pour compris entre 0 et 0,5. Dautre part, lesmoments centrs dordre impair sont nuls pour une distribution symtrique,ngatifs pour une distribution unimodale tale gauche, positifs pour unedistribution unimodale tale droite. Ces proprits sont utilises pour dia-gnostiquer et mesurer lasymtrie.

    a) Diagnostic et mesure de lasymtrie laide des quantiles

    Dans un cas dasymtrie, la comparaison des quantits ,milieux des intervalles [x ,x1-], pour diffrentes valeurs de (0 0,5)donne une indication rapide sur le type de lasymtrie. Certains logiciels don-nent la reprsentation graphique de ces quantits en fonction des amplitudes

    . Pour une distribution symtrique, on obtient une droite parallle laxe des abscisses puisque les termes sont tous gaux la

    mdiane (et la moyenne !).

    Pour la distribution des salaris masculins en 2000 ( cf.tableau 1.5), lacomparaison des milieux des intervalles des dciles symtriques par rapport la mdiane montre quil sagit dune distribution tale vers la droite :

    D5= 17 270 < = 17 455 < = 18 155 < = 19 710

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    28 INTRODUCTION LA MTHODE STATISTIQUE

    Ce coefficient, compris entre 1 et + 1, est nul pour une distributionsymtrique, positif pour une distribution unimodale tale vers la droite etngatif dans le cas contraire, et il est, de plus invariant par changement dori-

    gine et dchelle.On obtient des variantes de ce coefficient en remplaant les quartiles parles dciles. Pour les distributions des salaires prsentes dans le tableau 1.5,on peut calculer le coefficient dasymtrie suivant :

    qui vaut respectivement 0,49 et 0,41 pour les distributions des salaires mas-culins et fminins en 2000 ; ces valeurs indiquent des distributions asymtri-

    ques, tales vers la droite.b) Le coefficient dasymtrie de Fisher

    Le coefficient dasymtrie de Fisher, not 1, est ainsi dfini :

    pour

    Comme tout coefficient dasymtrie, il est nulpour une distribution sym-trique, ngatif pour une distribution unimodale tale vers la gauche, positif

    pour une distribution unimodale tale vers la droite (figure 1.12).

    Les coefficients calculs par les logiciels statistiques sont soit celui deFisher, soit des variantes de mme linterprtation. Par exemple, le logicielSPSSdonne un coefficient dasymtrie lgrement modifi :

    3) Laplatissement

    Les coefficients daplatissement mesurent laplatissement dune distribution

    ou limportance des queues dune distribution. Le coefficient daplatisse-ment de Fisher, not 2, est ainsi dfini :

    pour

    D9 D1 2D5+D9 D1

    -----------------------------------

    13

    23 2----------= 2 0

    1= 0 1< 01> 0Figure 1.12 Signe du coefficient dasymtrie

    nn 1( ) n 2( )

    --------------------------------------1 pour n 3

    2422----- 3= 2 0

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE

    29

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Ce coefficient est nul

    pour une distribution normale

    (chapitre 7), positifou ngatif selon que la distribution est plus ou moins aplatie que la distribu-tion normale de mme moyenne et de mme cart-type.

    Les coefficients calculs par les logiciels sont celui de Fisher ou desvariantes de mme interprtation.Ces coefficients dasymtrie et daplatissement sont invariants par chan-

    gement dorigine et dchelle, mais ils sont sensibles aux fluctuationsdchantillonnage puisquils font intervenir des moments dordre lev.

    E. L

    es caractristiques de dispersion relative

    Ces caractristiques permettent de comparer

    les distributions statistiques deplusieurs sous-ensembles dune mme population, ou de faire des comparai-sons dans le temps ou dans lespace.

    1) Le coefficient de variation et linterquartile relatif

    Supposons que nous sachions que lcart-type de poids dune certaine popula-tion est de 8 kg, limportance du degr de variabilit que cela suggre dpendde la valeur du poids moyen : 10 kg, 50 kg ou plusieurs centaines de kg

    Pour remdier cette difficult dinterprtation, il est naturel dexaminerle rapport appel coefficient de variation

    et dfini en gnral pour desvariablespositives

    .Cest un nombre sans dimension

    , invariant si on effectue un changementdunit de mesure.

    Plus le coefficient de variation est lev, plus la dispersion autour de lamoyenne est leve.

    Ce coefficient permet de comparer les dispersions de distributions qui ne

    sont pas exprimes dans la mme unit (comme des distributions de salairesde pays diffrents) ou de distributions dont les moyennes sont diffrentes(comme des distributions de salaires pour diffrentes qualifications).

    On peut construire dautres coefficients de ce type en utilisant les statis-tiques dordre comme les quartiles et les dciles ; citons l interquartile

    relatif : et l

    interdcile relatif

    :

    Pour les distributions des salaires Hommes et Femmes en 2001 (

    cf.

    tableau 1.5), les interdciles relatifs valent respectivement 1,45 et 1,12.

    sX x

    Q3 Q1Q2

    ------------------D9 D1

    D5-------------------

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    30 INTRODUCTION LA MTHODE STATISTIQUE

    2) Les caractristiques de concentration

    La notion de concentration a t introduite propos des distributions desalaires et de revenus. Cette notion est apparente celle de dispersionpuisquelle concerne lintensit du groupement des donnes.

    Elle ne sapplique qu des variables continues valeurspositives, et pourdes ensembles statistiques dont chaque lment est affect dun caractre sus-ceptible daddition :

    un ensemble de mnages classs selon le revenu, lpargne, lepatrimoine ;

    un ensemble dentreprises classes selon le chiffre daffaire, le nombrede salaris, les montants des factures ;

    un ensemble dexploitations agricoles classes selon la surface agricoleutilise.

    Il est clair que la notion de concentration ne peut pas sappliquer, parexemple, des ensembles dindividus classs selon lge, la taille ou le poids,puisque la somme des ges, des tailles ou des poids dune population est sanssignification.

    La concentration peut se caractriser, soit par un procd graphique,soitpar le calcul.

    a) Construction de la courbe de concentration

    Considrons la distribution des exploitations agricoles par classes de gran-deurs des rgions Provence-Alpes-Cte dAzur (PACA) et Midi-Pyrnes en2005 (cf.tableau 1.6). Lintervalle de variation de la SAU(superficie agricoleutilise) est partag en kclasses (ici, k= 9) dont les bornes suprieures sontnotes dans lordre :x1, , xi , , xk

    On calcule pour chaque classe ( i= 1 k) :

    laproportion cumule pi des exploitations de SAUinfrieure xi laproportion cumule qide la SAUtotale des exploitations de SAUinf-rieure xiSur un diagramme cartsien, on reprsente les kpoints de coordonnes

    (pi, q i). Ces points sinscrivent dans un carr OABC dont la longueur descts est gale 1 (ou 100 si les proportions sont exprimes en pourcentage).

    La courbe qui joint les points successifs est la courbe de concentrationou courbe de Lorenz (cf. figure 1.13). La courbe, toujours en-dessous de la

    bissectrice, permet de lire que les % des exploitations les moins bienloties cultivent % de la SAUtotale. Si toutes les exploitations ont une partgale de SAU, la courbe se confond avec la bissectrice OB. La courbe senloigne lorsque lingalit saccrot.

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 31

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Ceci suggre dutiliser laire, dite aire de concentration , comprise entrela courbe et la bissectrice OB comme indicateur dingalit.

    Tableau 1.6 Distribution des exploitations agricoles par classes de grandeursen rgions PACA et Midi-Pyrnes

    Midi-Pyrnes PACAMidi-

    PyrnesPACA

    fi

    ProportionSAU

    fi

    ProportionSAU

    pi

    qi

    pi

    qi

    Moins de 5 ha 15,5 0,8 44,9 2,6 15,5 0,8 44,9 2,6

    5 moins de 10 ha 9,0 1,4 12,5 3,1 24,6 2,2 57,4 5,7

    10 moins de 20 ha 13,2 4,2 14,8 7,6 37,7 6,4 72,2 13,2

    20 moins de 35 ha 15,7 9,2 9,3 8,6 53,4 15,7 81,5 21,9

    35 moins de 50 ha 12,2 11,1 5,1 7,4 65,6 26,8 86,6 29,3

    50 moins de 100 ha 23,1 35,1 7,2 17,6 88,7 61,9 93,8 46,9

    100 moins de 200 ha 9,6 27,5 3,7 18,1 98,2 89,4 97,5 65,0

    200 moins de 300 ha 1,3 6,6 1,4 11,5 99,5 96,0 98,9 76,5

    300 ha ou plus 0,5 4,0 1,1 23,5 100,5 100,5 100,5 100,5

    100,5 100,5 100,5 100,5

    Source :agreste.agriculture.gouv.fr

    p

    q

    C

    0A

    B

    IG1

    2

    100

    80

    60

    40

    20

    0

    0 20 40 60 80 100

    PACA

    Midi-PyrnesFigure 1.13 Courbe de Lorenz

    Figure 1.14 Courbes de concentration des SAUdans les rgions PACA et Midi-Pyrnes

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    32 INTRODUCTION LA MTHODE STATISTIQUE

    On peut comparerla concentration de deux ou plusieurs populations selonun mme caractre en reprsentant sur un mme graphique leurs courbes deLorenz. Les terres agricoles sont plus concentres dans la rgion PACA que

    dans la rgion Midi-Pyrnes puisque la courbe de Lorenz de la SAUde largion Midi-Pyrnes est incluse dans celle de la rgion PACA(cf. figure 1.14).

    On peut aussi comparer la concentration de deux caractres sur une mmepopulation : sur la figure 1.15, on constate que la concentration du patrimoinefinancier des mnages est plus forte que celle des revenus.

    Dans les cas o les courbes se coupent, on ne peut pas comparer les degrsdingalit.

    b) Dtermination de lindice de concentration ou indice de Gini

    LindiceIGde Gini est gal au double de laire de concentration ( cf. figure1.13). Cet indice, compris entre 0 et 1, a une valeur dautant plus leve quela rpartition est plus ingalitaire, et peut tre valu selon la formule 1:

    lesxi(i= 1, , n) dsignant ici les valeurs prises (supposes toutes distinctes)par la variable sur chacun des nindividus de la population tudie.

    1. Le statisticien italien Corrado Gini a propos cette mesure de la concentration en 1912 et amontr deux annes plus tard que son indice tait gal au double de laire comprise entre ladroite dquirpartition et la courbe propose par Max Otto Lorenz en 1905.

    100

    80

    50

    40

    20 40 60 80 100

    90

    70

    60

    30

    20

    10

    00 10 30 50 70 90

    En %

    Patrimoine financier

    Revenu disponible

    Lecture : plus la courbe sloigne de la diagonale, plus la distribution de la variable considre est concentre. La moiti desmnages les moins riches possde 27 % de la masse des revenus disponibles tandis que la moiti des mnages les moinsbien dots possde environ 4 % de la masse totale de patrimoine financier. Les 10 % les mieux dots en patrimoinefinancier en possdent environ 63 %.

    Champ : mnages dont la personne de rfrence nest pas tudiante et dont le revenu dclar est positif ou nul.

    Sources : enqute Revenus fiscaux 2003,Insee-DGIpour le revenu disponible et enqute Patrimoine 2004, Insee,montantsde patrimoine financier recals sur les donnes de la Comptabilit nationale.

    Figure 1.15 Courbes de concentration

    Source : INSEE, conomie et Statistique, n 414, 2008.

    IG

    xi xjj i 1+=

    n

    i 1=

    n

    n n 1( ) x

    --------------------------------------=

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 33

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Cet indice sapparente donc bien la notion de dispersion relative deslments dune srie. Cest un nombre sans dimension . Cette caractristiquede dispersion ne fait pas appel au calcul dcarts la moyenne. Elle est ainsi

    particulirement bien adapte ltude de distributions trs dissymtriquespour lesquelles la notion dcart la moyenne est sans grande signification.

    IV. La bote de distributionLa bote de distribution (box-ploten anglais, ou encore bote--pattes, bote moustaches , bote de dispersion en franais) est un outil pri-vilgi de l analyse exploratoire des donnes . Elle fournit en un seul coupdoeil des informations sur sa tendance centrale, sa dispersion, son asymtrie,limportance des valeurs extrmes. Elle est aussi particulirement intres-sante pour la comparaison de distributions sur plusieurs de ces critres.

    A. Rsum dune distribution par des quantilesLes trois quartiles Q1, Q2etQ3et les deux valeurs extrmesfournissent pourune distribution des informations sur sa tendance centrale par les quantits

    Q2 , e t (minxi+ max xi), sur sa dispersionpar ltendue etltendue interquartile, et sur sa forme par la comparaison des trois indica-teurs de tendance centrale.

    En analyse exploratoire des donnes, ces cinq valeurs sont prsents avecleur profondeur dans un tableau. Pour la distribution de la dure hebdoma-

    daire du travail en 2000 ( cf.tableau 1.4) :

    On peut complter ce tableau en indiquant ltendue interquartile, lemilieu de lintervalle interquartile, ltendue et le milieu de lintervalle dter-min par les deux valeurs extrmes. On obtient ainsi un rsum des informa-tions sur la dispersion et lasymtrie :

    n= 15 Dure hebdomadaire

    8 Me = 39,9 h

    4,5 Q1= 39,15 Q3= 40,2

    1 minxi= 38,5 maxxi= 43,6

    1

    2--- Q1 Q3+( )

    1

    2---

    1in 1in

    1in 1in

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    34 INTRODUCTION LA MTHODE STATISTIQUE

    B. Reprsentation dune bote de distributionDans une bote de distribution , la bote reprsente lintervalle interquartile,et lintrieur, la mdiane la spare en deux parties. Les lignes qui partentdu bord de la bote stendent jusquaux valeurs les plus extrmes qui ne sontpas considres comme loignes. Le logiciel SPSS note valeur loigne (o), les points situs plus de 1,5 fois ltendue interquartile par rapport auxbords de la bote, et valeur extrme (), les points situs plus de 3 foisltendue interquartile ( cf. figure 1.17).

    Ainsi, la taille de la bote reprsente ltendue interquartile, la position dela mdiane est un bon indicateur de la symtrie de la distribution, la taille deslignes de part et dautre de la bote traduit la dispersion, et les valeurs loi-gnes ou extrmes sont immdiatement repres.

    On reprsente une bote de distributionde la faon suivante (cf. figure 1.16) :

    a) on trace un rectangle de largeur fixe priori et de longueurEIQ = (Q3Q1), et on y situe la mdiane par un segment positionn lavaleur Q2, par rapport Q3et Q1; on a alors la bote,

    b) on calcule ( Q3+ 1,5 EIQ) et (Q1 1,5 EIQ) et on cherche : la dernire observation xhen de de la limite ( Q3+ 1,5 EIQ) soit

    xh= max{xi xiQ3+ 1,5 EIQ} la premire observation xbau del de la limite ( Q1 1,5 EIQ) soit

    xb= min {xi xiQ1 1,5 EIQ}c) on trace deux lignes allant des milieux des largeurs du rectangle aux

    valeursxbetxh

    Ainsi, pour la distribution reprsente la figure 1.16, la valeur loigne associe au Royaume-Uni et mise en vidence sur le diagrammeBranche et feuillede la figure 1.6, est lextrieur de la bote de distribution.

    n= 15 Durehebdomadaire

    Dispersion Position

    8 39,9 h

    4,5 39,15 40,2 EIQ = 1,05

    1 38,5 43,6 tendue= 5,1 minxi+ maxxi = 41,05

    1

    2--- Q1 Q3+( ) 39,615=

    1

    2---

    1in 1in( )

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE

    35

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Ce type de diagramme permet aussi de comparer

    facilement plusieurs dis-tributions en terme de mdiane, quartiles et valeurs loignes ou extrmes.

    On peut reprsenter en parallle les botes de distribution de la dure heb-domadaire du travail des salaris temps complet de lUnion europenne en1990,1995 et 2000, et comparer les trois distributions (

    cf

    . figure 1.17).

    38 39 40 41 42 43

    *

    MaximumMinimum x b Q1 Me Q3 xhQ

    1 1,5 EIQ Q

    3+ 1,5 EIQ

    tendue

    Figure 1.16 Construction de la bote de distribution de la dure du travail en 2000(tableau 1.4)

    45

    44

    43

    42

    41

    40

    39

    38

    37

    N =

    R-Uni

    R-Uni

    R-Uni

    15

    1990

    15

    1995

    15

    2000

    *

    *

    Figure 1.17 Reprsentation SPSS des botes de distribution du tableau 1.3

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    36

    INTRODUCTION LA MTHODE STATISTIQUE

    La mdiane nvolue pas de faon monotone, la dispersion diminue, leRoyaume-Uni passe de valeur loigne en 1990 valeur extrme en1995 et 2000.

    Pour les distributions prsentes par leurs dciles (

    cf

    . tableau 1.5), on neconnat pas les valeurs individuelles. Dans ce cas, on peut convenir deconsidrer valeurs loignes

    les valeurs infrieures au premier dcile ousuprieures au neuvime dcile.

    La reprsentation des botes de distribution des distributions de salaires en2000 permet de comparer les salaires selon le sexe (

    cf

    . figure 1.18). La repr-sentation par des histogrammes (

    cf

    . figure 1.11) ne permettrait pas de com-parer aussi aisment les distributions, les histogrammes ne pouvant pas tresuperposs si on veut conserver la lisibilit, mais seulement juxtaposs.

    C. I

    nterprtation dune bote de distribution

    Une bote de distribution rend compte de la tendance centrale, de la disper-sion, des valeurs loignes ou extrmes et de la forme de la distribution (

    cf

    .figure 1.19), mme si dautre modes de reprsentation (histogramme, brancheet feuille) peuvent apporter un complment dinformation sur la forme.

    10 000

    20 000

    30 000

    40 000

    Euros

    Ensemble Hommes Femmes

    Figure 1.18 Reprsentation des botes de distribution des salaires en 2000

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE

    37

    Dunod.Lapho

    tocopienonautoriseestundlit.

    En statistique descriptive, on a vu limportance du triplet

    (

    n , , s

    X

    ).Pour la distribution de la dure hebdomadaire du travail du tableau 1.4, ce

    triplet prend les valeurs (15 ; 39,93 ; 1,2) pour lanne 2000. La bote dedistribution

    (

    cf

    . figures 1.15 et 1.16) est un complment qui se rvle int-ressant puisquelle permet de dtecter lasymtrie, les valeurs extrmes, etde reprer la mdiane et lintervalle interquartile qui contient la moiti desobservations.

    Dans le cas dune asymtrie, lcart-type qui mesure la dispersion sym-triquement par rapport la moyenne nest pas la mesure de dispersion lamieux adapte, et peut tre complt par ltendue interquartile. Dautre part,si la bote de distribution indique des valeurs loignes ou extrmes, on sait

    que la moyenne et lcart-type sont particulirement influencs par cesvaleurs.

    V. B ilan Avant toute tude formelle, il est ncessaire de procder une valuation

    descriptive des donnes. Cette approche descriptive prsente deux difficults,lune lie aux calculs, lautre la diversit des indicateurs. Si les calculatricesde poche ont permis depuis longtemps dj de rendre aiss les calculs demoyenne et cart-type, il a fallu attendre la gnralisation des moyens de calcul

    Maximum

    Minimum

    1. 2. 3. 4.

    Figure 1.19 Quelques types de botes de distribution :1.Distribution symtrique2.Distribution peu disperse3.Distribution tale vers les valeurs leves4.Distribution tale vers les valeurs faibles

    x

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    38

    INTRODUCTION LA MTHODE STATISTIQUE

    automatique (en particulier, des logiciels statistiques sur m icro-ordinateurs)pour que tous les indicateurs bass sur la notion de profondeur, et en parti-culier la mdiane, soient facilement accessibles. Cest aussi lenvironnement

    rcent des micro-ordinateurs qui a permis de dvelopper les modes de reprsen-tation graphique par lesquels on peut apprhender des indicateurs trs divers.Lapproche descriptive des donnes trouve dans la reprsentation graphique unenrichissement et une aide linterprtation. Simplicit et inter activit de cettedmarche en font une premire tape maintenant indispensable toute tudestatistique.

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE

    39

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Il y a au moins

    une rponse exacte par question.

    1. Pour une srie dobservations dune variable statistique :

    a) on peut calculer quatre quartiles

    b) lintervalle interquartile contient 50 % des observations

    c) le cinquime dcile est gal la mdiane

    d) 50 % des observations sont suprieures au premier quartile

    2. Pour une variable statistique de distribution symtrique :

    a) la moyenne est gale la mdiane

    b) 50 % des observations sont suprieures la moyennec) la bote de distribution contient toutes les observations

    d) (

    Q

    3

    Q

    1

    ) = 2(

    Me Q

    1)

    3. Pour comparer des distributions de variables statistiques exprimes dans desunits diffrentes (par exemple des distributions de salaires exprims dans desmonnaies diffrentes), on peut utiliser les caractristiques suivantes :

    a) la mdiane

    b) ltendue interquartile

    c) le coefficient de variationd) le rapport D9/D1

    4. Pour une srie dobservations dune variable statistique :

    a) la somme des carts la moyenne est nulle

    b) lcart absolu moyen la moyenne est un indicateur de dispersion

    c) la mdiane de la srie des carts absolus la moyenne est une mesure de lasymtrie

    d) les trois quartiles sont des indicateurs de tendance centrale

    5. Une tude des notes obtenues par deux classes dune cole un test commun

    a fourni les rsultats suivants :

    a) la note moyenne des deux classes runies est gale 11b) lcart-type des notes des deux classes runies est gal 5

    c) la mdiane des notes des deux classes runies est gale 12

    d) lcart absolu moyen des notes la mdiane est infrieur ou gal 4 pour la classe 1

    Classe Classe 1 Classe 2

    EffectifMoyennecart-typeMdiane

    20124

    12

    30106

    12

    Testez-vous (les rponses sont donnes page 283)

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    40 INTRODUCTION LA MTHODE STATISTIQUE

    6. Si on veut minimiser linfluence des valeurs extrmes :

    a) on prfre la mdiane la moyenne

    b) on prfre lcart-type lcart absolu moyen la moyenne

    c) on prfre ltendue ltendue interquartiled) on prfre ltendue interdcile (D9D1) ltendue

    7. Soit une grandeur dont le taux de croissance au cours de 3 annes successivesa t de 0,5 % pour les 2 premires annes et de 2 % pour la dernire anne.Le taux annuel moyen de croissance pendant ces 3 annes est gal :

    a)

    b)

    c)

    d) une moyenne harmonique

    8. Pour la distribution dune variable statistique continue (ou supposecontinue) :

    a) lhistogramme est la reprsentation graphique des frquences cumules

    b) 15 % des observations sont comprises entre le troisime quartile et le neuvime

    dcilec) la mdiane peut se dterminer laide de la courbe cumulative

    d) ltendue interdcile (D9D1) contient 90 % des observations

    9. Si les notes (comprises entre 4 et 16) obtenues une preuve de statistiquedans une classe de 30 lves sont toutes augmentes de 2 points :

    a) la moyenne sera augmente de 2 points

    b) lcart-type sera augment de 2 points

    d) la mdiane sera augmente de 2 points

    d) ltendue sera augmente de 2 points

    0,005( )2 0 02,( )

    1 3

    1

    3

    --- 2 0,005 0,02+( )

    1,005( )2 1,02

    1 31

  • 5/26/2018 Introduction La Statistique Www.etu-sup.com

    DISTRIBUTIONS STATISTIQUES UN CARACTRE 41

    Dunod.Lapho

    tocopienonautoriseestundlit.

    Exercice 1.1

    Le tableau suivant donne la rpartition des familles selon le nombre denfants et leurge de 1968 1999 :

    Sources :Recensements de la population, INSEE

    1. Dfinir les populations tudies, lunit statistique, le caractre tudi et sa nature.

    2. Examinez lvolution du nombre total de familles sans enfant, du nombre defamilles avec enfants, avec un enfant, avec deux enfants

    3. On considre dans cette dernire question les familles avec enfant(s).

    3.1. Aprs avoir calcul les frquences, tracez les diagrammes en btons de cesdistributions, et indiquez le mode.

    3.2. Pour chacune des cinq annes, calculez le nombre moyen denfants parfamille et lcart-type (on considrera le nombre moyen denfants des famillesayant cinq enfants ou plus gal 6). Commentez les rsultats.

    Exerci