View
3
Download
0
Category
Preview:
Citation preview
LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE
Statistiques 3
2010
2011
Sylvain PLASMAN - Série 6 Cours pour Licence 2, Semestre 4 Année 2011
1
1
2
2
LICENCE 2 – SCIENCES ECONOMIQUES COURS DE MME FRANÇOISE SEYTE
Cours de Statistiques 3
Ecrit et paginé par
Sylvain Plasman
Ecrit pour les étudiants de deuxième année de licence en sciences économiques
Remerciements spéciaux à :
Serghei Podorvaniuc,
Katarina Palusekova,
Maria Camila Porras Rivera,
et Victor Pluskwa
Sans qui le cours serait incomplet...
Pour toutes incompréhensions, imperfections ou erreurs éventuelles,
Merci de les signaler sur le forum de la faculté de sciences économiques de l'UM1, à cette
adresse :
http://www.forum-sceco.fr , à défaut de ne pouvoir me contacter directement...
3
3
PRISE DE NOTE PAR : PLASMAN SYLVAIN – SERIE 06 ANNEE 2010 – 2011
Sommaire
Chapitre I Les lois de la distribution statistique : les modèles continues
P.008
I. La loi normale Laplace-Gauss P.008
A. Définition de la loi normale P.008
B. Loi normale réduite centrée P.010
C. Détermination pratique des probabilités : Usage des tables statistiques
P.012
D. Conditions d’application P.015
1. Variable aléatoire normale P.015
2. Théorème central limite P.016
II. Loi du Khi² P.018
A. Définition P.018
B. Tables statistiques P.019
C. Somme du Khi² indépendantes P.020
III. Loi de Student P.020
A. Définition P.020
B. Densité de probabilité de la loi de Student P.021
IV. Loi de Fisher-Snedecor P.021
A. Définition P.021
B. Tables statistiques P.022
Chapitre II Convergences statistiques
P.023
I. Convergence en probabilité P.023
A. Définition P.023
B. Condition de convergence en probabilité P.023
II. Convergence en loi P.024
A. Définition P.024
B. Cas particuliers de convergence en loi P.025
Chapitre III Echantillonnage
P.027
I. Définition P.027
A. Echantillon Théorique Aléatoire Probabilisé P.027
B. Echantillon Théorique ou Observé P.027
4
4
C. Vraisemblance d’un échantillon D. Notation des caractéristiques théoriques et empiriques
P.027
P.028
II. Variable d’échantillonnage P.028
A. Etude de P.028
B. Etude de P.028
C. Moment empirique non centré d’ordre P.030
III. Loi de probabilité de variable d’échantillonnage fondé sur l’hypothèse de normalité : Cas d’un échantillon
P.031
A. Loi de P.031
B. Loi de la variance et Théorème de Fisher P.032
C. ?? (Cours interrompu) P.032
IV. Loi de probabilité de variable d’échantillonnage à partir de 2 échantillons prélevés dans 2 populations
P.032
A. Loi de la différence de la moyenne lorsque les variances des populations sont connues
P.032
B. La loi de différence de la moyenne d’échantillon lorsque les écart-types de population sont inconnus
P.033
C. Loi du rapport des variances P.034
D. Loi de la différence de deux proportions d’échantillon P.034
Chapitre IV L’estimation ponctuelle
P.036
I. Notations et définition P.036
II. Les propriétés de l’estimateur P.036
A. Estimateur sans biais (sans distorsion, centré) P.036
B. Estimateur convergent P.037
C. Estimateur efficace (Inégalité de Fréchet Rao Cramer Darmois – FRCD)
P.037
D. Estimateur exhaustif P.038
III. La méthode du maximum de vraisemblance P.038
IV. Les théorèmes de Dugué P.038
Chapitre V Estimation par intervalle de confiance
P.042
I. Principe d’estimation par intervalle de confiance P.042
II. Estimation par intervalle de confiance de paramètre de population P.043
A. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est connue
P.043
B. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est inconnue
P.045
C. Estimation par intervalle de confiance de la variance d’une population
P.046
D. Estimation par intervalle de confiance d’une population P.047
5
5
E. Taille d’un échantillon et précision de l’estimation P.049
1. Détermination de la taille de l’échantillon en fonction de la précision sur la proportion
P.049
2. Détermination de la taille de l’échantillon en fonction de la précision sur la proportion
P.051
III. Estimation par intervalle de confiance de la différence et du rapport de deux paramètres de deux populations : cas de deux échantillons de population
P.052
A. Intervalle de confiance de la différence de moyenne lorsque les variances de population sont connues
P.052
B. Intervalle de confiance de la différence de moyenne lorsque les variances de population sont inconnues
P.053
C. Estimation par intervalle de confiance du rapport des variances de deux populations
P.053
D. Estimation par intervalle de confiance de deux proportions P.054
Chapitre VI Construction d’un test d’hypothèse : aspect méthodologique
P.055
I. Le risque d’erreur P.055
II. Efficacité d’un test P.056
III. Elaboration d’une règle de décision P.056
IV. Typologie du test d’hypothèse P.056
Chapitre VII Test du Khi deux
P.058
I. Test d'adéquation P.058
A. Données du problème P.058
B. Construction du test P.058
1. La formulation de l'hypothèse P.058
2. La fonction discriminante P.059
3. La région critique P.060
4. La règle de décision P.060
C. Considération pratiques P.061
II. Test d'indépendance P.061
A. Données du problème P.061
B. Construction du test P.062
1. La formulation de l'hypothèse P.062
2. La fonction discriminante P.062
3. La région critique et la règle de décision P.064
C. Considérations pratiques P.064
III. Test d'homogénéité P.064
6
6
Chapitre VIII Test paramétriques
P.066
I. Test de significations des paramètres P.066
A. Problématique P.066
B. Test de signification de la moyenne d'une loi normale lorsque l'écart type de la population est connu
P.067
C. Test de signification de la moyenne d'une loi normale lorsque la variance est inconnue
P.069
D. Test de signification de la variance de la loi normale P.070
E. Test de signification d'une proportion P.072
II. Test de comparaison ou d'égalité des paramètres P.073
A. Problématique P.073
B. Test de comparaison des moyennes de deux lois normales lorsque les variances sont connues
P.073
C. Test de comparaison des moyennes lorsque les variances sont inconnues
P.077
D. Test de comparaison de variances de deux lois normales P.079
E. Test de comparaison de deux proportions P.080
III. Test de comparaison sur plus de deux paramètres P.082
A. Test de comparaison de plusieurs moyennes P.082
B. Test de comparaison de plusieurs variances P.089
C. Test de comparaison de plusieurs proportions P.090
7
7
8
8
Chapitre I
Les lois de la distribution statistique : les modèles continus
IV. La loi normale (Laplace-Gauss)
S’applique à une variable statistique qui est la résultante d’un nombre de causes indépendantes
dont les effets s’additionnent et dont aucune n’est prépondérante.
A. Définition de la loi normale
:
La variable aléatoire est continue,
2
et sont 2 paramètres : écart-type moyenne
Ex :
2
2
Changement de variable
2
2
La valeur de la moyenne détermine la position de la courbe et la courbe de même écart-type se
réduise par dispersion
9
9
La courbe de densité de la probabilité de la loi normale se présente comme une courbe
symétrique uni-modale sur la branche externe tangentiellement à l’axe des abscisses.
Calcul de
2
La fonction
est paire si je change ua-u, la fonction ne change pas. Donc l’intégrale d’une
fonction faire est égale à 2 fois l’intégrale sur la moitié du domaine.
Si impaire :
2
Changement de variable
2
2
appel : 2
ici 2
2
2 or
2
Même changement de variable
u m
2
10
10
2
2 2
2 2
Même changement de variable
2
2
2
2 2
2
2 2 2
2
2
2
2
2
2
Rappel : n n
2
2
2 2
2
B. Loi normale centrée réduite
:
11
11
La probabilité que x soit dans l’intervalle in initésimal est égale à
2
après changement de variable la probabilité que u se trouve dans l’intervalle de u u du est égale à
2
2
2
avec
2
2
2
2
:
2
2 2
2
2
’
xe des ordonnées axe de symétrie
12
12
’’
2
–
2
2
2
2 ’’
Médiane :
2
é
Fonction répartition
2
C. Détermination pratiques des probabilités : Usage des tables statistiques
Toutes les tables de la loi normale se ramènent à celle de la variable normale centrée réduite U
Table de la densité de probabilité p.2
Cette table donne la densité de probabilité f(u) correspondante aux valeurs positives de la
variable normale centrée réduite
13
13
Pour des calculs de valeurs négatives :
En raison de la symétrie des valeurs de u, la table permet de déterminer les densités
correspondantes à des valeurs négatives de u.
2 2
Pour des calculs valeurs à
On procède par interpolation linéaire lorsque l’on a besoin de calculer des densités
correspondantes à des valeurs u intermédiaires à celle correspondant, grâce à la continuité (loi
normale)
2
2
2
Pour
2
2
2
2
14
14
Tables de fonction de répartition
Cette table donne pour toutes valeurs positives de la variable normale centrée réduite la
valeur correspondante de la fonction de répartition .
Pour , lecture directe
Pour
–
2
2
2
2 2
–
Variable léatoire Normale Centrée éduite V NC
2
2
2
2
2 2
2 2
Cette table permet de trouver la valeur d’une variable aléatoire normale centre réduite en
fonction de la probabilité P de déplacement ou de la probabilité complémentaire
15
15
Table de la loi normale centrée
:
La table nous permet de lire directement les valeurs de
lecture directe de
lecture dans la table de –
22 2
D. Conditions d’application
1. Variable aléatoire normale
La somme de deux variables indépendantes ayant respectivement pour paramètres
et est elle même une variable aléatoire normale de moyenne
et de variation
2 .
–
16
16
Rappel :
.
Rappel :
Conclusion : Ceci est la fonction caractéristique d’une loi centrée réduite
et obéissent à une loi normale de paramètre et de variance
indépendant
2. Théorème central limite
Le théorème central limite donne le comportement asymptotique de la somme de variables
indépendantes.
17
17
Soit une suite de variable aléatoire vérifiant les propriétés suivantes :
indépendantes
Leur espérance mathématique est leur variance existe
o
o
Le rapport de la variance d’un élément particulier de la suite à la somme des variances
tend vers 0 quand n tend vers +
o
quand
o Cette condition peut s’interpréter cette façon : la variabilité dû à un facteur de
fluctuation particulier est faible par rapport à la variabilité totale de x dû à
l’ensemble des facteurs
On suppose :
–
On suppose que les moyennes sont égales et que les variances soit égales et que ces
variables aléatoires suivent des lois de mêmes natures, de même moyenne et de même
écart-type
On suppose que les variables aléatoire suivent des lois de même nature, même moyenne
et même écart-type et suivent des lois indépendantes. La somme des est
asymptotiquement normale de moyenne mn et d’écart type sigma racine n :
o
18
18
o
Les phénomènes qui peuvent être considéré comme engendré par un grand nombre de causes
élémentaires de fluctuation agissant de façon indépendants seront susceptibles d’être
représentés par la loi normale. La loi normale est l’approximation de la loi binomiale lorsque la
taille de l’échantillon tend vers .
ne doit pas être voisin de .
I. Loi du Khi² ( )
A. Définition
Loi de probabilité
Ӿ² a un degré de liberté : Ӿ
Ӿ
’
2
Ӿ
Ӿ
Ӿ 2
Ӿ 2
Ӿ
19
19
.
La somme de n variables aléatoire centrée réduite constitue la loi du Khi² à n degré de liberté
Ӿ
.
2 2
Ӿ
Ӿ 2
La loi de distribution du Khi² est une loi de distribution dissymétrique avec étalement sur la
droite, toutefois elle tend à devenir symétrique quand le nombre de degré de liberté qui
augmente.
La variable aléatoire du Khi² à n degré de liberté a été défini comme la somme des carrées de n
variables aléatoires normales centrés réduites, considéré n VANCR indépendantes revient à se
placer en n dimensions. Le nombre de degré de liberté suivit par cette somme correspond au
nombre de dimension de l’espace dans lequel se situe les points représentatifs des valeurs du
Khi².
B. Tables statistiques (p.22)
La distribution du Khi ne dépend que d’un seul paramètre le nombre de degré de liberté.
La table est un tableau à double entrée. En colonne, la probabilité, en ligne, le degré de liberté.
Ӿ Ӿ
La table donne la valeur du Khi ayant la probabilité p d’être dépassé.
En indice, est mise la probabilité qui correspond à la fonction de répartition.
Ӿ Ӿ
(Pour 90%, notez .90)
A la lecture directe du tableau :
Ӿ.
Ӿ. 2
La table du Khi² est utilisable jusqu’à
20
20
Lorsque , on admet 2Ӿ 2
C. Somme du Khi² indépendante
Soit
Ӿ
Ӿ .
Rappel : Ӿ t 2it
t t ind 2it 2it
2 2
2 2
2 2
Ӿ
II. Loi de Student
A. Définition
Rapport entre une loi normale centrée réduite et la racine carrée d’un Khi sur son degré de
liberté.
Ӿ
, les deux variables sont indépendantes
2
2 2
21
21
2 2 2
B. Densité de probabilité de la loi de Student
.
2 .
2 2
2
. 2
2 .
2
Grand échantillon, la loi de Student tend vers la loi normale
o
: Borne inférieure ou supérieure en valeur absolue (dans le cadre du calcul de l'aire de
probabilité en bilatéral).
et
Le principe probabilité et d’être dépassée en valeur absolue c'est-à-dire, la probabilité .
La probabilité vient d’être répartie en deux seuils égaux. Partage entre 2 parties égales
(Bilatéralisme).
Exemple :
. On suppose que la probabilité se répartie équitablement
On considère un intervalle bilatéral symétrique
à gauche à droite
III. Loi de Fisher-Snedecor
A. Définition
La variable de Fisher-Snedecor est constituée par le rapport de deux Khi² rapportées à leur
degré de liberté (Les Khi² étant indépendants)
22
22
Ӿ
Ӿ
Ӿ Ӿ
B. Tables statistiques (p.24)
Elle vous donne les valeurs de , la probabilité d’être dépassé
23
23
Chapitre II
Convergence statistiques
Définition :
Une suite numérique converge vers une limite lorsqu’il existe un seuil au delé duquel
les sont proches de la limite. Une suite de variables aléatoires peut converger lorsque
augmente indéfiniment soit vers un nombre certain et donc on parlera de convergence en
probabilité, soit vers une autre variable aléatoire : convergence en loi.
I. Convergence en probabilité
A. Définition
Une suite de variable aléatoires définies sur le même espace fondamentale par ou
ou bien par converge en probabilité vers le nombre certain si
sont deux valeurs qui sont faibles
tend vers
B. Conditions de convergence en probabilité
1ère condition (suffisantes de convergence en probabilité) :
Théorème de Bienaymé-Tchebychev
Définition : Pour une suite de variable aléatoire converge en probabilité vers un nombre
certain et qu’il suffit que l’espérance mathématique de tend vers et que la variance de
tend vers lorsque tend vers
2ème condition
Loi faible de Grands Nombre
Théorème de Bernoulli
répétitions
Soit de l’événement sur les épreuves élémentaires
24
24
Considérons la variable aléatoire Fréquence de réalisation de l’événement ) où :
Caractéristique de :
D’après le théorème de Bienaymé-Tchebychev la fréquence relative d’un événement converge
en probabilité vers la probabilité de cet événement (Théorème de Bernoulli).
3ème condition
Converge (CV) en moyenne quadratique
Une suite de variables aléatoires converge en moyenne quadratique vers si l’espérance
mathématique du carré de l’écart entre et converge vers 0 quand .
Notée :
Conséquence : Si une suite de variables aléatoires converge en moyenne quadratique vers elle
converge aussi en probabilité vers quand
4ème condition
Théorème de Slutsky
Si converge en probabilité vers , alors convergera en probabilité vers
II. Convergence en loi
A. Définition
Etant donnée une variable aléatoire , de fontion de répartition et pour fonction
caractéristique , on dit que la suite « converge en loi » vers lorsque si
converge vers et si la fonction caractéristique converge vers .
Notée :
25
25
Remarque :
Si converge en loi vers , la fonction caractéristique de convergera uniformément vers la
fonction caractéristique de X dans tout intervalle fini de t lorsque tend vers
Si converge uniformément vers alors on peut déduire qu’il y a converge en loi
de vers
B. Cas particuliers de convergence en loi
Première convergence :
Rappel : Ne pas oublier, dans le cas de convergence, de justifier la première loi.
2ème convergence
3ème convergence
4ème convergence
5ème convergence
Degré de Liberté
26
26
6ème convergence
Ӿ 2Ӿ 2
27
27
Chapitre III
Echantillonnage
I. Définition
A. Echantillon Théorique Aléatoire Probabilisé
Soit une variable aléatoire (notée : ) définie dans une population. Elle est caractérisée par
sa loi de probabilité.
On appelle « Echantillon Théorique Aléatoire Probabilisé » de taille (ou échantillons) le
vecteur aléatoire où les obéissent ( ) à une loi et où
B. Echantillon empirique ou observé
L’échantillon empirique est constitué de petites images de
Indépendant Identiquement Distribué Notée IID
C. Vraisemblance d’un échantillon
Cas d’une variable aléatoire discrète : Ӿ
. Ӿ
Cas d’une variable aléatoire continue : Ӿ
Ӿ
28
28
D. Notation des caractéristiques théoriques et empiriques
Population Echantillon théorique Echantillon empirique
II. Variable d’échantillonnage
A. Etude de
2
2
B. Etude de
: :
appel:
29
29
2
2
Trouver m ( sans constante)
.
S variable d’échantillon est appelé estimateur avec biais de la variance de population. Le biais
étant égale à
. Cependant est dit estimateur sans biais de la variance de population.
Démonstration à savoir refaire on s’en sert de cette démonstration pour montrer que la
variance d’échantillon d’une loi normale possède un biais
30
30
C. Moment empirique non centrée d’ordre
: :
:
or
2
31
31
2 .
2
2
Cas particulier
III. Loi de probabilité de variable d’échantillonnage fondée sur l’hypothèse de normalité : cas
d’un échantillon
Echantillon IID
A. Loi de
(cf. Chap.1.I.D.2., portant sur le théorème central limite)
32
32
Rappel :
B. Loi de la variance et Théorème de Fisher
2
2
Ӿ
C. ???
IV. Loi de probabilité de variable d’échantillonnage à partir de 2 échantillons prélevés
dans 2 populations
Hypothèse :
A. Loi de la différence de moyenne lorsque les variances des populations sont connus
33
33
.
D’ s t Chap.1 I.D.
B. La loi de différence de la moyenne d’échantillon lorsque les écart-types de population
sont inconnus
Ӿ
Ӿ
Ӿ
Ӿ
2
Hypothèse :
Ӿ 2
.
34
34
2
2
2
2
C. Loi du rapport des variances
Ӿ
Ӿ
.
Ӿ .
Ӿ .
Ӿ
.
Ӿ
.
D. Loi de la différence de deux proportions d’échantillons
35
35
36
36
Chapitre IV
L’estimation ponctuelle
I. Notations et définition
Soit une population caractérisée par une variable aléatoire , cette variable dépend d’un
paramètre . On prélève un échantillon IID é
On appelle « Estimateur de » : un vecteur aléatoire qui est fonction des variables
d’échantillons amenés à remplacer .
II. Les propriétés de l’estimateur
Pour être un bon estimateur doit être :
Sans biais
Convergent
Efficace
Exhaustif
Toutes les définitions sont à connaître
A. Estimateur sans biais
est dit estimateur sans biais si l'espérance de l'estimateur est égale à sa vraie valeur
(Cf. Chapitre 3, 2.B)
Biais
37
37
est asymptotiquement sans biais
B. Estimateur convergent
L’estimateur qui définit une loi est dit convergent si converge en probabilité vers sa vraie
valeur
et
Convergence d’un estimateur sans biais
Il suffit de montrer que
bsolument convergent
C. Estimateur efficace (Fréchet, Rao, Cramer, Darmois) (FRCD)
Cette inégalité permet de rechercher un estimateur efficace sous des conditions très générales
(Existence de dérivés sous l’opérateur et continuité de la fonction)
et de inconnu
fonction de vraisemblance de l'échantillon
Estimateur ef icace
38
38
Pour démontrer l’efficacité d’un estimateur si cet estimateur est sans biais il suffit de montrer
qu’il atteint la borne de l’inégalité Fréchet ao Cramer Darmois )
D. Estimateur exhaustif
Un estimateur exhaustif s’il résume toute l’information relative aux paramètres disponibles sur
l’échantillon. On recherche alors la famille des estimateurs exhaustifs tels que l’on ait la
décomposition suivante :
exp ou exp
III. La méthode du maximum de vraisemblance
Cette méthode est une méthode d’estimation ponctuelle. Elle permet de déterminer
l’estimateur d’un paramètre inconnu d’une loi définie dans une population. Cette fonction de
vraisemblance se calcule à partir de l’échantillon empirique.
L’estimateur de maximum de vraisemblance de , seul paramètre de la loi de à estimer, est
basé sur le principe suivant :
On recherche l’estimateur , qui rend la fonction de vraisemblance maximale, c'est-à-
dire qui rend la rend la probabilité d’apparition a posteriori de l’échantillon observé maximale.
On appelle « Fonction de vraisemblance » le produit de probabilité ou de densité de probabilité.
V discrète
ou V continue
Pour chercher le maximum de la fonction de vraisemblance, on cherche le
On calcule alors :
On forme l’équation du maximum de vraisemblance.
On suppose , les conditions de deuxième ordre.
39
39
IV. Les théorèmes de Dugué
La probabilité pour que l’équation du maximum de vraisemblance ait une solution
convergente en probabilité vers la vraie valeur du paramètre tend vers .
S’il existe un estimateur efficace alors l’équation du maximum de vraisemblance a une
solution unique égale à cet estimateur.
Estimateur ef icace
S’il existe un estimateur exhaustif toute solution de l’équation du maximum de
vraisemblance est une fonction de l’estimateur exhaustif. De plus la distribution de
l’estimateur exhaustif se déduit de la fonction de vraisemblance.
L’équation du maximum de vraisemblance a pour solution une estimation asymptotiquement
normale et efficace du paramètre.
Exemple : Déterminer l’estimateur du maximum de vraisemblance de la loi de Poisson :
Rappel : Donner l’explication de la méthode du maximum de vraisemblance :
1)
40
40
(Rappeler la loi)
2)
On sait que
Si bsolument convergent
3)
41
41
atteint la borne de l'inégalité de F CD
Estimateur ef icace
4)
exp ln exp
ln
ln
pour
est exhaustif.
42
42
Chapitre V
Estimation par intervalle de confiance
Il s’agit ici de trouver une estimation par intervalle de confiance d’un paramètre , c'est-à-dire
de construire « une fourchette de valeurs numériques permettant de situer ».
On dispose toujours d’un échantillon IID et d’un estimateur , d’un paramètre inconnu vérifiant
les 4 propriétés du chapitre précédent.
pourrait être ou 2 populations 2 échantillons
m m
I. Principe d’estimation par intervalle de confiance
Il est possible de trouver 2 valeurs particulières et tel que
Le but est de réécrire cette inégalité en lui cachant le paramètre .
IC
Le principe de l’estimation d’un intervalle de confiance est d’encadrer le paramètre inconnu de
la loi de la population.
Degré de confiance = degré de certitude
IB (Intervalle Bilatéral)
2 IBS (Intervalle Bilatéral Symétrique)
IUD (Intervalle Unilatéral Droit)
IUG (Intervalle Unilatéral Gauche)
43
43
II. Estimation par intervalle de confiance de paramètre de population
A. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est
connue
Problème : IB
44
44
ou
On recherche a déterminer l’intervalle de confiance pour la moyenne d’une population sachant
la X suit une loi normale 2 où
1) IBS
. 2
2)
2 .
. 2
. 2
2
2
IUG(BS)
2
IUD (BS)
45
45
B. Estimation par intervalle de confiance de la moyenne de population lorsque la variance est
inconnue
inconnu
Problème :
IB
IBS
IUD
46
46
IUG
C. Estimation par intervalle de confiance de la variance d’une population
Problème :
Ӿ
IB
Ӿ Ӿ Ӿ
Ӿ
Ӿ
Ӿ
Ӿ
Intervalle de convergence de la variance normale
IBS
Ӿ
Ӿ Ӿ Ӿ
Ӿ
Ӿ
Ӿ
Ӿ
IUD
47
47
Ӿ Ӿ
Ӿ
Ӿ
IUG
BS
Ӿ Ӿ
Ӿ
Ӿ
D. Estimation par intervalle de confiance d’une proportion
.
Problème :
IB
48
48
On encadre et on retrouve dans les bornes de l’intervalle
3 Méthodes pour retrouver les bornes de l’intervalle de confiance :
Méthode de l’estimateur
IBS
Méthode par excès
Max sous contrainte
2
2
2 2
IBS
49
49
Méthode par ellipse
Les points qui satisfont à cette inégalité sont les points intérieurs d’une ellipse dont l’équation
est la suivante :
baque (Voir les tables statistiques)
Intervalle :
et sont lues graphiquement
E. Taille d’un échantillon et précision de l’estimation
Ici on cherche à déterminer en fonction de la précision de l’estimation c'est-à-dire écart entre la
valeur théorique et la valeur estimée la taille de l’échantillon correspondant.
1. Estimation de la taille d’un échantillon en fonction de la précision sur la moyenne
IBS
50
50
Il y a deux façon de calculer la taille de l’échantillon en fonction de la précision souhaitée : en
valeur absolues ou en valeur relative
Précision en valeur absolue
IBS
Avec inconnu, on passe par la loi de Student.
Précision en valeur relative
51
51
2. Détermination de la taille de l’échantillon en fonction de la précision sur la proportion
En valeur absolue
Précision en valeur relative
III. Estimation par intervalle de confiance de la différence et du rapport de deux paramètres de
deux populations : cas de deux échantillons de population
1ère Population :
52
52
2ème Population :
A. Intervalle de confiance de la différence de moyenne lorsque des variances de populations
sont connues
Problème :
IB
IBS
IUG
IUD
B. Intervalle de confiance de la différence des moyennes lorsque les variances des populations
sont inconnues
inconnu 2
2
53
53
Problème identique au précédent
Hypothèse :
IB
2
2
2
IBS
2
C. Estimation par intervalle de confiance du rapport des variances de deux populations
Problème :
IBS
Pour obtenir l’encadrement
soit on inverse l’intervalle soit on constitue la loi de Fisher
54
54
2
D. Estimation par intervalle de confiance de deux proportions
Problème :
IB
IBS
Trois méthodes :
Par excès :
Estimateur :
Abaque :
55
55
Chapitre VI
Construction d’un test d’hypothèse : Aspect méthodologique
D s it d t, sq ’ f s i t v s d fi , d s
paramètres de population avec les intervalles de confiance. A partir de ce chapitre, on connait a
priori les paramètres de population, donc on va tester ces valeurs supposées connues.
O d i y t s q ’ t . L t st b t d s ’ d q ti d
cette hypothèse à la réalité observable (c'est-à-di s s t ts d is ’ ti ).
IV. Le Risque d’erreur
Deux cas possibles :
Le cas du test paramétrique :
L v d θ st i is id d t
: Hypothèse antagoniste car on n'accepte pas
Le cas du test non paramétrique :
O t st ’ y t s id d i
O d it i isq d’ isq d i s , t
(Probabilité du) Risque de première espèce
rejeter vraie
(Probabilité du) Risque de deuxième espèce
accepter vraie
Décision
du test
56
56
V. Efficacité d’un test
Les cases et du tableau précédent ne traduisent pas de risque.
: Seuil de confiance ). La probabilité doit être croissante.
iss d t st. I s’ git d s d ’ ffi it d t st.
o accepter
o accepter
Un test est considéré comme très précis lorsque sa puissance est grande
VI. Elaboration d’une règle de décision
La démarche qui conduit à la prise de décision se fait en deux étapes :
D fi i v t ti g st tistiq d’ ti g , fonction discriminante.
(Définir ex-ante).
O d fi it gi itiq t gi d’ t ti :
s d fi i , d à d t d ’ sti t d t inconnu de la
population dont les bornes seront formées à partir des hypothèses.
I t v d t t
On élabore une règle de décision (notée ).
acceptée au risque de première espèce
rejetée au risque de première espèce
D fi i s ti g d’ ti ( x-post).
O ’i t v d’ t ti t d d isi à ti d’ v
particulière de la statistique retenue.
On dit alors : « J’ t ( j j tt ) ’ y t s au risque de première espèce , et compte
t d ’ ti . »
VII. Typologie du test d’hypothèse
Tests non paramétriques
57
57
U t st st dit t iq sq ’ t t d t x i ’ y t s st f
termes qualitatifs. 2 types de tests non paramétriques :
o L s t sts d’ d q ti :
O t st i s s d’ v i b t i de population .
Lois utilisables : Loi Normale, Loi Binomial, Loi de Poisson, Bernoulli
o L s t sts d’i d d :
O t st ’i d d d d x t s iss s d’ ê ti .
exemple, le rapport accident de la route/âge
Ces deux tests sont calculés avec la loi Khi deux Ӿ
Tests paramétriques
2 types de tests paramétriques :
o Les tests de signification :
On teste la signification du paramètre
o Les tests de comparaison :
La démarche suivante est la même pour tous les tests énoncés précédemment.
Niveau population :
Enoncer les hypothèses
Loi de la variable aléatoire dans la population
Niveau échantillon ex-ante :
Trouver la fonction discriminante
R gi itiq t gi d’ t ti f ti d’ isq d i s
C st ti d ’
Elaboration de la
Niveau échantillon ex-post :
Calculer
Formulation de la décision acceptée ou rejetée
58
58
Chapitre VII
Test du Khi deux
2 types de tests non paramétriques
Test du Ӿ d’adéquation
Test d’indépendance
I. Test d’adéquation
A. Données du problème
On a un échantillon de taille , prélevé dans une population dans laquelle on a une ; on a un
tableau des effectifs qui est construit en classes ( continue) ou sinon, regroupé en valeur
entières discrète)
continue Classes Effectifs
discrète
La loi de la est soit parfaitement déterminée soit non parfaitement déterminée.
Les sont elles les images de ?
B. Construction du test
Le modèle théorique se situe ex-ante avant le tirage d’échantillon
C’est le prélèvement d’un échantillon qui permettre d’accepter ou de refuser l’hypothèse avec
un risque d’erreur choisi.
1. La formulation de l’hypothèse
dont la loi de probabilité obéit à un paramètre
Les observations sont elles adéquates au modèle, c'est-à-dire les observations obéissent
elles à la loi de ?
On suppose que obéit à la loi
59
59
On va tester
o
Pour pouvoir tester cette hypothèse il faut prendre l’estimateur de paramètre de la loi si ces
paramètres ne sont pas connus)
Les estimateurs pris dans le test seront les estimateurs issus de la méthode de maximum de
vraisemblance possédant les 4 propriétés requises.
Comme on suppose cette hypothèse comme vraie, on peut calculer les probabilités rattachées
à chaque classe :
Dans le cas d’une continue,
Dans le cas d’une discrète,
Classes Effectifs si vraie
Si discrète, les sont lues dans les tables
Si continue,
2. La fonction discriminante
Les données en présence sont :
Un échantillon aléatoire de talle
L’effectif de cet échantillon est répartie en classes ; chacune ayant un effectif
Les probabilités sont calculées sur la base de l’hypothèse
L’adéquation entre et l’observation est mesurée par une distance entre la distribution
empirique et la distribution théorique, c'est-à-dire par une fonction des écarts entre les et
les
La fonction retenue est la suivante :
Ӿ
60
60
Ceci est une statistique d’échantillonnage puisque les sont associés à l’échantillon prélevé.
Cette statistique d’échantillonnage est retenue comme fonction discriminante du test
d’adéquation d’une distribution empirique.
Pearson a démontré que cette statistique convergeait vers un Ӿ dont le degré est , avec
: nombre de classes
: nombre de paramètres à estimer (2,1 ou 0)
Ӿ
Ӿ avec vraie
Dans un exercice, la présentation du test doit être expliquée
3. La région critique
Ӿ Ӿ
rejeter vraie
Ӿ Ӿ
4. La règle de décision
Ӿ Ӿ
acceptée au risque de première espèce
Ӿ Ӿ rejetée au risque de première espèce
61
61
C. Considérations pratiques
Classes Effectifs n vraie
Ӿ
Si on a des clases avec de très faibles probabilités les seront petits aussi donc les vont
augmenter artificiellement la du Ӿ
Pour éviter ce risque, on regroupe les classes qui ont de petits
Le degré de liberté du Ӿ va changer. On était à Ӿ et celui-ci devient : Ӿ
avec nombre de clases après regroupement.
II. Test d’indépendance
Ici on va tester l’indépendance éventuelle de 2 caractères attachés à chaque individu d’une
même population.
A. Données du problème
On a un échantillon aléatoire de taille prélevé dans une population dont les individus
possèdent 2 caractères et
A\B . .
.
. . .
. . . .
Nous avons individus qui possèdent à la fois la modalité et
On a . individus qui possèdent la modalité quelque soit la modalité
On a . individus qui possèdent la modalité quelque soit la modalité
62
62
B. Construction du test
1. La formulation de l’hypothèse
: Indépendance entre et
possède modalités
possède modalités
Sur chaque individu on note la valeur du caractère A et B
Dépendance entre et
2. Fonction discriminante
On calcule une distance entre les effectifs observés et les effectifs théoriques correspondant au
cas de l’indépendance.
Le test du Ӿ d’indépendance est donc constitué à partir du calcul de leur distance
Fonction discriminante :
Ӿ
Ӿ vraie
: Effectifs observés
Effectifs théoriques correspondant au cas de l’indépendance
Nombre de classes
Nombre de paramètres à estimer
Recherche de nombre de paramètres à estimer
A\B . .
. .
. . .
. . . .
. paramètres à estimer
. paramètres à estimer
63
63
Recherche du degré de liberté
2
Simplification de l’expression du Ӿ
On sait que . .
et .
.
et
. .
Ӿ
. .
. .
. .
. .
. .
. .
. .
2 . .
. .
. .
. .
. .
2
. .
. .
2
.
.
64
64
. .
2
. .
Ӿ
. .
Ӿ vraie
3. Région critique et règle de décision
Ӿ Ӿ
acceptée au risque de première espèce
Ӿ Ӿ
rejetée au risque de première espèce
C. Considération pratique
A\B . .
. .
. . .
. . . .
Ӿ
. .
III. Test d’homogénéité
On a un ensemble d’échantillons relatifs à des observations sur un caractère
65
65
A\B . .
. . .
. . . .
Peut-on considérer que tous ces échantillons sont issus de la même population ?
Si oui on dira qu’il y a homogénéité dans la population
Si non on dira qu’il y a hétérogénéité
Y a-t-il homogénéité entre les échantillons vis-à-vis de ?
D’o l’hypothèse qu’on va tester :
: Homogénéité entre échantillons
Indépendance entre et l’appartenance à un échantillon
Dépendance
Ӿ
. .
Ӿ vraie
Les explications à faire sont les mêmes que pour l’indépendance
RDD
Ӿ Ӿ
acceptée au risque de première espèce
Ӿ Ӿ
rejetée au risque de première espèce
66
66
Chapitre VIII
Tests paramétriques
2 catégories de test :
Test de signification
Test de comparaison
I. Test de signification des paramètres
A. Problématique
On a une dans une population,
est connu
inconnu mais on a une idée de sa valeur
:
Ex-ante avant le tirage échantillon théorique :
Fonction discriminante
Région critique
Règle de décision
Ex-post (après le tirage) échantillon empirique :
Décision (après la Règle de Décision)
67
67
B. Test de signification de la moyenne d’une loi normale lorsque l’écart type de la population
est connu
est vraie
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
Calcul du risque de deuxième espèce
accepter vraie
68
68
vraie
résultat page des tables
courbe d'ef icacité
puissance du test
dépend du paramètre
vraie
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
69
69
vraie
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce vraie
vraie
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce vraie
C. Test de signification de la moyenne d’une loi normale lorsque la variance est inconnue
inconnu
70
70
vraie
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
Remarque :
:
D. Test de signification de la variance de la loi normale
Ӿ
71
71
Ӿ Ӿ Ӿ
Ӿ
Ӿ
Ӿ
Ӿ
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
Ӿ Ӿ
Ӿ Ӿ
72
72
E. Test de signification d’une proportion
2 modalités
Indépendance des épreuves
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
73
73
II. Test de comparaison ou d’égalité des paramètres
A. Problématique
inconnus
fonction discriminante
Fonction de discrimination Constitution d’un intervalle d’acceptation Règle de décision
B. Test de comparaison des moyennes de deux lois normales lorsque les variances sont connus
IID
connus
74
74
vraie
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
accepter vraie
vraie
75
75
Les 2 étant lues sur la table
é
2
76
76
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
77
77
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
C. Test de comparaison des moyennes lorsque les variances sont inconnues
inconnus
2
2
78
78
D s x i ù t st ’ g it d s y s, on doit au préalable tester ’ g it des
variances
2
2
2
2
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
2
79
79
2
2
D. Test de comparaison de variances de deux lois normales
inconnus
à utiliser si (On veut que
)
80
80
à utiliser si
vraie
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
E. Test de comparaison de deux proportions
et
événement événement
2 modalités mutuellement exclusives
+ Indépendance des événements
et
événement événement
2 modalités mutuellement exclusives
+ Indépendance des événements
81
81
vraie
1) Méthode par excès
2) Méthode par estimations invalide
(Pas eu le temps de tout noter : Il s'agit de la démonstration prouvant que la méthode par estimation
ne peut être utilisé dans ce cas)
Estimateur commun
82
82
III. Test de comparaison sur plus de deux paramètres
A. Comparaison de plusieurs moyennes
Lorsqu’on dispose d’échantillons relatifs à plus de deux populations on pourrait envisager
d’effectuer toutes les comparaisons de moyennes deux à deux. Il faut dans un premier temps
83
83
s’assurer qu’il existe une hétérogénéité des moyennes considérées globalement. On utilise
l’analyse de la variance ) pour comparer les moyennes de plus de deux
populations. On parle d’ à un facteur lorsque les groupes analysés se distinguent par
qu’un seul facteur qualitatif d’ à deux facteurs si les groupes se distinguent par deux
facteurs qualitatifs
Généralités sur l’
Le problème est le suivant : Il faut comparer les moyennes de plus de deux populations. Il est
incorrect de se contenter de comparer les échantillons deux à deux par un test de Student (si les
écarts types sont inconnus ou de la loi normale si les écarts types sont connus . Si l’
permet de s’assurer que l’ensemble des moyennes n’est pas homogène on peut uniquement
dans ce cas comparer des moyennes deux à deux.
Le principe de l’ est de comparer la dispersion factorielle entre échantillon à la
dispersion résiduelle à l’intérieur des échantillons.
Notations
est la somme des carrés des écarts
Equations fondamentales de l’analyse de la variance )
Si on considère un ensemble d’échantillon issu de plusieurs populations, la totale de ce
groupe se décompose :
La SCE factorielle est du à la dispersion des échantillons les uns par rapports aux autres,
elle permet de calculer une variance interclasse
La SCE résiduelle est du à la dispersion des observations au sein des différents
échantillons. Elle permet de calculer une variance intraclasse
totale factorielle résiduelle
84
84
Estimation des
Soit échantillons est un effectif total de
La Somme des écarts total et la somme des écarts de toutes les observations à la
moyenne générale
avec
La Somme des carrés des écarts résiduelle est la somme des carrés des écarts au sein de
chaque échantillon (somme cumulée)
La Somme des carrés des écarts factorielle est la différence entre la Somme des carrés
des écarts total et la Somme des carrés des écarts résiduelle. n’utiliser que pour
vérifier.
Calcul des variances intra et inter échantillons
A la Somme des carrés des écarts total, on lui associe une variance totale
A la résiduelle on lui associe une variance intra échantillon que l’on appelle aussi carré
moyen résiduel
intra
la SCE factorielle on lui une variance inter échantillon que l’on appelle aussi carré moyen
factoriel
inter
Le rapport des variances et le test d’
85
85
On effectue un test de Fisher pour comparer les différentes moyennes, la valeur de Fisher
calculée sera notée
obs
Cet estimateur permet de mesurer l’hétérogénéité des échantillons comparés.
intra inter
nombre d'échantillons de populations
RDD
acceptée au risque de première espèce
rejetée au risque de première espèce
Le résumé d’analyse de variance
Source de variations
Degré de Liberté ( )
Estimateur de dispersion
Totale Factorielle inter Résiduelle intra
Le test de Scheffé permet de comparer des moyennes deux à deux. On l’utilise après avoir fait le
test de Fisher et si le test de Fisher montre qu’il y a hétérogénéité.
intra
Si vraie
intra
2
RDD
86
86
2 acceptée au risque de première espèce
2 rejetée au risque de première espèce
On peut aussi utiliser le test de Student de comparaison des moyennes lorsque les écarts types
sont inconnus
Exercice :
On examine la production laitière journalière de 5 vaches de 3 races différentes
La production de lait d’une vache dépend elle de sa race ?
Race 1 Race 2 Race 3 Vache 1 19,6 28,7 34,8 Vache 2 19,4 28,4 32,9 Vache 3 21,9 28,5 35,3 Vache 4 21,2 31,7 31,8 Vache 5 23,6 31 35,7
1)
ace :
2
ace 2 :
2
ace :
2 2
2
2
2
87
87
2)
résiduelle 2
2
2 2 2 22
3)
Factorielle
2 2 2 2 2
Vérification : Totale résiduelle factorielle
Totale
intra
2
inter F
2
inter intra
2
2 2
RDD
88
88
Si acceptée au risque de première espèce
Si rejetée au risque de première espèce
. 2 2
Les 3 races de vaches produisent des lactations moyennes statistiquement différentes
Comme on vient de montrer que l’hypothèse d’homogénéité des moyennes est rejetée on peut
effectuer des comparaisons de moyennes deux à deux.
Test de Scheffé
Sous
intra
2
2 2
2
2
2 2 2
rejetée et compte tenu de l'échantillon
2
Source de variation
Somme des carrés des écarts
Degré de Liberté
Estimation de dispersion
Totale 466,84 14 Factorielle 433,7 2 inter Résiduelle 33,064 12 intra 2
89
89
B. Test de comparaison de plusieurs variances
Test de Bartlett
Conditions d’utilisation
populations
inconnues
La distribution de la variable aléatoire dans chacune des populations suit une loi
normale
échantillon aléatoire ind
Statistiques d’échantillon
Ӿ ln ln
Ӿ Ӿ
Test
RDD
Ӿ Ӿ
acceptée au risque de première espèce
Ӿ Ӿ
rejetée au risque de première espèce
90
90
Exercice :
2
2 2
2
2
22
2
2 2 2
2
Ӿ 2 ln 2 ln ln 2 ln 2
2
Ӿ. Ӿ.
2
Ӿ
acceptée au risque de et compte tenu des échantillons
C. Test de comparaison de plusieurs proportions
Test de Marascuilo
populations échantillons
Effectif empirique
Effectifs théorique espéré n . .
Ӿ
Ӿ
91
91
correspond au caractère dont on dispose pour les échantillons
RDD
Ӿ Ӿ
acceptée au risque de première espèce
Ӿ Ӿ
rejetée au risque de première espèce
Exercice :
On demande à un certain nombre d'étudiants de 3 UF s’il désire prend un cours de statistique à
la prochaine rentrée.
On veut savoir si le pourcentage d’étudiants qui songe à s’inscrire est identique à chaque UF
Réponse / UFR Psycho AES Maths . Oui 30 32 25 87 Non 60 80 40 180 . 90 112 65 267
2
2
30 32 25 60 80 40
29,33 36,49 21,18 60,67 75,51 43,82
0,02 0,55 0,69 0,01 0,27 0,33
Ӿ
Ӿ. Ӿ.
2 Ӿ. 2
acceptée au risque de et compte tenu de l’échantillon
La proportion d’étudiant désirant s’inscrire en cours de Statistique est donc la même dans
chaque UFR.
92
92
Fin du Cours de Statistique 3 Signé par :
(^)(^)
(=^-^=)
(‘’) (‘’) POOKIPOOKI
votre fidèle serviteur …
93
93
94
94
Statistiques 3
2010
2011
Sylvain PLASMAN - Série 6 Cours pour Licence 2, Semestre 4 Année 2011
Recommended