26
1 Séquence 9– MA01 Intervalles de fluctua- tion, estimation Dans le chapitre 2, on étudie des intervalles de fluctuation des variables aléatoires = F X n , n n fréquences des variables aléatoires binomiales X n de paramètres n et p. On étudie quelques exemples de prise de décision. Dans le chapitre 3, on aborde l’estimation d’une proportion inconnue à partir de celle d’un échantillon. Objectifs de la séquence Séquence 9 Sommaire 1. Pré-requis 2. Intervalles de fluctuation 3. Estimation 4. Synthèse de la séquence 5. Exercices de synthèse © Cned - Académie en ligne

Intervalles de fluctuation

Embed Size (px)

Citation preview

Page 1: Intervalles de fluctuation

1Séquence 9– MA01

Intervalles de fluctua-tion, estimation

� Dans le chapitre 2, on étudie des intervalles de fluctuation des variables aléatoires

=FXn

,nn fréquences des variables aléatoires binomiales Xn de paramètres n et p. On

étudie quelques exemples de prise de décision.

� Dans le chapitre 3, on aborde l’estimation d’une proportion inconnue à partir de celle d’un échantillon.

Objectifs de la séquence

Séquence 9

Sommaire

1. Pré-requis

2. Intervalles de fluctuation

3. Estimation

4. Synthèse de la séquence 5. Exercices de synthèse

© Cned - Académie en ligne

Page 2: Intervalles de fluctuation

3Séquence 9– MA01

1 Pré-requis1Échantillonnage

En statistiques, un échantillon de taille n est la liste des n résultats obtenus par n répétitions indépendantes de la même expérience aléatoire. Ici l’expérience répétée est une épreuve de Bernoulli, c’est-à-dire qu’elle ne prend que deux valeurs : échec / réussite, oui / non, homme / femme, 0 / 1…

Par exemple, un échantillon de taille 100 du lancer d’une pièce dans lequel on compte le nombre de fois où on obtient Pile est la liste des résultats obtenus en lançant effectivement 100 fois la pièce.

Le nombre de réussites dans un échantillon de taille n suit la loi binomiale � n p( ; ).

On appelle f la fréquence du nombre de réussites dans l’échantillon.

On a vu en Seconde que :

L’intervalle − +

pn

pn

1;

1 est un intervalle de fluctuation approché au

seuil de 95 %, relatif aux échantillons de taille n.

dans certains cas, la probabilité que la fréquence appartienne à l’intervalle

− +

pn

pn

1;

1 est très proche de 0,95 mais en étant inférieure, c’est

pourquoi on dit que ce sont des intervalles de fluctuation « approchés ».

Dans la pratique, on utilise l’intervalle − +

pn

pn

1;

1 pour des probabilités p

comprises entre 0,2 et 0,8 et des échantillons de taille n supérieure ou égale à 25.

Définition

Un intervalle de fluctuation au seuil de 95 %, relatif aux échantillons de taille

n, est un intervalle où se situe la fréquence f observée dans un échantillon

de taille n avec une probabilité supérieure à 0,95.

Commentaire :

© Cned - Académie en ligne

Page 3: Intervalles de fluctuation

4 Séquence 9– MA01

Tout intervalle qui contient un intervalle de fluctuation au seuil de 95 %, est lui aussi un intervalle de fluctuation à ce même seuil.

L’intervalle [ ]0 ;1 contient toutes les fréquences, il vérifie la condition de la

définition précédente, mais il est sans intérêt. On cherchera des intervalles

de fluctuation correspondant à des probabilités supérieures à 0,95 et aussi

très proches de 0,95 en particulier dans les prises de décision.

Remarque

Il y a plusieurs sortes d’intervalle de fluctuation. On peut choisir des intervalles de fluctuation centrés en p comme ceux vus en Seconde, où pour lesquels la probabilité que la fréquence soit à l’extérieur de l’intervalle à gauche soit égale à la probabilité que la fréquence soit à l’extérieur de l’intervalle à droite comme ceux vus en Première, ou…

Par exemple, pour =p 0,2 et =n 100, l’intervalle de fluctuation vu en Seconde est [ ]0,1; 0,3 et celui obtenu en Première est [ ]0,12 ; 0,28 .

Remarque

On utilisera ici les intervalles de fluctuation au seuil de 95 % de la forme

− +

pn

pn

1;

1.

� On dispose d’un dé bien équilibré, on gagne quand on obtient 1 ou 6. Déter-

miner un intervalle de fluctuation au seuil de 95 %, de la fréquence des lancers gagnants dans les échantillons de taille 100.

� On sait qu’en moyenne 51% des nouveau-nés sont des garçons. Détermi-ner un intervalle de fluctuation au seuil de 95% de la fréquence des garçons nouveau-nés dans des échantillons de taille 25. Que peut-on en déduire pour le nombre de garçons parmi 25 nouveau-nés ?

Prise de décision

On a découvert une pièce ancienne et on se demande si elle est bien équilibrée. Comment faire ?

On lance n fois la pièce et on note la fréquence f d’apparition de Pile.

On détermine un intervalle de fluctuation In au seuil de 95 %, de la fréquence d’apparition de Pile dans des échantillons de taille n.

� Exercice

� Utilisation

© Cned - Académie en ligne

Page 4: Intervalles de fluctuation

5Séquence 9– MA01

Règle de décision : si f appartient à l’intervalle I ,n on décide que la pièce est équili-brée, si f n’appartient pas à l’intervalle In on décide que la pièce n’est pas équilibrée.

Dans chacun des deux cas suivants, quelle est la décision prise ?

� =n 100 et =f 0,56

� =n 1000 et =f 0,560.

© Cned - Académie en ligne

Page 5: Intervalles de fluctuation

6 Séquence 9– MA01

2 Intervalles de fluctuation

Objectifs du chapitre

Quand on réalise une expérience aléatoire, on observe bien sûr que les résultats obtenus ne sont pas toujours les mêmes, c’est la fluctuation d’échantillonnage.

Mais on observe aussi que, plus on répète une expérience un grand nombre de fois, plus la régularité de la fréquence des résultats est grande.

On définit les intervalles de fluctuation asymptotique et on en donne un exemple.

On peut alors décider si on considère que des résultats obtenus lors d’une expé-rience sont dus au hasard (c’est-à-dire à la fluctuation d’échantillonnage), ou si on considère qu’ils sont statistiquement significatifs d’une différence avec le modèle choisi.

Pour débuter

Sur le tableur Open Office, on a simulé 100 échantillons de n lancers d’un dé tétraédrique bien équilibré.

On a déterminé les fréquences où la face marquée 1 est la face cachée =p( 0,25), elles sont indiquées en ordonnées sur le graphique.

Dans chacun des trois cas, déterminer :

� Le pourcentage des fréquences appartenant à l’intervalle − +

pn

pn

1;

1,

� Le pourcentage des fréquences appartenant à

−−

+−

pp p

np

p p

n1,96

(1 ); 1,96

(1 ).

A

B

Activité 1

© Cned - Académie en ligne

Page 6: Intervalles de fluctuation

7Séquence 9– MA01

Premier cas

00 20

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

fréq

uenc

e

40 60

Fluctuation 100 échantillons

n = 50 p = 0,25

80 100

Deuxième cas

00 20

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4fréquence

40 60

Fluctuation 100 échantillons

n = 100 p = 0,25

80 100

© Cned - Académie en ligne

Page 7: Intervalles de fluctuation

8 Séquence 9– MA01

Cours

1. Intervalles de fluctuation asymptotique

Dans ce qui suit, on considère des variables aléatoires Xn suivant chacune une loi binomiale n p( ; ).�

(exemple : on lance n fois une pièce équilibrée, Xn est le nombre de Pile obte-nus, Xn suit la loi � n( ; 0,5)).

La variable aléatoire =FXnnn donne donc la fréquence du nombre de « suc-

cès » (attention : il s’agit d’une utilisation du mot fréquence différente de ce qui

est fait en statistique lorsqu’on parle de fréquence d’un caractère, ici la fréquence

est une variable aléatoire).

Troisième cas

0

0 20

0,05

0,1

0,15

0,2

0,25

0,3

0,35fréquence

40 60

Fluctuation 100 échantillonsn = 200 p = 0,25

80 100

C

© Cned - Académie en ligne

Page 8: Intervalles de fluctuation

9Séquence 9– MA01

La variable aléatoire Xn prenant les +n 1 valeurs : 0, 1, 2, …, n, on en déduit celles de F .n

On sait que ( ) =X npE ,n et, d’après la linéarité de l’espérance, quand on divise

la variable aléatoire par n, l’espérance est aussi divisée par n. On obtient donc

=Xn

pE .n

Les fréquences Fn ont donc pour espérance le nombre p qui ne dépend pas de n.

Les résultats observés ont tendance à se resserrer autour de l’espérance p quand n augmente. C’est cette concentration des valeurs les plus probables autour de p qui permet d’améliorer la prise de décision à partir des observations.

On montrera plus loin que l’intervalle − +

pn

pn

1;

1 est un intervalle de

fluctuation asymptotique de la variable aléatoire =FXnnn au seuil de 95%. En

classe de seconde, ceci a été énoncé sous forme simplifiée, le caractère asymp-

totique ne pouvant pas être introduit. Des exemples d’utilisation ont été donnés

dans les pré-requis.

Propriété 1

La variable aléatoire =FXnnn :

� prend +n 1 valeurs : n n

nn

0,1

,2

, ..., ;

� a pour espérance le nombre p :

=Xn

pE .n

� Démonstration

Définition 1

Un intervalle de fluctuation asymptotique de la variable aléatoire =FXnnn

au seuil de 95 % , est un intervalle déterminé à partir de p et de n et qui

contient Fn avec une probabilité d’autant plus proche de 95 % que n est

grand.

� Exemple 1

© Cned - Académie en ligne

Page 9: Intervalles de fluctuation

10 Séquence 9– MA01

Les intervalles In sont des intervalles de fluctuation asymptotique car il y a la condition « d’autant plus proche de … que n est grand ». On peut

considérer que les In sont des intervalles de fluctuation « approchés », la

probabilité que les Fn appartienne à In n’est pas forcément supérieure à 0,95 (condition de la définition d’un intervalle de fluctuation au seuil de

95%) mais si elle n’est pas supérieure à cette valeur, elle en est proche.

En pratique dans les exercices, la taille n de l’échantillon est fixée, l’intervalle de fluctuation asymptotique In correspondant sera l’intervalle de fluctuation utilisé.

Remarque

Conditions d’utilisation

Les exigences habituelles de précision pour utiliser cette approximation

sont : ≥n 30, ≥np 5 et − ≥n p(1 ) 5.

Remarque

Déterminer un intervalle de fluctuation asymptotique au seuil de 95% lorsque

=n 100 et =p 0,5.

On a =np 50 et − =n p(1 ) 50 donc les trois conditions sont réalisées et on peut

utiliser l’intervalle I .n On obtient :

L’intervalle = −−

+−

I pp p

np

p p

n1,96

(1 ); 1,96

(1 )n est un intervalle

de fluctuation asymptotique de la variable aléatoire =FXnnn au seuil de

95%.

Résultat admis à savoir

Dans l’activité 1, on a pu faire des observations cohérentes avec ces résul-tats. Mais, la définition d’un intervalle de fluctuation est exprimée avec une probabilité. Si vous faites d’autres simulations avec le fichier qui est sur le site, il se peut que quelques observations donnent des pourcentages éven-tuellement inférieurs à 95%.

� Exemple 2

� Solution

© Cned - Académie en ligne

Page 10: Intervalles de fluctuation

11Séquence 9– MA01

= −×

I 0,5 1,96

0,5 0,5

100; 0,5 1,96

0,5 0,5

100100 soit [ ]0,402 ; 0,598 .

Cet exemple modélise 100 lancers d’une pièce équilibrée. On peut donc dire que,

pour environ 95 % des séries de 100 lancers, la fréquence du nombre de Pile

obtenus se situe dans l’intervalle [ ]0,402 ; 0,598 .

Ces intervalles de fluctuation asymptotique sont plus faciles à déterminer que ceux du cours de Première qui nécessitaient l’utilisation d’algorithmes ou de tableurs, certains tableurs d’ailleurs ne pouvant pas dépasser certaines valeurs pour n.

Remarque

2. Exemple d’utilisation : prise de décision

On utilise un intervalle de fluctuation lorsque l’on veut déterminer si la

proportion f observée dans un échantillon est compatible ou non avec un modèle

de Bernoulli, c’est-à-dire si elle peut être un résultat obtenu par une variable

aléatoire =FXn

,nn où Xn suit une loi binomiale de paramètres n et p, la valeur

p étant connue ou supposée connue dans la population.

Quand Xn suit une loi binomiale de paramètres n et p, un intervalle de fluctuation

asymptotique In au seuil de 95% est un intervalle où se situe la fréquence

=FXnnn avec une probabilité d’autant plus proche de 0,95 que n est grand.

L’intervalle In contient donc environ 95% des fréquences observées dans les

échantillons de taille n suffisamment grande. Des fréquences (environ 5%) de

certains échantillons ne sont pas dans I ,n c’est la fluctuation d’échantillonnage.

En fonction de l’appartenance ou non de la fréquence observée f à l’intervalle

I ,n on décide si l’échantillon est conforme ou non au modèle.

La règle de décision adoptée est la suivante :

� si la fréquence observée f dans un échantillon appartient à un intervalle de fluctuation asymptotique au seuil de 95 % on considère que l’échantillon est compatible avec le modèle ;

� sinon, on considère que l’échantillon n’est pas compatible avec le modèle.

© Cned - Académie en ligne

Page 11: Intervalles de fluctuation

12 Séquence 9– MA01

Avec cette règle, la fluctuation d’échantillonnage amène à rejeter, à tort, les 5 % (environ) d’échantillons qui suivent le modèle de Bernoulli et qui ne sont pas dans I .n

Remarque

Dans les exemples, les tirages sont effectués sans remise. La taille des échan-tillons considérés étant faible par rapport à la taille de la population totale, on assimile les tirages réalisés à des tirages avec remise et on peut alors appliquer les résultats précédents.

Le responsable de la maintenance des machines à sous d’un casino doit vérifier qu’un certain type de machines est bien réglé sur une fréquence de succès de 0,06.

Il décide de régler chaque machine pour laquelle il aura observé, dans l’historique des jeux, une fréquence de succès se situant en dehors d’un intervalle de fluctua-tion au seuil de 95 %.

Lors du contrôle d’une machine, le technicien constate qu’elle a fourni 9 succès sur 85 jeux.

� Déterminer la fréquence observée f de succès de cette machine.

� Déterminer d’après le cours un intervalle de fluctuation asymptotique au seuil de 95 %.

� Le technicien va-t-il modifier le réglage de la machine ?

� Quelle aurait été sa décision s’il y avait eu 21 succès sur 200 jeux ?

� On a = ≈f985

0,106.

� On a =n 85, =p 0,06, =np 5,1 et − =n p(1 ) 79,9, donc les conditions

sont remplies pour utiliser l’intervalle de fluctuation asymptotique du cours

−×

p0,06 1,96

0,06 0,94

85; 1,96

0,06 0,94

85. Comme 0,009 est une

valeur approchée par défaut de −×

0,06 1,960,06 0,94

85 et 0,111 est une

valeur approchée par excès de +×

0,06 1,960,06 0,94

85, alors [ ]0,009 ; 0,111

contient 0,06 1,960,06 0,94

85; 0,06 1,96

0,06 0,94

85− × + ×

et [ ]0,009 ; 0,111

est donc un intervalle de fluctuation légèrement plus large que celui du cours.

� Exemple 3

� Solution

© Cned - Académie en ligne

Page 12: Intervalles de fluctuation

13Séquence 9– MA01

� La fréquence observée f se situe dans l’intervalle de fluctuation donc le réglage

de la machine n’est pas modifié.

� Dans ce deuxième cas, la fréquence observée est = =f21

2000,105 et l’inter-

valle de fluctuation est environ égal à [ ]0,027 ; 0,093 . La fréquence f du nombre

de succès observée n’est pas dans l’intervalle car elle est trop grande, donc le

technicien va modifier le réglage de la machine. On remarque que, dans les deux

cas, les fréquences f sont presque les mêmes mais les décisions prises sont diffé-

rentes car les intervalles de fluctuation sont différents.

3. Complément sur les intervalles − +

pn

pn

1;

1

On peut retrouver l’intervalle de fluctuation qui a été donné en classe de Seconde.

On montre pour cela que l’intervalle − +

pn

pn

1;

1 contient l’intervalle

= −−

+−

I pp p

np

p p

n1,96

(1 ); 1,96

(1 ).n

Pour tout p dans ] [0 ;1 , l’inégalité − ≤p p(1 )14

est vérifiée (la fonction poly-

nôme du second degré � − = − +p p p p p(1 ) 2 admet un maximum car le coef-

ficient de p2 est négatif, ce maximum est atteint pour =p12

et il vaut donc

=12

112

14

).

On en déduit que − ≤ × ≤p p1,96 (1 ) 1,9614

1.

L’amplitude de l’intervalle de fluctuation asymptotique au seuil de 95 % du

cours est égale à ×−p p

n2 1,96

(1 ). Pour une valeur de p donnée, cette

amplitude diminue quand la taille n de l’échantillon augmente.

Remarque

© Cned - Académie en ligne

Page 13: Intervalles de fluctuation

14 Séquence 9– MA01

On obtient :

− ≤ −−

≤ +−

≤ +pn

pp p

np

p p

np

n1

1,96(1 )

1,96(1 ) 1

.

Donc l’intervalle In est inclus dans l’intervalle − +

pn

pn

1;

1 ce qui

entraîne que ∈

≤ − ≤ ≤ +

PXn

I P pn

Xn

pn

1 1.n

nn

Donc l’intervalle − +

pn

pn

1;

1 contient Fn avec une probabilité supé-

rieure à celle obtenue avec I .n

Donc l’intervalle − +

pn

pn

1;

1 contient Fn avec une probabilité d’autant

plus sûre de dépasser 95 % que n est grand.

L’intervalle − +

pn

pn

1;

1 est bien un intervalle de fluctuation asymptotique

de Xnn à un seuil au moins égal à celui de I ,n c’est-à-dire 95%.

Exercices d’apprentissage

(d’après ressources Education nationale)

Les enfants sont dits prématurés lorsque la durée gestationnelle est inférieure ou égale à 259 jours. La proportion de ces naissances est de 6%. Des chercheurs suggèrent que les femmes ayant eu un travail pénible pendant leur grossesse sont plus susceptibles d’avoir un enfant prématuré que les autres. Il est décidé de réaliser une enquête auprès d’un échantillon aléatoire de 400 naissances cor-respondant à des femmes ayant eu pendant leur grossesse un travail pénible. Les chercheurs décident a priori que si la proportion d’enfants nés prématurés dans cet échantillon est supérieure à la borne supérieure d’un intervalle de fluctuation asymptotique au seuil de 0,95 alors leur hypothèse sera acceptée. Finalement le nombre d’enfants prématurés est de 50. Quelle est donc la conclusion ?

Conclusion

D

Exercice 1

© Cned - Académie en ligne

Page 14: Intervalles de fluctuation

15Séquence 9– MA01

Dans le monde, la proportion de gauchers est 12 %.

Dans un club de tennis, il y a 21 gauchers parmi les 103 licenciés.

� Déterminer la fréquence de gauchers dans ce club.

� Déterminer un intervalle de fluctuation asymptotique au seuil de 95 %.

� Peut-on dire que ce club est « représentatif » de la proportion de gauchers dans le monde ?

On souhaite utiliser l’intervalle de fluctuation asymptotique

= −−

+−

I pp p

np

p p

n1,96

(1 ); 1,96

(1 ).n

� Pour =p 0,02, déterminer la plus petite valeur de n vérifiant les conditions

d’utilisation : ≥n 30, ≥np 5 et − ≥n p(1 ) 5.

� Déterminer ensuite la plus petite valeur de n pour laquelle l’amplitude de

l’intervalle de fluctuation est inférieure à 0,1.

Exercice 2

Exercice 3

© Cned - Académie en ligne

Page 15: Intervalles de fluctuation

16 Séquence 9– MA01

3 Estimation

Objectifs du chapitre

On souhaite connaître dans une population, la valeur d’une proportion p (propor-tion des pièces défectueuses parmi les pièces fabriquées par une usine, propor-tion des gauchers en France, intentions de vote pour un référendum, …)

Pour des raisons matérielles, financières ou autres (par exemple, on ne peut pas tester le bon fonctionnement de toutes les allumettes d’une production car dans ce cas tester une allumette amène à la détruire !), on ne peut pas toujours réunir les données concernant la population tout entière.

On va donc estimer la proportion p que l’on cherche à partir de la fréquence f observée dans un échantillon.

Mais on sait que cette fréquence observée va varier d’un échantillon à l’autre, c’est la fluctuation d’échantillonnage autour de p.

Il est donc nécessaire de tenir compte de cette fluctuation en donnant un résultat sous forme d’un intervalle, appelé intervalle de confiance en précisant aussi le niveau de confiance que l’on accorde à cette réponse.

Dans ce chapitre, on montre comment on peut déterminer un intervalle de confiance au niveau 0,95.

Cet intervalle dépendant de la taille de l’échantillon, on détermine la taille de l’échantillon qui est suffisante pour obtenir une précision donnée (qui dépend de l’amplitude de l’intervalle de confiance), le niveau de confiance étant toujours 0,95.

Pour débuter

Dans ce chapitre, on montrera comment répondre à des questions analogues à celles qui suivent.

On considère une urne contenant un très grand nombre de petites billes de cou-leur blanche ou noire, la proportion p de billes noires est inconnue. On cherche à estimer p à partir d’un échantillon de taille n.� On effectue 100 tirages successifs avec remise et on obtient 71 billes noires et 29 billes blanches, à combien peut-on estimer p ?� Même question sachant qu’on a effectué 1000 tirages et obtenu 693 billes noires et 307 billes blanches.

A

B

© Cned - Académie en ligne

Page 16: Intervalles de fluctuation

17Séquence 9– MA01

Cours

1. Résultat préliminaire

Démontrer que, pour tous réels x et y et pour tout réel r positif, on a :

x r y x r y r x y r .− ≤ ≤ + ⇔ − ≤ ≤ +

x r y x r

x r yy x r

x y ry r x

y r x y r .− ≤ ≤ + ⇔− ≤≤ +

⇔≤ +− ≤

⇔ − ≤ ≤ +

La double inégalité − ≤ ≤ +x r y x r équivaut à − ≤ − ≤r y x r qui signi-

fie que l’écart entre les deux nombres x et y est compris entre −r et r, les

deux nombres x et y jouant le même rôle.

Remarque

2. Exemple de référence

Avant d’aborder les définitions et les propriétés bien mises en forme mais un peu difficiles au premier abord, nous allons étudier un exemple.

On considère une urne contenant un très grand nombre de petites billes de cou-leur blanche ou noire, la proportion p de billes noires est inconnue. On cherche à estimer p à partir d’un échantillon de taille n.

La probabilité d’obtenir une bille noire quand on fait un tirage au hasard est égale à la proportion p.

On sait donc que, parmi tous les échantillons de taille n qu’on peut obtenir, envi-

ron 95% d’entre eux ont une fréquence f qui appartient à l’intervalle de fluctua-

tion − +

pn

pn

1;

1. Le résultat préliminaire du � prouve que :

pn

f pn

fn

p fn

1 1 1 1− ≤ ≤ + ⇔ − ≤ ≤ + ce qui permet de déduire que :

∈ − +

f pn

pn

"1

;1

" est équivalent à ∈ − +

p fn

fn

"1

;1

".

Donc, parmi tous les échantillons de taille n qu’on peut obtenir, environ 95%

sont tels que l’intervalle associé − +

fn

fn

1;

1 contient le nombre p que

l’on cherche à estimer.

C

� Solution

© Cned - Académie en ligne

Page 17: Intervalles de fluctuation

18 Séquence 9– MA01

On réalise donc un échantillon de taille n en effectuant n tirages indépendants (tirages au hasard avec remise). On calcule la fréquence f de billes noires dans l’échantillon obtenu et on détermine l’intervalle

− +

fn

fn

1;

1.

On dit alors que p appartient à − +

fn

fn

1;

1 avec un niveau de confiance

de 95% et que l’intervalle − +

fn

fn

1;

1 est un intervalle de confiance au

niveau 0,95.

� On effectue 100 tirages indépendants et on obtient 71 billes noires et 29 billes blanches. Donner un intervalle de confiance au niveau 95% pour la proportion p de billes noires.

� Même question sachant qu’on a effectué 1000 tirages et obtenu 693 billes noires.

� On trouve =f 0,71. Comme =n 100, l’intervalle − +

fn

fn

1;

1 est

l’intervalle − +

0,71

1

100; 0,71

1

100, soit [ ]0,61; 0,81 .

La proportion p de billes noires appartient à [ ]0,61; 0,81 avec un niveau de

confiance de 95%.

On dit aussi que la proportion de billes noires est estimée à 0,71 avec l’intervalle de confiance de [ ]0,61; 0,81 au niveau 0,95.

� On a ici =f 0,693.

Un intervalle de confiance au niveau 95% est donc

− +

0,693

1

1000; 0,693

1

1000.

Pour donner un intervalle dont les bornes sont des nombres décimaux ayant trois

chiffres après la virgule, on détermine une valeur approchée par excès de la borne

de droite et une valeur approchée par défaut de la borne de gauche : on obtient

[ ]0,661; 0,725 .

La proportion de billes noires est estimée à 0,693 avec l’intervalle de confiance de [ ]0,661; 0,725 au niveau 0,95.

Une fois l’échantillon réalisé, l’intervalle − +

fn

fn

1;

1 est déterminé et il

n’y a alors que deux possibilités : p appartient ou n’appartient pas à cet intervalle

� Exemple 4

� Solution

© Cned - Académie en ligne

Page 18: Intervalles de fluctuation

19Séquence 9– MA01

(de même quand on a lancé une pièce, on a obtenu Pile ou on a obtenu Face).

C’est pourquoi on ne s’exprime plus en termes de probabilité. Pour exprimer

l’idée qu’on a obtenu un intervalle et qu’environ 95% des intervalles qu’on peut

obtenir ainsi contiennent la proportion cherchée, on a choisi le mot « confiance ».

3. Définition

Comme dans le chapitre précédent, on considère une suite de variables aléatoires

( )Xn où chaque variable aléatoire Xn suit la loi binomiale � n p( ; ) (exemple :

on lance n fois une pièce et Xn est le nombre de Pile obtenus). La variable aléa-

toire =FXnnn donne donc la fréquence du nombre de « succès ».

On dit qu’un intervalle est aléatoire lorsque ses bornes sont définies par des variables aléatoires.

La réalisation d’un intervalle aléatoire est l’intervalle obtenu après avoir réalisé l’ex-périence aléatoire (après avoir lancé 500 fois une pièce, interrogé 1000 personnes…).

La proportion p dans une population est élément de l’intervalle

− +

fn

fn

1;

1 avec un niveau de confiance d’au moins 0,95, où f désigne

la fréquence observée dans un échantillon de taille n.

Définition 2

Un intervalle de confiance pour une proportion p à un niveau de confiance 95% est la réalisation, à partir d’un échantillon, d’un inter-valle aléatoire contenant la proportion p avec une probabilité supérieure ou égale à 95%.

Propriété 2 admise

Pour une valeur de p fixée, l’intervalle aléatoire − +

Fn

Fn

1;

1n n

contient, pour n assez grand, la proportion p avec une probabilité au moins

égale à 0,95.

� Conséquence

© Cned - Académie en ligne

Page 19: Intervalles de fluctuation

20 Séquence 9– MA01

On se place dans le cas où l’échantillon contient au moins 30 élé-

ments, ≥n 30. Si la fréquence f observée est telle que ≥nf 5 et

− ≥n f(1 ) 5, on convient que f est une estimation de p et que l’inter-

valle − +

fn

fn

1;

1 est un intervalle de confiance au niveau 0,95

pour la proportion p.

Cet intervalle est aussi appelé « fourchette de sondage ».

A savoir

4. Taille de l’échantillon pour obtenir une pré-cision donnée au niveau de confiance 0,95

La précision de l’estimation est donnée par l’amplitude de l’intervalle

− +

fn

fn

1;

1 qui est égale à n2 et dépend donc de la taille n de

l’échantillon.

On observe que cette amplitude ne dépend pas de la taille de la population totale, ce qui peut étonner. Mais pour goûter un plat, il suffit d’en goûter une petite quantité, cette quantité ne dépend pas de la taille du récipient (mais il faut néanmoins avoir bien mélangé) ! (Explication donnée d’après une idée de Jean-Louis Boursin dans son livre « Les structures du hasard ».)

On peut donc choisir la taille n de l’échantillon pour obtenir la précision souhai-

tée. En notant a la précision souhaitée, on cherche un entier n tel que ≤n

a2

,

soit ≥na

4.

2

Précision a 0,06 0,04 0,02 0,01

Taille minimale de l’échantillon n 1112 2500 10000 40000

© Cned - Académie en ligne

Page 20: Intervalles de fluctuation

21Séquence 9– MA01

Les sondages sont souvent faits avec des échantillons d’environ 1000 personnes, la précision obtenue est donc d’environ 0,06.

Ainsi, questionner 1112 personnes suffit pour avoir une fourchette de sondage d’amplitude 0,06, qu’il s’agisse d’un sondage pour un référendum local concer-nant 100000 électeurs ou pour le deuxième tour d’une élection présidentielle concernant 35 millions d’électeurs.

Il faut bien sûr savoir cela quand on reçoit des informations où les sondages sont un élément important.

5. Exemple : sondages et élections

Dans cet exercice, la population est suffisamment grande pour que les sondages soient assimilés à des tirages avec remise. On ne tient compte que des réponses exprimées, c’est-à-dire qu’on ne tient pas compte des prévisions d’abstentions ou des intentions de vote nul. Les sondages sont faits auprès de 1112 personnes.

Au deuxième tour de l’élection présidentielle, le dernier sondage de l’institut A indique 52,5% d’intentions de vote pour le candidat X et 47,5% pour le candidat Y.

L’institut B indique 50,5% d’intentions de vote pour le candidat X et 49,5% pour le candidat Y.

� Y-a-t-il une contradiction entre les résultats de ces deux instituts de sondage ?

� Le candidat X peut-il être totalement rassuré ?

� L’intervalle de confiance –  la fourchette de sondage  – − +

fn

fn

1;

1

obtenu à partir des résultats de l’institut A qui donne =f 0,525 pour le candidat

X est environ égal à [ ]0,495 ; 0,555 . En utilisant les résultats de l’institut B qui

donne =f 0,505, on obtient environ [ ]0,475 ; 0,535 . Les deux fourchettes de

sondage ont une partie commune, donc les résultats de ces deux instituts de

sondage ne sont pas en contradiction.

� Le candidat X ne peut pas être totalement rassuré car les deux fourchettes de sondage contiennent des nombres inférieurs à 0,5, correspondants à un échec de

sa candidature.

6. Simulation

Pour mieux voir ce qu’est un intervalle de confiance, une fourchette de sondage, on a réalisé 20 séries de 200 tirages de 0 et de 1 au hasard.

� Exemple 5

� Solution

© Cned - Académie en ligne

Page 21: Intervalles de fluctuation

22 Séquence 9– MA01

Pour chaque série, on obtient un intervalle de confiance.

Dans les 200 colonnes de A à GR on a écrit les résultats des tirages.

Dans la colonne GS, on a déterminé pour chaque ligne la fréquence avec laquelle on a obtenu 1. Dans les colonnes GT et GU sont calculées les bornes de l’inter-valle de confiance du cours au niveau 0,95. La sélection des colonnes GT et GU et le choix de « XY dispersion » dans type de diagramme dans Open Office donne un diagramme analogue à celui-ci.

On constate ici que 19 d’entre eux contiennent =p 0,5 qui est la proportion

réelle dans cet exemple de tirage au hasard. Un seul intervalle ne contient pas

=p 0,5.

Dans d’autres simulations, on peut bien sûr trouver plusieurs intervalles de confiance qui ne contiennent pas p ou aucun.

Quand on veut estimer une proportion, on utilise un seul intervalle de confiance.

La simulation permet de voir qu’environ 95% des intervalles de confiance contiennent p.

7. Autre intervalle de confiance

Comme il existe différents intervalles de fluctuation, il existe différents intervalles de confiance.

© Cned - Académie en ligne

Page 22: Intervalles de fluctuation

23Séquence 9– MA01

Par exemple, l’intervalle −−

+−

ff f

nf

f fn

1,96(1 )

; 1,96(1 ) est aussi un

intervalle de confiance qui est utilisé dans certains cas. On ne le justifiera pas ici.

Exercices d’apprentissage

� Une usine vient d’installer une chaîne de fabrication pour fabriquer une nou-velle pièce. Après un bref temps de fonctionnement, on prélève 100 pièces. La fabrication est assez importante pour que ce prélèvement soit assimilé à un tirage avec remise. On trouve 23 pièces défectueuses. Déterminer un intervalle de confiance de la proportion de pièces sans défaut avec un niveau de confiance 0,95.

� Des modifications ont été apportées. On prélève de nouveau 100 pièces et on en trouve 9 défectueuses.

Déterminer l’intervalle de confiance correspondant.

� Conclure.

Dans une grande ville, un nouveau cinéma va être construit. La municipalité pro-pose un terrain à proximité du centre ancien.

� Un premier sondage est effectué auprès de 100 personnes choisies de façon aléatoire et indique 53 avis favorables. Peut-on dire que la majorité de la popula-tion est favorable à cet emplacement ?

� Un deuxième sondage effectué auprès de 500 personnes indique la même proportion d’avis favorables. La conclusion est-elle différente ?

� Un sondage effectué auprès de n personnes indique la même proportion d’avis favorables. A partir de quelle valeur de n peut-on estimer, au seuil de confiance 0,95, que la majorité de la population est favorable à cet emplacement ?

D

Exercice 4

Exercice 5

© Cned - Académie en ligne

Page 23: Intervalles de fluctuation

24 Séquence 9– MA01

4 Synthèse de la séquence

Intervalle de fluctuation asymptotique

� L’intervalle = −−

+−

I pp p

np

p p

n1,96

(1 ); 1,96

(1 )n est un intervalle de

fluctuation asymptotique au seuil de 95 %.

Conditions d’utilisation

Les exigences habituelles de précision pour utiliser cette approximation sont :≥n 30, ≥np 5 et − ≥n p(1 ) 5.

� Il faut savoir utiliser un intervalle de fluctuation pour prendre une décision. La règle de décision adoptée étant la suivante :

� si, dans un échantillon, la fréquence observée f appartient à un intervalle de fluctuation asymptotique au seuil de 95 % on considère que l’échantillon est compatible avec le modèle ;

� sinon, on considère que l’échantillon n’est pas compatible avec le modèle.

Intervalle de confiance

Définition

Un intervalle de fluctuation asymptotique de la variable aléatoire

=FXnnn au seuil de 95% est un intervalle déterminé à partir de p et de

n et qui contient Fn avec une probabilité d’autant plus proche de 95% que

n est grand.

Définition

Un intervalle de confiance pour une proportion p à un niveau de confiance

0,95 est la réalisation, à partir d’un échantillon, d’un intervalle aléatoire

contenant la proportion p avec une probabilité supérieure ou égale à 95%.

© Cned - Académie en ligne

Page 24: Intervalles de fluctuation

25Séquence 9– MA01

� Il faut savoir estimer une proportion inconnue p grâce à un échantillon : la

proportion p est estimée par la fréquence f, l’intervalle − +

fn

fn

1;

1 étant

un intervalle de confiance au niveau 0,95.

Conditions d’utilisation

On se place dans le cas où l’échantillon contient au moins 30 éléments et où la fréquence f observée est telle que ≥nf 5 et − ≥n f(1 ) 5.

La précision de l’estimation est donnée par l’amplitude de l’intervalle

− +

fn

fn

1;

1 qui est égale à n2 et dépend donc de la taille n de

l’échantillon.

© Cned - Académie en ligne

Page 25: Intervalles de fluctuation

26 Séquence 9– MA01

5 Exercices de synthèse

Intervalle de fluctuation (d’après ressources Education nationale)

Les personnes qui achètent un billet pour un voyage en avion ne se présentent pas toutes à l’embarquement. Les compagnies aériennes cherchent donc à opti-miser le remplissage d’un avion en vendant éventuellement un nombre de billets supérieur à la capacité de l’avion (on dit que les places sont vendues en surréser-vation ou en surbooking). Les compagnies aériennes veulent bien sûr maitriser le risque dû à cette pratique.

On considère un avion de 300 places, soit n le nombre de billets vendus, soit p la probabilité qu’un client ayant acheté un billet se présente à l’embarquement et soit Xn la variable aléatoire désignant le nombre d’acheteurs d’un billet se présentant à l’embarquement.

On cherche à évaluer n, >n 300, tel que > ≈P X( 300) 0,05,n c’est-à-dire tel

que la probabilité que le nombre de passagers se présentant à l’embarquement

soit supérieur à 300 soit environ de 0,05.

Pour modéliser cette situation on suppose que les comportements des clients sont indépendants les uns des autres.

� Déterminer la loi de X .n

� On suppose que =p 0,85. Écrire l’intervalle de fluctuation asymptotique In

du cours pour Xnn au seuil de 95 %.

� Montrer que si In

0 ;300

,n �

alors la probabilité que le nombre de pas-

sagers se présentant à l’embarquement excède 300 est inférieur à une valeur

proche de 0,05.

� On cherche à déterminer la valeur de n maximale permettant de satisfaire la

condition In

0 ;300

.n �

a) Montrer que, si In

0 ;300

,n �

alors + − ≤n n0,85 1,96 0,1275 300 0.

b) On définit sur [ [+ ∞1; la fonction f par = + −f x x x( ) 0,85 1,96 0,1275 300.

Exercice I

© Cned - Académie en ligne

Page 26: Intervalles de fluctuation

27Séquence 9– MA01

Montrer que la fonction f est strictement croissante sur [ [+ ∞1; et déterminer le

plus grand entier n0 pour lequel la fonction f prend une valeur négative.

c) Vérifier que, pour cette valeur n ,0 on a bien In

0 ;300

.n0

0�

Conclure.

� Appliquer la même démarche lorsque =p 0,9 puis lorsque =p 0,95. Commenter.

Intervalle de confiance

Pour estimer dans une population la proportion p des individus possédant le caractère A, on interroge au hasard 80 éléments de cette population. On observe que 18 individus possèdent le caractère A.

� Donner pour p un intervalle de confiance au niveau 0,95.

� Donner une condition sur le nombre n d’individus interrogés, pour que la pré-cision obtenue par l’intervalle de confiance au niveau 0,95 soit inférieure à 0,05.

� Donner une condition sur le nombre n d’individus interrogés, pour qu’avec la même fréquence observée l’intervalle de confiance au niveau 0,95 soit inclus dans [ ]0 ; 0,25 .

� Déterminer un entier n vérifiant les deux conditions. Quel serait alors, avec la même fréquence observée, l’intervalle de confiance au niveau 0,95 ?

Exercice II

© Cned - Académie en ligne