Introduction
Les concepts de base
Thèmes
• La statistique - pourquoi?
• Les statistiques descriptives– Analyse des fréquences
• Les distributions
– Les mesures de tendance centrale• Quelle mesure faut-il prendre ?
– Les mesures de la dispersion– La relation entre deux variables
• La statistique inférentielle
La statistique sert à ...
• La description des données • Inférence: étude des caractéristiques
d’une population à partir d’un sous-ensemble (échantillon) tiré de cette population– Estimation des paramètres– Vérification des hypothèses
Présentation de toutes les données
La statistique descriptive
Les étapes– Poser une question– Élaborer une étude (choix de l’échantillon,
choix des mesures)– Récolter les données– Décrire les données – Interpréter les données
Hypothèse Données Conclusion
Un exempleQuestion: Développement de la population Méthode: Recensions de la population au Canada
Tracé en arborescence
Type de variables• Variable: Une variable est une caractéristique qui peut supposer
plus d'un ensemble de valeurs auquel il est possible d'attribuer une mesure numérique
• Les variables nominales servent uniquement à catégoriser, aucun ordre et aucune métrique ne correspond à la classification (ex: couleur des yeux)
• Les variables ordinales fournissent un ordre. Pourtant les intervalles entre les catégories correspondant aux chiffres peuvent être variables (ex: mise en rang des préférences)
• Les variables par intervalles sont métriques. Des intervalles égaux et mesurables existent entre chacune des catégories, pourtant le point zéro est arbitraire (ex: échelles de température Fahrenheit et Celsius)
• Les variables de rapport sont des variables par intervalle avec un zéro absolu (ex: les fréquences absolues, l’échelle de température Kelvin)
Analyse des fréquences
Taille des personnes
Forme de la distribution
Distribution bimodaleDistribution symétriquemoyenne = médiane = mode
Biais positif: moyenne > médiane > mode
Biais négatif: mode > médiane > moyenne
SPSS - Frequencies
Mesures de la tendance centrale
Mode : Valeur ou catégorie d’une variable ayant la plus forte fréquence
Médiane : Valeur qui divise le nombre des observations d’une distribution en deux parts égales
Moyenne arithmétique : Somme pondérée des valeurs d’une variable
Exemple
• Données: nombre de partenaires sexuelles
50 100 150 200 250
part
0
500
1000
1500
Count
femmes hommes
50 100 150 200 250
part
Calcul du mode
50 100 150 200 250
part
0
500
1000
1500
Count
femmes hommes
50 100 150 200 250
part
La valeur la plus fréquente
Calcul de la médiane
• Trier les observations selon leur ordre de magnitude
• Identifiez le chiffre au milieuEx. : Quelle est la médiane de la série
suivante ?:11, 11, 13, 15, 17, 17, 17, 19, 19, 19, 19et de celle-ci ?:
1,5,6,9,11,12
Calcul de moyenne
µ = x/n
Ex. : la moyenne de 1,2,3,6,6,7,9 est:
La somme x est (1+2+3+…+9) = 34
Il y a n = 7 observations
µ = 34 / 7 = 4.9
Autre types de moyennes
Trimean: La somme du 25e quartile (Q1) plus deux fois le 50e quartile (Q2) plus le 75e quartile (Q3) divisé par 4.
Donc: (Q1 + (2*Q2) + Q3)/4
Moyenne tronquée (trimmed mean):Avant de calculer la moyenne 5% des valeurs extrêmes sont enlevées (Ex: Notes de patinage artistique)
Exemple
Tendence centrale Femmes Hommes
Mode 1 1
Median 1 4
Moyenne 3.37 10.92
Trimean 1.50 4.75
Trimmed mean 2.40 6.92
SPSS - Explore
Quelle mesure faut-il prendre ?
• Échelle de mesure
• Distribution des données
Distribution • Un chercheur pose la question à savoir combien de
livres de statistique et de méthodologie possèdent les étudiants.
• Dans un groupe cours les 5 étudiants ont tous un livre de stats de leurs cours du CEGEP, du Bac et du Doctorat ainsi que deux livres de métho.
100 1 2 3 4 5 6 7 8 9 11 12
• Dans un autre cours, plusieurs étudiants ont vendu certains livres alors que d’autres étudiants ont acheté des livres plus spécialisés.
100 1 2 3 4 5 6 7 8 9 11 12
• Finalement, dans un autre groupe cours, il y a une personne qui possède maintenant 12 livres.
100 1 2 3 4 5 6 7 8 9 11 12
Mesures de la dispersion
Pourquoi? Les mesures de tendance centrale décrivent
les observations "en général" ou "en moyenne".
Les mesures de la dispersion nous informent jusqu'à quel point ces observations sont proche ou loin de leur "moyenne".
L’étendue
• La différence entre la valeur la plus grande et la valeur la plus petite.
• Cette mesure est très sensible aux valeurs extrêmes.
Ex: 3 5 7 8 9 10 12 13 l’étendu: 13-3 = 10
Femmes: 100 Hommes: 253
Intervalle semi-interquartile
• La moitié de la différence entre le 75e quartile (Q3) et le 25e quartile (Q1).
• Donc: (Q3-Q1)/2.
• Cette mesure est très peu sensible au valeurs extrêmes.
Femmes: 2 Hommes: 9
0
1
2
3
4
5
6
7
0 2 4 6 8 10 12
Sujet
Partenaires
-2 -3
2
-1
1
3
-2
1 1 = 8
= −8
Écart-type
€
x i − x( )∑ x i − x( )Sommes des carrés (SC) =
Variance (s2) = SS/N-1
Écart-type (s) =
€
2
xi−x( )∑N −1
Femmes: 6.25 Hommes: 23.51
Femmes: 39.08 Hommes: 552.63
Erreur-type
La relation entre deux variables
La covarianceLa moyenne du produit des déviations des valeurs des variables par rapport à leur moyenne.
cov(x,y) =xi −x ( ) yi −y ( )∑
N −1
• Cette mesure varie selon l'échelle de mesure. Ex: On obtient une valeur différente pour la taille quand on la mesure soit en pouce soit en centimètre.
La corrélation: La covariance divisée par le produit des écart types des variables
• Le coefficient de corrélation varie entre -1 et 1. • Le signe correspond à la direction de la corrélation.
Quand les deux valeurs augmentent ou diminuent ensemble il s'agit d'une corrélation positive.
• Quand une valeur augmente alors que l'autre diminue il s'agit d'une corrélation négative
• La taille absolue correspond au degré du lien entre les deux variables
r =covx,y
sxsy
Corrélation
• Sir Francis Galton se posa la question à savoir s’il y a un lien entre la taille des parents et la taille de leurs enfants. Il a donc mesuré la taille de 952 parents et de leurs enfants.
Exemple
Sir Francis Galton1822-1911
Régression vers la moyenne
SPSS - Corrélations
Fenêtre des variables
Output
Scatterplot
Scatterplot
LE THÉORÈME DES LIMITES CENTRALES
La statistique inférentielle
Un dé
Deux dés
Trois dés
Quatre dés
Le théorème des limites centrales
Pour une variable x avec une distribution de moyenne µ et d’un écart-type , la distribution d’échantillonnage de la moyenne x , basé sur un échantillon aléatoire de la taille n, a:
– une forme qui approche la courbe normale pour les tailles d’échantillons larges
– une moyenne égale à µ et– un écart-type égal à:
Les tests d’hypothèses
Comparaison entre deux moyennes
Estimation des paramètres
Stendhal (1839) La chartreuse de Parme
J'avouerai que j'ai eu la hardiesse de laisser au personnages les aspérités de leurs caractères; mais, en revanche, je le déclare hautement, je déverse le blâme le plus moral sur beaucoup de leurs actions. A quoi bon leur donner la haute moralité et les grâces des caractères français, lesquels aiment l'argent par-dessus tout et ne font guère de péchés par haine ou par amour? Les Italiens de cette nouvelle sont à peu près le contraire.
Étude de Stieglitz et al.
Pays Moyenne ET Min Max N
Italie 19.8 4.6 6.5 31.5 122
France 13.4 4.0 3.9 23.6 119
Intervalle de confiance• La moyenne m est un estimé de µ• L’erreur-type (se) est un estimé de • Dans une distribution normale 68% des valeur se
retrouvent dans la région d’un E.T. autour de la moyenne, 95% se retrouvent dans la région de deux E.T. autours de la moyenne
x±2ETN
Intervalles de confiance
€
19.8 ± 2.4 ∗4.6
122=19.8 ±1.03
13.4±2.4∗4.0119
=13.4±0.88
10 14 16 20
Intervalle de confiance de la différence
m = 19.8-13.4 = 6.4
se=121* 4.6( ) 118* 4.0( )
122+119−2
⎛
⎝ ⎜
⎞
⎠ ⎟
122+119122*119
⎛ ⎝ ⎜
⎞ ⎠ ⎟ =0.6
€
0.95CI = 6.4 ± 2 * .06 = 6.4 ±1.2
Statistique inférentielle
Tests d’hypothèses
Logique du Test - T
• Si les deux échantillons proviennent d’une même population les moyennes devraient être à peu près identiques
• Nous comparons la différence entre les deux moyennes avec un estimé de la dispersion des moyennes dans la population (erreur-type).
• Quand la différence est plus grande que notre estimé de la dispersion laisse croire, les deux moyennes sont soit:– Atypiques pour une seule population– Typiques pour leur population et proviennent de populations
différentes
Courbe t avec s = .06
t = 1x − 2xse
=6.40.6
=10.7
Carl Friedrich GaussAvril, 30 1777 (Braunschweig, Allemagne) - Février, 23 1855 (Göttingen, Allemagne)
SPSS - T-testW.S. Gosset (1905)