View
215
Download
0
Category
Preview:
Citation preview
21/04/2017
1
Metodi statistici per le ricerche di mercato
Prof.ssa Isabella Mingo A.A. 2016-2017
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»
A proposito di rappresentatività del campione
a.a. 2016-2017
La rappresentatività di un campione è la sua conformità, ad alcune
caratteristiche della popolazione.
Un campione scelto casualmente è uno dei campioni possibili estraibili
dall’universo dei campioni, pertanto il suo grado di rappresentatività, è solo
probabile.
La casualità rende infatti più probabile che il campione riproduca in media
le caratteristiche della popolazione, a meno di errori imputabili sia al fatto
che si analizza solo una parte di quest’ultima (errore campionario) sia ad
altri tipi di errore (non campionari) che intervengono nell’intero processo di
indagine.
Tuttavia se la casualità di un campione è un requisito indispensabile di
rappresentatività statistica non è però un requisito sufficiente.
21/04/2017
2
Errori e rilevazioni parziali
Non campionari (esempi):
Errore di copertura: le liste utilizzate della popolazione statistica sono incomplete.
Errore di non-risposta: esclusione o auto-esclusione dei casi
Errore dovuto all’intervistatore
………….
Campionari
derivano dal fatto che si analizza un particolare sotto-insieme della popolazione.
I valori rilevati sul campione sono una «stima» di quelli della popolazione, che presenta un errore.
Se il campione è probabilistico la stima degli errori campionari viene effettuata mediante la teoria dei campioni: sono note infatti alcune relazioni che legano gli «stimatori» dell’universo dei campioni ai parametri della popolazione.
Che cosa è l’universo dei campioni
• E’ l’insieme dei campioni possibili di n unità che si possono estrarre
da una popolazione attraverso una operazione di selezione.
• Adottando il criterio di estrazione casuale, il numero di campioni
estraibili da una popolazione è determinato dal numero dei diversi
modi nei quali le unità statistiche si possono combinare nel comporre
il campione.
• Se la popolazione è infinita si possono estrarre un numero infinito di
campioni.
• Se la popolazione è finita, di dimensione N, e si estraggono campioni
di dimensione n, il loro numero dipende dal tipo di estrazione
effettuata.
• Se ad esempio abbiamo N=100 e vogliamo estrarre un campione di 2 unità, in base al calcolo
delle probabilità possiamo ottenere
Con reinserimento o bernoulliana: N n = N 2 = 100 2 = 10.000 campioni
Senza reinserimento o esaustiva tenendo conto dell’ordine: DNn = N!/(N-n)!= 100*99= 9.900
campioni
Senza reinserimento o esaustiva non tenendo conto dell’ordine: CNn = N!/ n!(N-n)!=100*99/2=
4.950 campioni
a.a. 2016-2017
21/04/2017
3
Distribuzioni
Pagina 26
27
Glossario
Probabilità e variabile casuale Per un campione casuale ciascun possibile valore di una
variabile osservata ha una probabilità di verificarsi
La probabilità di un’osservazione è la proporzione di volte in cui essa dovrebbe verificarsi in una lunghissima frequenza di osservazioni (impostazione frequentista)
Se ad esempio la proporzione di minori che fa uso di alcol è nella popolazione pari a 0,7, allora la probabilità che un minore scelto a caso dalla stessa popolazione faccia uso di alcol sarà pari a 0,7.
Variabile casuale: variabile che definisce ciascun possibile risultato di un’osservazione assieme alla probabilità con cui si può verificare. La somma delle probabilità di ciascun risultato è uguale a 1
21/04/2017
4
Distribuzione di probabilità
E’ l’insieme dei possibili risultati e le corrispondenti probabilità di una variabile casuale X.
La distribuzione di probabilità di una variabile discreta
assegna una probabilità (numero compreso tra 0 e1) a ciascun valore
0≤ P(y)≤1 La somma delle probabilità di tutti i possibili
valori è uguale a 1. La distribuzione di probabilità di una variabile continua
assegna una probabilità (numero compreso tra 0 e1) a intervalli di valori. La probabilità che un valore cada in ciascun
intervallo è compresa tra 0 e 1. La probabilità associata all’intervallo che contiene
tutti i possibili valori è pari a 1.
Pagina 28
La distribuzione delle medie campionarie : il Teorema del limite centrale
a.a. 2016-2017
• Sui numerosi campioni estraibili da una popolazione
possono essere calcolate diverse statistiche utilizzabili
per stimare i parametri della popolazione da cui sono
estratti.
• L’insieme delle medie di tutti i possibili campioni
costituisce la distribuzione campionarie delle medie.
• Secondo il teorema del limite centrale:
“se si estraggono ripetuti campioni di dimensione n da un
universo a distribuzione normale con media e
varianza ², la distribuzione delle medie campionarie
sarà normale con media e varianza ²/n .
21/04/2017
5
La distribuzione campionaria delle medie campionarie : La legge dei grandi numeri
a.a. 2016-2017
•
In altre parole….
• Sia per l’estrazione con ripetizione, sia per quella senza
ripetizione, la media dei valori medi campionari è uguale alla
media della popolazione, dunque è una stima corretta,
centrata e non distorta della media della popolazione.
• La varianza della distribuzione campionaria delle medie
rappresenta l’errore medio (errore standard) che si commette
nello stimare la media della popolazione mediante quella del
campione.
• Operativamente però si opera con un solo campione e non
con tutti i campioni estraibili da una popolazione!
• Si dovrà dunque stabilire se e di quanto la media del
campione differisce da quella della popolazione.
• Ciò è possibile perché sappiamo quale è la distribuzione
delle medie campionarie per n>30: la distribuzione normale.
a.a. 2016-2017
21/04/2017
6
Esempio La popolazione è di dimensione N=4
La distribuzione della variabile X=numero di diabetici nelle famiglie di una popolazione statistica osservata è la seguente:
unità 1: u1 presenta il valore 1
unità 2: u2 presenta il valore 2
unità 3: u3 presenta il valore 3
unità 4: u4 presenta il valore 4
La distribuzione di X nella popolazione ha =2.5 e =1.118
Supponiamo di estrarre un campione di dimensione n=2
Quanti sono i campioni possibili in questo caso?
Se la scelta è con ripetizione (con reimmissione)
Se la scelta è senza ripetizione (senza reimmissione) o in blocco
Pagina 32
Scelta con ripetizione Campioni estraibili=N n = 4 2 = 16
Pagina 33
Campioni Dati media
Campionari
u1 e u1 (1;1) 1.0
u1 e u2 (1;2) 1.5
u1 e u3 (1;3) 2.0
u1 e u4 (1;4) 2.5
u2 e u1 (2;1) 1.5
u2 e u2 (2;2) 2.0
u2 e u3 (2;3) 2.5
u2 e u4 (2;4) 3.0
u3 e u1 (3;1) 2.0
u3 e u2 (3;2) 2.5
u3 e u3 (3;3) 3.0
u3 e u4 (3;4) 3.5
u4 e u1 (4;1) 2.5
u4 e u2 (4;2) 3.0
u4 e u3 (4;3) 3.5
u4 e u4 (4;4) 4.0
21/04/2017
7
Distribuzione campionaria della media campionaria
•
Pagina 34
Scelta in blocco (senza ripetizione)
Pagina 35
Campioni Dati media
Campionari
u1 e u2 (1;2) 1.5
u1 e u3 (1;3) 2.0
u1 e u4 (1;4) 2.5
u2 e u3 (2;3) 2.5
u2 e u4 (2;4) 3.0
u3 e u4 (3;4) 3.5
Campioni estraibili=N!/ n!(N-n)!= (4*3*2*1)/(2*1)(2*1)=6
21/04/2017
8
Distribuzione campionaria della media campionaria
•
Pagina 36
Media Campionaria FA P
1.5 1 0.1667
2.0 1 0.1667
2.5 2 0.3333
3.0 1 0.1667
3.5 1 0.1667
TOT 6 1
Pagina 37
Riepilogando:
21/04/2017
9
Ci stiamo riferendo a tre distribuzioni
a.a. 2016-2017
La distribuzione normale o di Gauss
a.a. 2016-2017
• E’ una distribuzione teorica di notevole interesse pratico per le sue proprietà
matematiche utilizzabili nell’ambito dell’inferenza statistica.
• Si ricorre a queste proprietà quando una variabile casuale continua (detta
anche aleatoria o stocastica, poiché può assumere valori diversi in
dipendenza da qualche fenomeno aleatorio ) è distribuita normalmente.
Caratteristiche:
• è continua, ha una forma campanulare e simmetrica
• le sue misure di posizione centrale (media, moda e
mediana) coincidono;
• è asintotica rispetto all’asse delle ascisse , assume valori
compresi tra -∞ e + ∞
• Presenta due punti di flesso in corrispondenza di ±1
• è completamente caratterizzata dai due parametri µ e σ2;
• L’area sottesa alle porzione di curva che si trova tra la
media e l’ordinata in corrispondenza dello scarto
quadratico medio è costante; in particolare
- il 68.26% dell’area totale è compreso tra µ±1
- il 95.44% tra µ±2
- il 99,73% tra µ±3
21/04/2017
10
Utilità della distribuzione normale nell’inferenza
a.a. 2016-2017
Fattore di correzione o di
esaustività. Al crescere di
N può essere trascurato.
La distribuzione normale standardizzata
Oltre alle porzioni di area sottese alla curva citate
precedentemente, possiamo conoscere quelle comprese tra il
valore medio e qualsiasi altro valore, o tra due valori qualsiasi,
utilizzando apposite tavole.
Le tavole sono calcolate riferendosi ad una distribuzione normale
standardizzata che ha media 0 e varianza pari a 1
Per utilizzare le tavole è necessario standardizzare i valori della
nostra distribuzione, mediante la seguente relazione:
a.a. 2016-2017
)(
Xz
21/04/2017
11
a.a. 2016-2017
Un numero della
tavola indica la
porzione di area
sottesa dalla
curva da - ∞ a z.
Ad esempio l’area
sottesa fino a
z=2 è di 0,97725
ossia del 97,73%
dell’area totale.
TAVOLA A
a.a. 2016-2017
A volte si trova un’altra tavola in
cui ogni numero indica la
porzione di area sottesa dalla
curva da z=0 e una altro valore
di z ≠ 0.
Ad esempio l’area sottesa da
z=0 a fino a z=2 è di 0,4772
ossia del 47,72% dell’area
totale.
Usare la tavola A o la B è
indifferente basta tener conto
del significato dei valori riportati
TAVOLA B
21/04/2017
12
44
Uso delle tavole : esempio 1- tavola A e B
Supponiamo di voler conoscere l’area compresa tra la media=0 e
z=1,96.
Nella colonna dei punti z, si scendere fino a trovare z=1,9 e,
rimanendo nella stessa riga fino a trovare quella indicata con
0,06.
Il punteggio che troveremo in quel punto è 0,9750 ed indica la
porzione di area compresa tra - ∞ e z=1,96.
Poiché l’area sotto la curva a sinistra del valore corrispondente alla
media=0,00 è 0,5000, l’area tra la media e z =1,96 sarà
0,9750- 0,5000=0,4750
L’area compresa è del 47,50%
Usando la tavola B
avremmo ottenuto
il medesimo
risultato, più
velocemente!
Uso delle tavole : esempio 2 –tavola A
Supponiamo di voler conoscere l’area a destra del punto z=1,96.
Nella colonna dei punti z, si scendere fino a trovare z=1,9 e,
rimanendo nella stessa riga fino a trovare quella indicata con
0,06.
Il punteggio che troveremo in quel punto è 0,9750 ed indica la
porzione di area compresa tra - ∞ e z=1,96.
Poiché l’area totale è uguale a 1, l’area che resta alla destra del
punto z=1,96 sarà
(1,0000 -0,9750) =0,025.
L’area a destra di z=1,96 sarà del 2,5%
21/04/2017
13
46
Uso delle tavole : esempio 3 – tavola B
Supponiamo di voler conoscere l’area compresa tra z=-1 e z=+1
Nella colonna dei punti z, si scendere fino a trovare z=1 e,
rimanendo nella stessa riga fino a trovare quella indicata con
0,00.
Il punteggio che troveremo in quel punto è 0,3413 ed indica la
porzione di area compresa tra z=0 e z=1.
Per trovare il valore compreso tra z=-1 e z=+1 possiamo
moltiplicare per 2, in virtù della simmetria della distribuzione.
(0,3413*2)=0,6826
L’area compresa è del 68,26%
47
Uso delle tavole : esempio 4
Supponiamo di voler conoscere l’area compresa tra z=0,54 e z=0,35.
• Per trovare l’area compresa tra - ∞ e z=0,54, nella colonna dei punti z, si
scendere fino a trovare z=0,5 e, rimanendo nella stessa riga fino a trovare
quella indicata con 0,04.
Il punteggio che troveremo in quel punto è 0,7054.
• Per trovare l’area compresa tra - ∞ e z=0,35, nella colonna dei punti z, si
scendere fino a trovare z=0,3 e, rimanendo nella stessa riga fino a trovare
quella indicata con 0,05.
Il punteggio che troveremo in quel punto è 0,6368.
• Per trovare l’area compresa tra z=0,54 e z=0,35 basterà sottrarre i due
valori: 0,7054-0,6368=0,0686.
L’area compresa è del 6,9%
21/04/2017
14
Esercizio
La spesa media per prodotti telefonici nella popolazione statistica
considerata, che si distribuisce in modo normale, è di 350 euro con
uno scarto quadratico medio di 50. Estraendo un campione
probabilistico di 150 individui si ottiene una spesa media di 359 euro.
Quale è la probabilità di ottenere un campione che ha una spesa
media maggiore di quella trovata nel campione estratto? E inferiore o
uguale?
Come procedere
1. Trovare il valore medio e l’errore
standard delle medie campionarie
2. Calcolare il valore standardizzato
3. Disegnare la distribuzione normale
4. Calcolare la probabilità sulla tavola della
distribuzione normale
5. Trarre le conclusioni
Facendo riferimento alla distribuzione delle medie campionarie la spesa media di tutti i
possibili campioni di 150 unità estraibili dalla popolazione si distribuisce normalmente con
media: E(𝑥 ) =µ =350
errore medio : √ Var (𝑥 ) = /√n =4,082
z=
359−350
4,082= 2,20
La probabilità di ottenere un campione con media
-inferiore o uguale a 359 è 0,9861
-superiore 359 è di 0,0139
Esercizio
Il prezzo di un prodotto sul mercato risulta, da indagini precedenti,
essere di 125 euro con uno scarto quadratico medio di 30. Estraendo
un campione probabilistico di 60 negozi si ottiene un prezzo medio di
130 euro.
Quale è la probabilità di ottenere un campione casuale di negozi che
vendono il prodotto ad un prezzo superiore o uguale? Quale è la
probabilità di ottenere un campione con dei negozi che vendono il prodotto a 123 euro o meno?
Z=130−125
3,87= 1,29
Z=123−125
3,87= -0,52
La probabilità di ottenere un campione con media
-superiore o uguale a 130 è (1-0,9015)=0,0984
-inferiore o uguale a 123 è (1- 0,6985)=0,3015
21/04/2017
15
Stima puntuale e stima intervallare
Stimatore: statistica campionaria impiegata per stimare un parametro della popolazione
Stima: è il singolo valore dello stimatore ottenuto applicando lo stimatore ai dati di uno specifico campione
Stima puntuale: singolo valore che rappresenta la migliore previsione del valore di un parametro della popolazione
Stima intervallare: intervallo di valori che contengono la stima puntuale, all’interno del quale ricade il vero valore del parametro della popolazione
Pagina 50
Stima puntuale
Attribuire un preciso valore numerico al parametro incognito del carattere nella popolazione
Procedura
Si individua uno stimatore per il parametro
Il valore dello stimatore sul campione osservato costituisce la stima puntuale (il valore che si può attribuire) del parametro incognito del carattere nella popolazione
Pagina 51
21/04/2017
16
Statistica media campionaria
•
Pagina 52
Proprietà di uno stimatore
Un buon stimatore
È centrato intorno al parametro che deve stimare
Ha il più piccolo errore standard possibile
Proprietà
Non distorsione: la media dello stimatore è uguale al valore incognito del parametro
Efficienza: tra gli stimatori non distorti del parametro, lo stimatore ha variabilità minima
Consistenza: all’aumentare della numerosità del campione, aumenta la probabilità che lo stimatore differisca dal valore vero del parametro meno di una quantità piccola fissata arbitrariamente
Pagina 53
21/04/2017
17
Stimatori di media, varianza e proporzione
1
1 n
i
i
x xn
Media campionaria: stimatore della media; è corretto, efficiente, consistente
Proporzione campionaria: stimatore della proporzione; è corretto, efficiente e consistente
Varianza campionaria corretta: stimatore della varianza; è corretto, efficiente, consistente
Pagina 54
Stima ad intervalli: gli intervalli di confidenza
Come si stabilisce se il valore medio di un campione è una buona
stima di quello della popolazione?
• Si fa riferimento agli intervalli di confidenza:
intervalli di valori, definiti da un estremo inferiore e superiore e costruiti a
partire dalla media del campione, entro i quali possiamo ritenere che con
una certa probabilità, sia inclusa la media della popolazione.
• La probabilità che il valore vero del parametro della popolazione
cada nell’intervallo si definisce livello di fiducia e si indica con
(1 - α)
• α (denominato livello di significatività) è la probabilità che il
parametro si trovi al di fuori dell’intervallo di confidenza.
Se il livello di fiducia è (1- α)=95% α =5%
Se il livello di fiducia è (1- α)=99% α =1%
a.a. 2016-2017
21/04/2017
18
Intervallo di confidenza per la media con noto
a.a. 2016-2017
𝑥𝑥 − 𝑧𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧
𝜎
𝑛 ;
A partire dalla media del campione costruiamo un intervallo di valori
sottraendo e sommando z/2 moltiplicato per l’errore standard.
z/2 è il valore, detto critico, a cui corrisponde un’area cumulata della
distribuzione normale standardizzata pari a (1- /2 ).
Ciò vuol dire che se vogliamo avere un livello di fiducia del 95%,
dobbiamo individuare sulle tavole della curva normale il valore z che ci
consente di ottenere attorno al valore medio della distribuzione il 95%
dei casi, lasciando a destra dell’area il 2,5% e a sinistra il 2,5%:
(1,00-0,025=0,975)
Questo valore è z=±1,96
Esercizio
a.a. 2016-2017
Se vogliamo avere un livello di fiducia del 99%, quale è il valore critico di z?
Come procedere
1. Calcolare /2= (1-0,99)/2=0,005
2. Cercare sulla tavola della curva normale
standardizzata (tav.A) l’area pari a
(1- /2 )=(1-0,005)=0,995
3. Individuare il valore di z corrispondente.
4. Disegnare la curva normale
21/04/2017
19
Per facilitarci il compito:
In statistica in genere si ritiene
accettabile un rischio di non più del
5%.
Pertanto i livelli di fiducia utilizzati
sono quelli di almeno il 95% ossia di (1- )≥ 0,95, a cui corrisponde
appunto un livello di significatività
≤ 0,05.
Si ritengono accettabili dunque valori
di Sign= ≤ 0,05, che risultano
associati a valori di Z/2 ≥ 1,96
Esercizio: stima ad intervallo
a.a. 2016-2017
A un campione casuale semplice di 80 clienti è stato chiesto di attribuire
un punteggio da 1 a 100 a un prodotto immesso sul mercato nell’ultimo
anno. Il valore medio del punteggio è stato 74.
Sapendo che lo scarto quadratico medio del punteggio nella popolazione è
di 2,5, stimare il punteggio medio del prodotto nella popolazione di
riferimento, calcolando l’intervallo di confidenza al 95%, al 99% e al
99,73%. Come procedere
1. Individuare il valore di z corrispondente a
(1- /2 )
2. Utilizzare il valore z per costruire gli
intervalli di confidenza
73,45 ≤ μ ≤ 74,55
74 −2,58 (2,5/ 80 ) ≤ μ ≤ 74+2,58 (2,5/ 80)
74 − 3 (2,5/ 80 ) ≤ μ ≤ 74+3 (2,5/ 80)
74 −1,96 (2,5/ 80 )≤μ ≤ 74+1,96 (2,5/ 80)
73,28 ≤ μ ≤ 74,72
73,16 ≤ μ ≤ 74,84
1 − α = 95% z/2=1,96
1 − α = 99% z/2=2,58
1 − α = 99,73% z/2=3
𝑥𝑥 − 𝑧𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧
𝜎
𝑛
21/04/2017
20
Esercizio: stima ad intervallo (segue)
a.a. 2016-2017
• Possiamo dunque affermare che a partire dal punteggio medio rilevato
nel campione di 74, il punteggio medio attribuito dalla popolazione dei
clienti al prodotto è compreso tra :
• 73,45 e 74,55, con un livello di fiducia del 95% e con una probabilità del
5% che sia esterno a questo intervallo.
• 73,28 e 74,72, con un livello di fiducia del 99% e con una probabilità del
1% che sia esterno a questo intervallo.
• 73,16 e 74,84 con un livello di fiducia del 99,73% e con una probabilità
dello 0,27% che sia esterno a questo intervallo.
Esercizio: stima ad intervallo
Quale sarebbero gli intervalli di confidenza al 95%, al 99% e al 99,73% se,
fermo restando tutti gli altri dati ( e ͞x), il campione fosse stato di 150 unità?
𝑥𝑥 − 𝑧𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧
𝜎
𝑛
73,60 ≤ μ ≤ 74,40
74 −2,58 * 0,2041≤ μ ≤ 74+2,58*0,2041
1 − α = 99,73% 74 − 3 ∗0,2041≤ μ ≤ 74+3*0,2041
74 −1,96* 0,2041 )≤μ ≤ 74+1,96*0,2041)
73,47 ≤ μ ≤ 74,53
73,39 ≤ μ ≤ 74,61
1 − α = 95%
1 − α = 99%
1 − α = 95% 73,45 ≤ μ ≤ 74,55
𝑛 = 80 ; 𝜎
𝑛= 0,2795 n=150 ;
𝜎
𝑛= 0,2041
1 − α = 99% 73,28 ≤ μ ≤ 74,72
1 − α = 99,73% 73,16 ≤ μ ≤ 74,84
21/04/2017
21
Osserviamo che…
Più alto è il livello di fiducia, più ampio è l’intervallo di confidenza e quindi la possibilità che contenga il vero valore del parametro Infatti, a parità di n, più alto è 1 − 𝛼 più grande è lo z-score più ampio è l’intervallo
A parità di livello di fiducia: più grande è il campione, cioè n, più piccolo è l’errore standard dello stimatore, minore è l’ampiezza dell’intervallo e dunque la precisione della stima
Scegliendo un livello di fiducia 1 − 𝛼 ci si attende che l’ 1 − 𝛼 % dei campioni di medesima ampiezza n fornisca una stima del parametro tale che l’intervallo di confidenza attorno a tale stima contenga il vero valore del parametro
Tuttavia non si sa con certezza se tale intervallo contiene effettivamente il vero valore del parametro: il livello di sgnificatività indica la probabilità che il vero valore cada fuori dall’intervallo di confidenza.
Pagina 62
Esercizio: stima ad intervallo
a.a. 2016-2017
Su un campione casuale semplice di 196 negozi è stato rilevato un
volume di vendite settimanale di 25 mila euro.
Sapendo che lo scarto quadratico medio del volume di vendite nella
popolazione è di 1500 euro, stimare il volume di vendite settimanale medio
nella popolazione di riferimento, con un livello di fiducia del 95%, e del 99%.
Come procedere
1.Individuare il valore di z/2
corrispondente a ciascun livello di fiducia
2-Utilizzare il valore z/2 per costruire gli
intervalli di confidenza
𝑥𝑥 − 𝑧𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧
𝜎
𝑛
(1-)=0,95 z/2=1,96
25000 -1,96 (1500/14) 25000+1,96(1500/14)
24790 25210
(1-)=0,99 z/2=2,58
25000 -2,58 (1500/14) 25000+2,58(1500/14)
24723,57 25276,43
Recommended