Upload
others
View
42
Download
0
Embed Size (px)
Citation preview
Hoofdstuk 3 :Numerieke beschrijving van data
Marnix Van [email protected]
Vakgroep Toegepaste Wiskunde en Informatica
Universiteit Gent
Numerieke beschrijving van data – p. 1/31
Beschrijvende maten• We beschrijven populaties en steekproeven d.m.v.
karakteristieken
• populaties worden gekenmerkt doorparameters
µ, σ, ρ, . . .
• steekproeven worden gekenmerkt doorstatistieken
x, s, r, . . .
• 3 soorten karakteristieken
• centraliteitsmatenbeschrijven de ligging (location)
• spreidingsmatenbeschrijven de spreiding (dispersion)
• vormmatenbeschrijven de vorm
Numerieke beschrijving van data – p. 2/31
Centraliteitsmaten• het rekenkundig gemiddelde
• de mediaan
• de modus
• en het meetkundig gemiddelde
Numerieke beschrijving van data – p. 3/31
Het rekenkundig gemiddeldeHet (rekenkundig) gemiddelde (mean), vanx1, x2, . . . ,xn is
x =x1 + x2 + · · · + xn
n=
1
n
n∑j=1
xj
Het gemiddelde van de waarden 1, 2, 3, 4 en 5 bedraagt
x =1 + 2 + 3 + 4 + 5
5= 3
Het gemiddelde van 1, 2, 3, 4 en 50 bedraagt
x =1 + 2 + 3 + 4 + 50
5= 12
x is gemakkelijk te berekenen maar is gevoelig voor uitschieters.
Middel tegen die gevoeligheid :trimmed meanNumerieke beschrijving van data – p. 4/31
Het rekenkundig gemiddelde
x =1
n
n∑j=1
xj f(x) =1
n
n∑j=1
f(xj)
a x + b=1
n
n∑j=1
(a xj + b)= a x + b
Bijzonder geval :x − x= 0
f(x) + g(x) =1
n
n∑j=1
(f(xj) + g(xj))
=1
n
n∑j=1
f(xj) +1
n
n∑j=1
g(xj)= f(x) + g(x)
Numerieke beschrijving van data – p. 5/31
Het rekenkundig gemiddeldeGegeven : frequentietabel
Gevraagd : bepaalx.
• discrete data : heeftxi absolute frequentieni, dan
x =1
n
n∑j=1
xj=1
n
∑i
ni xi
Voorbeeld : gemiddelde van1, 2, 1, 3 en2
x =1
5
5∑j=1
xj =1 + 2 + 1 + 3 + 2
5= 1.8
=1
5
3∑i=1
ni xi =2 × 1 + 2 × 2 + 1 × 3
5= 1.8
Numerieke beschrijving van data – p. 6/31
Het rekenkundig gemiddeldeGegeven : frequentietabel
Gevraagd : bepaalx.
• continue data : benader elkexi door het klassemiddentj
waarvoorti − ∆i
2≤ xj < ti +
∆i
2
x =1
n
n∑j=1
xj≈ 1
n
∑i
ni ti
x =1
117
117∑j=1
xj = 180.538
≈ 1
117
∑i
ni ti = 180.5385
Numerieke beschrijving van data – p. 7/31
MediaanDemediaan (median)vanx1, x2, . . ., xj, . . . , xn is de middelste
waarde als de metingen gerangschikt worden van klein naar
groot.
De mediaan van de waarden 1, 2, 3, 4 en 5 bedraagt3.
De mediaan van 1, 2, 3, 4 en 50 bedraagt3.
De mediaan is minder gevoelig dan het gemiddelde en kan ook
gebruikt worden bij ordinale data.
Numerieke beschrijving van data – p. 8/31
De modusDe modus (mode)van een verzameling meetwaarden wordt
gedefinieerd als de waarde waarvoor de frequentie het hoogst is.
In geval gewerkt wordt met klassen, spreekt men van demodale
klasse.
Gebruik :
• bij grote steekproeven de meest populaire waarde
aanduiden
• bij bimodale verdelingen
Numerieke beschrijving van data – p. 9/31
Het meetkundig gemiddeldeHetmeetkundig gemiddelde (geometric mean)van
x1, x2, . . . , xj, . . . , xn wordt gedefinieerd als
GM = n√
x1 x2 · · · xj · · · xn.
log GM=1
n
n∑i=1
log xi= log x
De logaritme van GM= het (rekenkundig) gemiddelde van de
logaritme van de waarnemingen.
Het GM van 10, 100 en 1000 bedraagt 100 vermits
GM= 3√
10 × 100 × 1000 = 100.
log10 GM=1
3
3∑i=1
log10 xi=1
3(1 + 2 + 3)= 2=⇒ GM = 102 = 100
Numerieke beschrijving van data – p. 10/31
Centraliteitsmaten : richtlijnenTwee factoren spelen een rol :
• de schaal (kwantitatief of niet-kwantitatief)
• symmetrisch- of scheef-zijn van deverdelingvan de
waarnemingen
Richtlijnen :
• x : bij kwantitatieve data en voor (min of meer)
symmetrische distributies
• mediaan : bij ordinale data en voor kwantitatieve data
waarvan de distributie scheef is
• modus : bij bimodale verdelingen
• meetkundig gemiddelde : bij observaties gemeten op een
logaritmische schaalNumerieke beschrijving van data – p. 11/31
Spreidingsmaten• minimum en maximum
• range
• standaarddeviatie en variantie
• variatiecoëfficiënt
• percentielen
Numerieke beschrijving van data – p. 12/31
De rangeDe rangevan een verzameling meetwaarden
x1, x2, . . . , xj, . . . , xn wordt gedefinieerd als het verschil
tussen de grootste en de kleinste meetwaarde.
Numerieke beschrijving van data – p. 13/31
Minimum en maximumKleinste en grootste meetwaarde
Dit geeft iets meer informatie dan de range.
Voorbeeldsteekproef :
• uit meetwaarden :min = 164 cm enmax = 196 cm, d.w.z.
range= 32 cm
• uit frequentietabel :min = 163.5 cm enmax = 196 cm,
d.w.z. range= 33 cm
Numerieke beschrijving van data – p. 14/31
ProbleemNoch de range, noch min-max kunnen verschillen detecteren
tussen volgende verdelingen :
� �0 1 2 3 4 5 6 0 1 2 3 4 5 6
� �ff
x x
(a) (b)
Numerieke beschrijving van data – p. 15/31
Spreidingsmaten
• afwijking : x − x =1
n
n∑i=1
(xi − x)
x − x =1
n
n∑i=1
xi − 1
n
n∑i=1
x = x − x = 0
• gemiddelde afwijking: |x − x| =1
n
n∑i=1
|xi − x|
• variantie: (x − x)2 =1
n
n∑i=1
(xi − x)2
Numerieke beschrijving van data – p. 16/31
SteekproefvariantieDevariantie (variance)s2
X van een verzameling vann waarden
x1, x2, . . ., xn van de grootheidX wordt gedefinieerd als het
gemiddelde van de kwadraten van de afwijkingen van de
waarden t.o.v. hun gemiddeldex :
s2X =
1
n
n∑i=1
(xi − x)2 .
De standaarddeviatie (standard deviation)of standaardafwijking
sX wordt gedefinieerd als de positieve vierkantswortel van de
variantie :
sX =√
s2X .
Numerieke beschrijving van data – p. 17/31
Verbeterde steekproefvariantieDe steekproefvariantie
s2X =
1
n
n∑i=1
(xi − x)2
is een benadering voor de populatievariantieσ2X .
Men kan aantonen dats2X systematisch een te kleine benadering
levert voorσ2X en dat een betere benadering gegeven wordt door
de zogenaamdeverbeterde steekproefvarianties′2X met
s′2X =1
n − 1
n∑i=1
(xi − x)2 =n
n − 1s2
X .
Numerieke beschrijving van data – p. 18/31
Steekproefvariantie
s2X =
1
n
n∑i=1
(xi − x)2
s2X = (x − x)2
= x2 − 2x x + x2
= x2 − 2x x + x2
= x2 − x2
s2X =
1
n
n∑i=1
x2i − x2
Numerieke beschrijving van data – p. 19/31
Steekproefvariantie van functies
s2f(X) = [f(x)]2 − f(x)
2
Toegepast opf(x) = a x + b
s2a X+b = (a x + b)2 − a x + b
2
= a2 x2 + 2 a b x + b2 − (a x + b)2
= a2 x2 + 2 a b x + b2 − (a2x2 + 2 a b x + b2)
= a2 (x2 − x2)
= a2 s2X
sa X+b = |a| sX
Numerieke beschrijving van data – p. 20/31
Ongelijkheid van ChebyshevVoor om het even welke positieve waardek geldt : minstens een
fractie1 − 1/k2 van alle meetwaarden ligt in het interval
]x − k s, x + k s[.
Bewijs : gegevenn, x ens; kiesk. Verdeel de meetwaarden in
D = {xj | |xj − x| < k s} enV = {xj | |xj − x| ≥ k s} ,
zodat#D + #V = n
n s2 =∑
xj∈D∪V
(xj − x)2≥∑xj∈V
(xj − x)2≥∑xj∈V
k2 s2= k2 s2 (#V )
⇐⇒ #V
n≤ 1
k2,
d.w.z. de fractie van den meetwaarden die totV behoren is
hoogstens1/k2 en dus ligt minstens1 − 1/k2 in D.
Numerieke beschrijving van data – p. 21/31
Ongelijkheid van ChebyshevVoor om het even welke positieve waardek geldt : minstens een
fractie1 − 1/k2 van alle meetwaarden ligt in het interval
]x − k s, x + k s[.
k ]x − k s, x + k, s[ 1 − 1k2
1 ]x − 1 s, x + 1, s[ 0 = 0%
2 ]x − 2 s, x + 2 s[ 34
= 75%
3 ]x − 3 s, x + 3 s[ 89≈ 90%
Deze regel geldt altijd, hoe het histogram er ook uitziet !
In de praktijk zijn de vermelde fracties meestal hoger !
Numerieke beschrijving van data – p. 22/31
Vuistregel voor belvormige verdelingen
• ongeveer 68 % ligt in]x − s, x + s[ =]3.128, 7.091[
• ongeveer 95 % ligt in]x − 2 s, x + 2 s[=]1.146, 9.073[
• bijna alle metingen liggen in
]x − 3 s, x + 3 s[=] − 0.836, 11.055[
ni
x0 1 2 3 4 5 6 7 8 9 10 11
4
8
12
16
20
.......................... ......................
........................
......................
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
........
..
........
........
........
........
........
........
........
........
.....
........
........
........
........
........
........
........
........
.....
................................................................................................................... ............................................................................................. ......................2 sx
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
x = 5.109
s = 1.981
Numerieke beschrijving van data – p. 23/31
Dez-score van een meetwaardeAls de meetwaardenxj uitgedrukt zijn in bvb. meter, dan
• is x ook in meter
• is s2X in vierkante meter
• is sx in meter
Transformatie :zj =xj − x
sX
zj is dimensieloos met waarden in[−3, 3]
Deze transformatie fungeert als
een soort standaardisatie van de meetwaarden.
Numerieke beschrijving van data – p. 24/31
VariatiecoëfficiëntDe variatiecoëfficiënt (variation coefficient)van een verzameling
niet-negatieve meetwaardenx1, x2, . . . , xi, . . . , xn van de
grootheidX wordt gedefinieerd als
s
x.
Numerieke beschrijving van data – p. 25/31
Spreidingsmaten : richtlijnen• sX : alsx wordt gebruikt, d.i. bij min of meer symmetrische
kwantitatieve data.
• Percentielen en interquartielen :
• wanneer de mediaan wordt gebruikt : bij ordinale data of bij
scheef-verdeelde kwantitatieve data
• wanneerx wordt gebruikt, maar als het de bedoeling is
individuele waarnemingen te vergelijken met een
verzameling normen
• interquartiele range : voor de beschrijving van de centrale 50 %
van een distributie, onafhankelijk van de vorm
• range : bij kwantitatieve data als het de bedoeling is de nadruk te
leggen op extreme waarden
• variatiecoëfficiënt : indien kwantitatieve verdelingen op
verschillende schalen worden vergelekenNumerieke beschrijving van data – p. 26/31
Vormmaten• x − x = 0
• (x − x)2 : variantie (spreidingsmaat)
• (x − x)3 : scheefheid
• (x − x)4 : kurtosis
scheefheid en kurtosis zijn vormmaten
Numerieke beschrijving van data – p. 27/31
ScheefheidDe scheefheid (skewness)vanx1, x2, . . . , xj, . . . , xn wordt
gedefinieerd als
1
n
n∑j=1
(xj − x)3
s3
(a) (b)
(d)(c)
(a) negatief scheef (b) positief scheef
(c) en (d) symmetrischNumerieke beschrijving van data – p. 28/31
ScheefheidVerband met ligging van mediaan en gemiddelde
• Zijn de mediaan en het gemiddelde gelijk, dan is de
distributie min of meer symmetrisch.
• Is het gemiddelde groter dan de mediaan, dan is de
distributie positief scheef.
• Is het gemiddelde kleiner dan de mediaan, dan is de
distributie negatief scheef.
Numerieke beschrijving van data – p. 29/31
KurtosisDekurtosis (curtosis)vanx1, x2, . . . , xj, . . . , xn wordt
gedefinieerd als
1
n
n∑j=1
(xj − x)4
s4 .
(a)
(b) (c)(a) leptokurtisch (b) platykurtisch en(c) kurtosis≈ 3
Numerieke beschrijving van data – p. 30/31
Een voorbeeldDescriptives-----------------------------------------------------------------------| | GESLACHT | Statistic | Std. Err| ------- | -- | ----------------- | ----------- | --------- | -------| GEWICHT | m | Mean | 68,87 | ,79| | | ----------------- | ----------- | --------- | -------| | | 95% Confidence | Lower Bound | 67,30 || | | Interval for Mean | ----------- | --------- | -------| | | | Upper Bound | 70,44 || | | ----------------- | ----------- | --------- | -------| | | 5% Trimmed Mean | 68,72 || | | ----------------- | ----------- | --------- | -------| | | Median | 68,00 || | | ----------------- | ----------- | --------- | -------| | | Variance | 73,320 || | | ----------------- | ----------- | --------- | -------| | | Std. Deviation | 8,56 || | | ----------------- | ----------- | --------- | -------| | | Minimum | 52 || | | ----------------- | ----------- | --------- | -------| | | Maximum | 90 || | | ----------------- | ----------- | --------- | -------| | | Range | 38 || | | ----------------- | ----------- | --------- | -------| | | Interquartile Range | 12,50 || | | ----------------- | ----------- | --------- | -------| | | Ske ness | 296 | 224
Numerieke beschrijving van data – p. 31/31