A Statisztika alapjai - MATEMATIKA INTÉZETmath.bme.hu/~lazi/ujdokumentumok2/Statisztika alapjai.pdf · A statisztika részterületei – Leíró Statisztika Leíró Statisztika Célja

A Statisztika alapjai

BME – A3c

Magyar Róbert

2016.05.12.

Mi az a Statisztika?

A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.

Gyakran hívják „statisztikának” a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is.

Matematikai értelemben: egy „minta” elemeinek (ismeretlen paramétert nem tartalmazó) függvénye.

Mondás: "amíg a valószínűségszámítás megtanít valószínűségekkel számolni, addig a statisztika megtanít valószínűséget mérni".

A statisztika eredete és története

Eredetileg államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számon tarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.)

Eredete: statisticum collegium („államtanács”) és az olasz statista („államférfi”, politikus) kifejezésekből származtatják.

A szó mai értelmét („az adatgyűjtés és adatfeldolgozás általános tudománya”) csak a tizenkilencedik század elején nyerte el.

A statisztika alapfogalmai

Vizsgálat tárgya: Rendszer (Populáció)

A Rendszer Objektumokból (Egyedekből) áll Például: emberek, társadalmak, folyók, biotópok, oldatok, spektrumok…

Az Objektumoknak tulajdonságai vannak Például: az emberek testméretei, a társadalmak lakosságszáma, nemzeti jövedelme, a folyók vízhozama

adott időben, helyen, oldatok koncentrációi…

Sokaság: A rendszert alkotó objektumoknak számos tulajdonsága van, ezek összességét hívjuk (adat) sokaságnak

Minta: Általában csak arra van módunk, hogy a rendszer egy részletét, vagy egy bizonyos állapotát figyeljük meg, azaz annak leíró adataiból mintát vegyünk. Mondás: a sokaság az összes elképzelhető minta összessége

I. Példa

Egy ország választó polgárai (rendszer) között

szeretnénk egy párt szimpátiáját felmérni

(következtetni a sokaságra). Ehhez egy n elemű

mintát veszünk.

Kérdés: Legalább hány embert kell

megkérdeznünk, hogy 90% pontossággal tudjuk

megbecsülni a párt preferenciáját, 0,05

hibahatáron belül?

I. Példa

X: a pártot támogatók száma

n: a megkérdezettek száma, a minta elemszáma

p: a párt valódi támogatottsága (hány százaléka a választóknak támogatja

valójában a pártot)

A Nagy Számok (Bernoulli) törvénye értelmében:

𝑃𝑋

𝑛− 𝑝 < 0,05 ≥ 1 −

𝑝 ∙ 1 − 𝑝

𝑛 ∙ 0,052≥ 1 −

0,25

𝑛 ∙ 0,052

90

100= 1 −

0,25

𝑛∙0,052

n = 1000

Megjegyzés: Független a lakosság számától!

A Minta tulajdonságai

A minta vizsgálatának eredményéből következtetünk a sokaságra, a minta vétele tehát az eredmények értéke szempontjából elsőrendűen fontos. A minta legyen:

reprezentatív, összetételében képviselje helyesen a sokaságot, amelyből vették,

véletlen, a mintaelemek kerüljenek egymástól függetlenül, egyenlő valószínűséggel a mintába,

elégséges méretű, elegendően nagy ahhoz, hogy a minta alapján levont következtetések kellően valószínűek legyenek.

A statisztika részterületei –

Leíró Statisztika

Leíró Statisztika

Célja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés

Sokaság leírása egy ismérv alapján:

kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k–1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantilisekneknevezzük.

helyzetmutatók (középértékek): medián, módusz, átlag

szóródási mutatók: terjedelem, szórás, relatív szórás

koncentráció elemzése: Lorenz-görbe, Herfindahl-index

A statisztika részterületei –

Következtető (Matematikai) Statisztika

Következtető (Matematikai) Statisztika Célja a megfelelő – vagyis a sokaság egészének paramétereit legjobban

tükröző, reprezentáló – minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek.

Főbb részterületei tehát a következők: mintavétel

becsléselmélet

hipotézisvizsgálat

idősorelemzés

korreláció- és regressziószámítás

A Statisztika valószínűségelméleti fogalma

Valószínűségi értelemben az n-elemű minta

egymástól teljesen független valószínűségi

változókat jelent, melyek eloszlása megegyezik

a sokaság eloszlásával.

Ha 𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta, akkor

𝜉1, 𝜉2 , … , 𝜉𝑛 valószínűségi változók bármely

függvényét statisztikának nevezzük.

Példák Statisztikára

F 𝜉1, 𝜉2 , … , 𝜉𝑛 =𝜉1+𝜉2 +⋯+𝜉𝑛

𝑛= 𝑥𝑛

Ezt a statisztikát tapasztalati átlagnak hívjuk.

Rendezett minta: a minta elemeit növekvő

sorrendbe állítjuk. Jelölése:

F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝜉1∗, … , 𝜉𝑛

∗

Rendezett mintából példa:

𝑌 =𝜉1∗ +𝜉𝑛

∗

2

Példák Statisztikára

F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝒔𝒏𝟐 = 𝒊=𝟏

𝒏 𝝃𝒊− 𝒙𝒏𝟐

𝒏

Ezt a statisztikát tapasztalati szórásnégyzetnek

hívjuk.

F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝒔𝒏∗ =

𝑛

𝑛−1𝒔𝒏𝟐 = 𝒊=𝟏

𝒏 𝝃𝒊− 𝒙𝒏𝟐

𝒏−𝟏

Ezt a statisztikát korrigált tapasztalati szórásnak

hívjuk.

Egy konkrét példa

𝜉 = egy adott évfolyam hallgatójának matek jegye

Vegyünk egy 8 elemű mintát: 𝜉1, 𝜉2 , … , 𝜉8 A minta egy realizációja: (2,1,4,5,4,4,2,4,)

rendezett minta: 𝜉1∗, … , 𝜉8

∗ = (1,2,2,4,4,4,4,5)

mintaátlag: 𝑥𝑛 =26

8= 3,25

szórásnégyzet: 𝑠𝑛2 = 𝑖=1

8 𝜉𝑖−3,252

8= 1,6875

korrigált szórás: 𝑠𝑛∗ =

8

7∙ 1,6875 = 1,48461

Paraméter becslés

𝜉𝑖 statisztikai sokaság, egy évfolyam hallgatóinak matek jegyei

Szeretnénk becslést adni ennek várhatóértékére, más szóval az évfolyam átlagra Megj.: Pontos értéket tudnánk mondani, ha az évfolyam

összes hallgatójának jegyét ismernénk, de a legtöbb esetben nem áll rendelkezésünkre az összes adat, csak egy n elemű minta, amit a becsléshez használhatunk

Állítás: a mintaátlag „jó” becslése a várhatóértéknek Kérdés: Mit jelent az, hogy „jó” becslés?

Torzítatlan becslés

Egy 𝜉 valószínűségi változónak legyen θ egy paramétere. Például a várható értéke…

𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta

Valószínűségi változók bármilyen függvénye tekinthető valószínűségi változónak, így: 𝑋𝑛 = 𝐹 𝜉1, 𝜉2 , … , 𝜉𝑛 statisztika, maga is tekinthető valószínűségi változónak.

Paraméter becsléseket 𝐹 statisztikák segítségével végzünk

Azt mondjuk, hogy F 𝜉1, 𝜉2 , … , 𝜉𝑛 statisztka torzítatlan becslése θ-nek, ha:

M F 𝜉1, 𝜉2 , … , 𝜉𝑛 = M 𝑋𝑛 = θ

Példa Torzítatlan becslésre

Egy 𝜉 valószínűségi változónak legyen 𝑚 a várhatóértéke:

𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta.

Állítás: 𝑥𝑛 torzítatlan becslése 𝑚-nek, azaz:

𝑀 𝑥𝑛 = 𝑚 Bizonyítás:

𝑀𝜉1+𝜉2 +⋯+𝜉𝑛

𝑛=

1

𝑛∙ 𝑀 𝜉1 +⋯+𝑀 𝜉𝑛 =

1

𝑛∙

𝑛 ∙ 𝑀 𝜉1 = 𝑀 𝜉1 = 𝑀 𝜉 = 𝑚

Megj.: 𝜉1, 𝜉2 , … , 𝜉𝑛 független, azonos eloszlású valószínűségi változók, várható értékük ezért megegyezik

Szórás torzítatlan becslése

Definíció: F 𝜉1, 𝜉2 , … , 𝜉𝑛 statisztka aszimtotikusan torzítatlan becslése θ-nek, ha:

lim𝑛→∞

M F 𝜉1, 𝜉2 , … , 𝜉𝑛 = θ

Egy 𝜉 valószínűségi változónak legyen 𝜎2 a szórásnégyzete

𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta.

Állítás bizonyítás nélkül: 𝑠𝑛2 aszimptotikusan torzítatlan becslése 𝜎2-nek,

azaz:

lim𝑛→∞

M 𝑠𝑛2 = 𝜎2

Állítás bizonyítás nélkül: 𝑠𝑛∗ torzítatlan becslése 𝜎-nak, azaz:

M 𝑠𝑛∗ = 𝜎

Torzítatlan becslések hatásossága

Ha 𝐹1és 𝐹2 ugyanazon mintán értelmezett statisztikák és mindkettő torzítatlan becslése a θ paraméternek, akkor azt mondjuk, hogy 𝐹1hatásosabb 𝐹2-nél, ha:

𝐷2(𝐹1) < 𝐷2(𝐹2)

Ha 𝜆1 + 𝜆2 +⋯+ 𝜆𝑛 = 1, akkor az

F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝜆1 ∙ 𝜉1 + 𝜆2 ∙ 𝜉2 +⋯+ 𝜆𝑛 ∙ 𝜉𝑛statisztikák mindegyike torzítatlan becslése a várható értéknek, közülük a tapasztalati átlag a leghatásosabb!

Ennek bizonyítása elhangzott előadáson, a levezetés megtalálható a Petz – Lángné Matematika III. jegyzetben

Centrális Határeloszlás-Tétel


𝑀(𝜉𝑖) = 𝑚

𝐷(𝜉𝑖) = 𝜎

Tétel:

𝑃 𝑎 < 𝑥𝑛−𝑚 ∙ 𝑛

𝜎< 𝑏 → Φ 𝑏 −Φ 𝑎 ,

ha 𝑛 → ∞

A tétel szerint a tapasztalati várható érték (mint valószínűségi változó), nagy mintaméret esetén megközelítőleg normális eloszlású 𝑚 várhatóértékkel és 𝜎

𝑛szórással, függetlenül attól, hogy 𝜉𝑖 milyen eloszlású

Intervallum becslés Normális eloszlásra

Adott egy Normális eloszlású statisztikai sokaság


𝑀(𝜉𝑖) = 𝑚 ISMERETLEN

𝐷(𝜉𝑖) = 𝜎 ADOTT

Szeretnénk egy olyan intervallumot meghatározni, hogy az ismeretlen 𝑚 érték 95%-os valószínűséggel beleessen, vagyis egy olyan 𝑐számot, melyre:

𝑃 𝑥𝑛 −𝑚 < 𝑐 = 0,95

Konfidencia intervallum

Standardizálunk, hogy Standard Normális eloszlásfüggvényt tudjunk használni:

𝑃 𝑥𝑛 −𝑚 < 𝑐 = 0,95

𝑃 −𝑐 ∙ 𝑛

𝜎<

𝑥𝑛 −𝑚 ∙ 𝑛

𝜎<𝑐 ∙ 𝑛

𝜎= 0,95

Φ𝑐 ∙ 𝑛

𝜎− Φ −

𝑐 ∙ 𝑛

𝜎= 2 ∙ Φ

𝑐 ∙ 𝑛

𝜎− 1 = 0,95

Φ𝑐 ∙ 𝑛

𝜎= 0,975 = Φ 1,96

𝑐 =1,96 ∙ 𝜎

𝑛

Vagyis az ismeretlen 𝑚 paraméter 95%-os megbízhatósági szinten a

𝑥𝑛 −1,96∙𝜎

𝑛, 𝑥𝑛 +

1,96∙𝜎

𝑛konfidencia (megbízhatósági) intervallumba esik.

Elköszönő Dia

Documents

A Statisztika alapjai - MATEMATIKA INTÉZETmath.bme.hu/~lazi/ujdokumentumok2/Statisztika alapjai.pdf · A statisztika részterületei – Leíró Statisztika Leíró Statisztika Célja