Upload
others
View
22
Download
1
Embed Size (px)
Citation preview
Mi az a Statisztika?
A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.
Gyakran hívják „statisztikának” a statisztika módszereit és a statisztikai tevékenység eredményeként keletkező adatokat is.
Matematikai értelemben: egy „minta” elemeinek (ismeretlen paramétert nem tartalmazó) függvénye.
Mondás: "amíg a valószínűségszámítás megtanít valószínűségekkel számolni, addig a statisztika megtanít valószínűséget mérni".
A statisztika eredete és története
Eredetileg államháztartástant jelentett, vagyis azon módszerek gyűjteményét és elméletét, amelyek segítségével az újkorban kialakuló modern államok számon tarthatták erőforrásaikat és a társadalmi problémákat (népesség, termelés, betegségek stb.)
Eredete: statisticum collegium („államtanács”) és az olasz statista („államférfi”, politikus) kifejezésekből származtatják.
A szó mai értelmét („az adatgyűjtés és adatfeldolgozás általános tudománya”) csak a tizenkilencedik század elején nyerte el.
A statisztika alapfogalmai
Vizsgálat tárgya: Rendszer (Populáció)
A Rendszer Objektumokból (Egyedekből) áll Például: emberek, társadalmak, folyók, biotópok, oldatok, spektrumok…
Az Objektumoknak tulajdonságai vannak Például: az emberek testméretei, a társadalmak lakosságszáma, nemzeti jövedelme, a folyók vízhozama
adott időben, helyen, oldatok koncentrációi…
Sokaság: A rendszert alkotó objektumoknak számos tulajdonsága van, ezek összességét hívjuk (adat) sokaságnak
Minta: Általában csak arra van módunk, hogy a rendszer egy részletét, vagy egy bizonyos állapotát figyeljük meg, azaz annak leíró adataiból mintát vegyünk. Mondás: a sokaság az összes elképzelhető minta összessége
I. Példa
Egy ország választó polgárai (rendszer) között
szeretnénk egy párt szimpátiáját felmérni
(következtetni a sokaságra). Ehhez egy n elemű
mintát veszünk.
Kérdés: Legalább hány embert kell
megkérdeznünk, hogy 90% pontossággal tudjuk
megbecsülni a párt preferenciáját, 0,05
hibahatáron belül?
I. Példa
X: a pártot támogatók száma
n: a megkérdezettek száma, a minta elemszáma
p: a párt valódi támogatottsága (hány százaléka a választóknak támogatja
valójában a pártot)
A Nagy Számok (Bernoulli) törvénye értelmében:
𝑃𝑋
𝑛− 𝑝 < 0,05 ≥ 1 −
𝑝 ∙ 1 − 𝑝
𝑛 ∙ 0,052≥ 1 −
0,25
𝑛 ∙ 0,052
90
100= 1 −
0,25
𝑛∙0,052
n = 1000
Megjegyzés: Független a lakosság számától!
A Minta tulajdonságai
A minta vizsgálatának eredményéből következtetünk a sokaságra, a minta vétele tehát az eredmények értéke szempontjából elsőrendűen fontos. A minta legyen:
reprezentatív, összetételében képviselje helyesen a sokaságot, amelyből vették,
véletlen, a mintaelemek kerüljenek egymástól függetlenül, egyenlő valószínűséggel a mintába,
elégséges méretű, elegendően nagy ahhoz, hogy a minta alapján levont következtetések kellően valószínűek legyenek.
A statisztika részterületei –
Leíró Statisztika
Leíró Statisztika
Célja egy már rendelkezésre álló, valóságra vonatkozó adathalmaz összefoglalása, elemzése, egyszóval az információtömörítés
Sokaság leírása egy ismérv alapján:
kvantilis értékek: k számú osztályközt akarunk képezni, akkor ehhez k–1 darab osztópontra van szükségünk. Ezeket az osztópontokat k-ad rendű kvantilisekneknevezzük.
helyzetmutatók (középértékek): medián, módusz, átlag
szóródási mutatók: terjedelem, szórás, relatív szórás
koncentráció elemzése: Lorenz-görbe, Herfindahl-index
A statisztika részterületei –
Következtető (Matematikai) Statisztika
Következtető (Matematikai) Statisztika Célja a megfelelő – vagyis a sokaság egészének paramétereit legjobban
tükröző, reprezentáló – minta kiválasztása, a sokasági paramétereknek a minta paramétereivel történő becslése, illetve a sokasági paraméterekre vonatkozó feltételezések, hipotézisek elfogadása vagy elvetése. Foglalkozik továbbá a valóság összefüggéseinek egyszerűsített megragadására törekvő modellekkel is, mint az idősor- és regressziós modellek.
Főbb részterületei tehát a következők: mintavétel
becsléselmélet
hipotézisvizsgálat
idősorelemzés
korreláció- és regressziószámítás
A Statisztika valószínűségelméleti fogalma
Valószínűségi értelemben az n-elemű minta
egymástól teljesen független valószínűségi
változókat jelent, melyek eloszlása megegyezik
a sokaság eloszlásával.
Ha 𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta, akkor
𝜉1, 𝜉2 , … , 𝜉𝑛 valószínűségi változók bármely
függvényét statisztikának nevezzük.
Példák Statisztikára
F 𝜉1, 𝜉2 , … , 𝜉𝑛 =𝜉1+𝜉2 +⋯+𝜉𝑛
𝑛= 𝑥𝑛
Ezt a statisztikát tapasztalati átlagnak hívjuk.
Rendezett minta: a minta elemeit növekvő
sorrendbe állítjuk. Jelölése:
F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝜉1∗, … , 𝜉𝑛
∗
Rendezett mintából példa:
𝑌 =𝜉1∗ +𝜉𝑛
∗
2
Példák Statisztikára
F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝒔𝒏𝟐 = 𝒊=𝟏
𝒏 𝝃𝒊− 𝒙𝒏𝟐
𝒏
Ezt a statisztikát tapasztalati szórásnégyzetnek
hívjuk.
F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝒔𝒏∗ =
𝑛
𝑛−1𝒔𝒏𝟐 = 𝒊=𝟏
𝒏 𝝃𝒊− 𝒙𝒏𝟐
𝒏−𝟏
Ezt a statisztikát korrigált tapasztalati szórásnak
hívjuk.
Egy konkrét példa
𝜉 = egy adott évfolyam hallgatójának matek jegye
Vegyünk egy 8 elemű mintát: 𝜉1, 𝜉2 , … , 𝜉8 A minta egy realizációja: (2,1,4,5,4,4,2,4,)
rendezett minta: 𝜉1∗, … , 𝜉8
∗ = (1,2,2,4,4,4,4,5)
mintaátlag: 𝑥𝑛 =26
8= 3,25
szórásnégyzet: 𝑠𝑛2 = 𝑖=1
8 𝜉𝑖−3,252
8= 1,6875
korrigált szórás: 𝑠𝑛∗ =
8
7∙ 1,6875 = 1,48461
Paraméter becslés
𝜉𝑖 statisztikai sokaság, egy évfolyam hallgatóinak matek jegyei
Szeretnénk becslést adni ennek várhatóértékére, más szóval az évfolyam átlagra Megj.: Pontos értéket tudnánk mondani, ha az évfolyam
összes hallgatójának jegyét ismernénk, de a legtöbb esetben nem áll rendelkezésünkre az összes adat, csak egy n elemű minta, amit a becsléshez használhatunk
Állítás: a mintaátlag „jó” becslése a várhatóértéknek Kérdés: Mit jelent az, hogy „jó” becslés?
Torzítatlan becslés
Egy 𝜉 valószínűségi változónak legyen θ egy paramétere. Például a várható értéke…
𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta
Valószínűségi változók bármilyen függvénye tekinthető valószínűségi változónak, így: 𝑋𝑛 = 𝐹 𝜉1, 𝜉2 , … , 𝜉𝑛 statisztika, maga is tekinthető valószínűségi változónak.
Paraméter becsléseket 𝐹 statisztikák segítségével végzünk
Azt mondjuk, hogy F 𝜉1, 𝜉2 , … , 𝜉𝑛 statisztka torzítatlan becslése θ-nek, ha:
M F 𝜉1, 𝜉2 , … , 𝜉𝑛 = M 𝑋𝑛 = θ
Példa Torzítatlan becslésre
Egy 𝜉 valószínűségi változónak legyen 𝑚 a várhatóértéke:
𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta.
Állítás: 𝑥𝑛 torzítatlan becslése 𝑚-nek, azaz:
𝑀 𝑥𝑛 = 𝑚 Bizonyítás:
𝑀𝜉1+𝜉2 +⋯+𝜉𝑛
𝑛=
1
𝑛∙ 𝑀 𝜉1 +⋯+𝑀 𝜉𝑛 =
1
𝑛∙
𝑛 ∙ 𝑀 𝜉1 = 𝑀 𝜉1 = 𝑀 𝜉 = 𝑚
Megj.: 𝜉1, 𝜉2 , … , 𝜉𝑛 független, azonos eloszlású valószínűségi változók, várható értékük ezért megegyezik
Szórás torzítatlan becslése
Definíció: F 𝜉1, 𝜉2 , … , 𝜉𝑛 statisztka aszimtotikusan torzítatlan becslése θ-nek, ha:
lim𝑛→∞
M F 𝜉1, 𝜉2 , … , 𝜉𝑛 = θ
Egy 𝜉 valószínűségi változónak legyen 𝜎2 a szórásnégyzete
𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta.
Állítás bizonyítás nélkül: 𝑠𝑛2 aszimptotikusan torzítatlan becslése 𝜎2-nek,
azaz:
lim𝑛→∞
M 𝑠𝑛2 = 𝜎2
Állítás bizonyítás nélkül: 𝑠𝑛∗ torzítatlan becslése 𝜎-nak, azaz:
M 𝑠𝑛∗ = 𝜎
Torzítatlan becslések hatásossága
Ha 𝐹1és 𝐹2 ugyanazon mintán értelmezett statisztikák és mindkettő torzítatlan becslése a θ paraméternek, akkor azt mondjuk, hogy 𝐹1hatásosabb 𝐹2-nél, ha:
𝐷2(𝐹1) < 𝐷2(𝐹2)
Ha 𝜆1 + 𝜆2 +⋯+ 𝜆𝑛 = 1, akkor az
F 𝜉1, 𝜉2 , … , 𝜉𝑛 = 𝜆1 ∙ 𝜉1 + 𝜆2 ∙ 𝜉2 +⋯+ 𝜆𝑛 ∙ 𝜉𝑛statisztikák mindegyike torzítatlan becslése a várható értéknek, közülük a tapasztalati átlag a leghatásosabb!
Ennek bizonyítása elhangzott előadáson, a levezetés megtalálható a Petz – Lángné Matematika III. jegyzetben
Centrális Határeloszlás-Tétel
𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta
𝑀(𝜉𝑖) = 𝑚
𝐷(𝜉𝑖) = 𝜎
Tétel:
𝑃 𝑎 < 𝑥𝑛−𝑚 ∙ 𝑛
𝜎< 𝑏 → Φ 𝑏 −Φ 𝑎 ,
ha 𝑛 → ∞
A tétel szerint a tapasztalati várható érték (mint valószínűségi változó), nagy mintaméret esetén megközelítőleg normális eloszlású 𝑚 várhatóértékkel és 𝜎
𝑛szórással, függetlenül attól, hogy 𝜉𝑖 milyen eloszlású
Intervallum becslés Normális eloszlásra
Adott egy Normális eloszlású statisztikai sokaság
𝜉1, 𝜉2 , … , 𝜉𝑛 n-elemű minta
𝑀(𝜉𝑖) = 𝑚 ISMERETLEN
𝐷(𝜉𝑖) = 𝜎 ADOTT
Szeretnénk egy olyan intervallumot meghatározni, hogy az ismeretlen 𝑚 érték 95%-os valószínűséggel beleessen, vagyis egy olyan 𝑐számot, melyre:
𝑃 𝑥𝑛 −𝑚 < 𝑐 = 0,95
Konfidencia intervallum
Standardizálunk, hogy Standard Normális eloszlásfüggvényt tudjunk használni:
𝑃 𝑥𝑛 −𝑚 < 𝑐 = 0,95
𝑃 −𝑐 ∙ 𝑛
𝜎<
𝑥𝑛 −𝑚 ∙ 𝑛
𝜎<𝑐 ∙ 𝑛
𝜎= 0,95
Φ𝑐 ∙ 𝑛
𝜎− Φ −
𝑐 ∙ 𝑛
𝜎= 2 ∙ Φ
𝑐 ∙ 𝑛
𝜎− 1 = 0,95
Φ𝑐 ∙ 𝑛
𝜎= 0,975 = Φ 1,96
𝑐 =1,96 ∙ 𝜎
𝑛
Vagyis az ismeretlen 𝑚 paraméter 95%-os megbízhatósági szinten a
𝑥𝑛 −1,96∙𝜎
𝑛, 𝑥𝑛 +
1,96∙𝜎
𝑛konfidencia (megbízhatósági) intervallumba esik.