Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
확률확률 및및 불규칙불규칙 신호론신호론 33
확률이론 기초와 랜덤변수
전자융합공학과
김형국 교수
각 Speaker의 Normal-, Emotional-, Noisy- Speech Database 구축 필요
Large Database를 이용한 Learning (학습)⇒ One Speaker Model 형성
Model Size의 증가와 Adaptation을 통한 Robust Speaker Model 형성
Speaker Model GenerationSpeaker Model Generation
2
Speaker A Model
Speaker B Model
대부분의 경우가 Model-Based Classification/Recognition 방식을 사용
Gaussian Mixture Model (GMM): 화자 인식에 적용- Mixture components and diagonal covariance matrices- Simple, fast classifier, but good recognition rate
Speaker Identification
Speaker Identification 1Speaker Identification 1
3
Speaker Models
Voice Feature Generator
Voice Feature Generator
Pattern Classifier(GMM)Pattern Classifier(GMM)
Speaker DecisionSpeaker Decision
대부분의 경우가 Model-Based Classification/Recognition 방식을 사용
Hidden Markov Model (HMM): 음성인식에 적용- HMM topology: left-right HMM, ergodic HMM- Baum-Welch training - Number of hidden states
Support Vector Machine (SVM): Discriminant Model, 높은 인식률
Speaker Identification
Speaker Identification 2Speaker Identification 2
4
Speaker Models
Voice Feature Generator
Voice Feature Generator
Pattern Classifier(HMM)Pattern Classifier(HMM)
Speaker DecisionSpeaker Decision
Speaker Model 형성을 위해 Large Vocabulary Database 필요
Emotion에 따른 Speaker의 음색 변화
Environmental Noise에 따른 Speaker Speech의 왜곡 발생
Speaker Model 생성 및 증가된 Model Size에 따른 계산량 증가 및 인식 성능 변화
Problems of Speaker IdentificationProblems of Speaker Identification
5
Speaker Model DecisionSpeaker Model Decision
6
Statistical ParametersStatistical Parametersn Population(모집단): 관찰이나 측정의 대상이 되는 사물이나 현상의 전체
n sample (표본): 실제 관찰되거나 측정된 그 일부
n sampling : 대상이 되는 전체에서 관찰이나 측정을 하기 위해 그 일부를n sampling : 대상이 되는 전체에서 관찰이나 측정을 하기 위해 그 일부를고르는 것
n dispersion(흩어짐): 어떠한 대상을 측정하였을 경우, 얻어지는 측정값은언제나 일정한 하나의 값이 아니고, 각각 다른 값이 되는 것이 일반적이다. 이렇게 측정값의 크기가 고르지 않는 것
n distortion(왜곡): 측정값의 흩어짐의 상태
Statistical ParametersStatistical Parametersn Sample mean(평균): 자료의 총합을 자료의 개수로
나눈 것. 자료의 분포의 무게 중심, 분포의 중심,분산을 최소로 하는 값
n Sample variance (분산): 자료로부터 평균값의 차이에 대한 제곱값의 평균, 자료의 흩어진 정도
n Standard deviation (표준 편차) : 분산은 자료의 단위와 달라지므로 분산의 제곱근을 취하여 자료의 단위
( )å=
--
=n
ii xx
ns
1
22
11
1
1 n
ii
x xn =
= å
Standard deviation (표준 편차) : 분산은 자료의 단위와 달라지므로 분산의 제곱근을 취하여 자료의 단위와 일치시킨 것
n 바이어스(bias): 많은 회수 측정시 측정치 분포의 중심, 데이터의 편향된 정도(치우침)를 나타낸다.
( )å=
--
=n
ii xx
ns
1
2
11
Statistical ParametersStatistical Parametersn Covariance(공분산): 두 개 이상의 변량 데이터가 주어질 경우에 각 변량간의 변화하
는 양상을 나타내는 통계적 척도, 표본의 랜덤 데이터가 이 변량 데이터일 경우의공분산은 다음과 같이 계산된다.
n Correlation(상관 계수): 두 변량 X,Y 사이의 상관관계의 정도를 나타내는 수치(계수)
Statistical ParametersStatistical Parametersn Skewness(왜도): 분포가 어느 한쪽으로 치우친(비대칭:asymmetry) 정도를 나타
내는 통계적 척도이다. 오른쪽으로 더 길면 양의 값이 되고, 왼쪽으로 더 길면음의 값이 된다. 분포가 좌우 대칭이면 0이 된다.
n Kurtosis(첨도): 뾰족한(peakedness) 정도를 나타내는 통계적 척도. Kurtosis < 3 : 평편한 분포 , Kurtosis = 3 : 정규분포, Kurtosis > 3 : 뾰쪽한 분포
Statistical ParametersStatistical Parameters
n 회귀분석 (Regression analysis)- 변수들 사이의 관계를 조사하여 모형화 시키는 통계적 기법
- 자연과학 및 사회과학에서 널리 응용되는 분석도구
- 회귀분석법은 변수들간의 함수적인 관련성을 규명하기 위하여 수학적 모형(통계 모형)을 가정하고, 관측된 자료로부터 이 모형을 추정하는 통계분석방법으로서 주로 예측에 이용된다.
- 회귀분석을 응용하면 주어진 표본을 잘 대표하는 하나의 적합한 함수인최적 근사 함수를 구할 수 있다.
Statistical ParametersStatistical Parametersn 회귀직선 : 표본을 대표하는 하나의 적합한 직선- 각 표본의 점에서 직선까지의 차이의 크기의 합계를 가장 작게 하는 직선- 표본의 각 점에서 그 임의의 직선에 내린 수선의 길이의 제곱 값의 합을 최소로
하는 방법으로 직선의 식을 구함- 최소자승법(Method of Least Mean Squares)- 최소자승법(Method of Least Mean Squares)
Statistical ParametersStatistical Parameters( ) ( ) ( )nn yxyxyx ,2211 ,...,,,,ba += xy
( ){ } ( ) ( ){ }
( ){ } ( ) ( ){ } 0212
,022
0 ,0
=---=-×+-=¶¶
=---=-×+-=¶¶
=¶¶
=¶¶
åå
åå
iii
iii
iiiii
iii
xyxyE
xxyxxyE
EE
babab
babaa
ba
임의의 직선 이 변량 측정값
과 직선의과의 편차에 대한 평균제곱오차 MSE
를 최소로 하는 α, β 를 만족하는 직선이 회귀직선
( ){ }2
1å=
+-=n
iii xyE ba
( ){ } ( ) ( ){ }
( ){ } ( ) ( ){ } 0212
,022
0 ,0
=---=-×+-=¶¶
=---=-×+-=¶¶
=¶¶
=¶¶
åå
åå
iii
iii
iiiii
iii
xyxyE
xxyxxyE
EE
babab
babaa
ba
Statistical ParametersStatistical Parameters
( ) ( )22
2
22
22
2
22
,
11)1()3(
(3) 11(2)
(2) 0
(1) 0
åååååå
ååååå
ååååå
ååååå
ååååå
åååååå
-
-=
-
-=
ïþ
ïýü
ïî
ïíì
-÷ø
öçè
æ=-Þ-
+÷ø
öçè
æ=Þ´
+=Þ=--
+=Þ=--
i ii i
i iii ii ii i
i ii i
i ii ii ii
ii
iii
ii
ii
ii
ii
ii
ii
ii
ii
ii
ii
iii
ii
ii
iii
ii
ii
iii
ii
xxn
yxxxy
xxn
yxyxn
xxn
yxxyn
xxn
xyn
xn
nxyxy
xxyxxxyx
ba
a
ba
baba
baba
( ) ( )22
2
22
22
2
22
,
11)1()3(
(3) 11(2)
(2) 0
(1) 0
åååååå
ååååå
ååååå
ååååå
ååååå
åååååå
-
-=
-
-=
ïþ
ïýü
ïî
ïíì
-÷ø
öçè
æ=-Þ-
+÷ø
öçè
æ=Þ´
+=Þ=--
+=Þ=--
i ii i
i iii ii ii i
i ii i
i ii ii ii
ii
iii
ii
ii
ii
ii
ii
ii
ii
ii
ii
ii
iii
ii
ii
iii
ii
ii
iii
ii
xxn
yxxxy
xxn
yxyxn
xxn
yxxyn
xxn
xyn
xn
nxyxy
xxyxxxyx
ba
a
ba
baba
baba
Statistical ParametersStatistical Parametersn 회귀곡선 : 표본의 랜덤 데이터가 이 변량 데이터(Bivariate) (xi,yi)일 경우에
표본을 잘 대표하는 하나의 적합한 함수는 1차식의 직선으로 나타낼 수도있지만, 2차식의 곡선으로 나타낼 수도 있다.
! ,,
2
cbacbxaxy ++=
! ,,
2
구하라를cbacbxaxy ++=
정규분포의정규분포의 발견발견
18세기 천문학자우주관측 후
측정 오차를 도표화
18세기 천문학자우주관측 후
측정 오차를 도표화
아래와
같은
모양의
분포를
얻음
아래와
같은
모양의
분포를
얻음
무한수의 사례가 있는 전집에 기초를 둔 가설적이고
이상적인 분포이다.
무한수의 사례가 있는 전집에 기초를 둔 가설적이고
이상적인 분포이다.
연속확률분포, 가우스 분포
연속확률분포, 가우스 분포
19세기 생리학자성인의 키를 측정
분포도를 작성
19세기 생리학자성인의 키를 측정
분포도를 작성
몸무게, 머리 크기,달리기 속도 등
몸무게, 머리 크기,달리기 속도 등 전집에 대한 추리와
같은 현실적 자료를설명하는데 유익
전집에 대한 추리와같은 현실적 자료를
설명하는데 유익
정규분포의정규분포의 성질성질
n 화학 천칭(balance)을 써서 동일한 물체를 되풀이 측정하면 그 측정값은 언제나 같은 값이 되지는 않는다.
n 이것은 측정이 우연적인 여러가지 원인(실험실의 온도, 습도, 측정기의 작동, 기타)에 의하여 좌우되기 때문이다.
n 그러나 측정값은 제멋대로 나타나는 것은 아니고 참값에 가까운 측정값이많이 나오고 참값으로부터 멀리 떨어진 크거나 작은 값은 적을 것이다. 많이 나오고 참값으로부터 멀리 떨어진 크거나 작은 값은 적을 것이다.
n 뿐만 아니라 측정오차가 단순한 우연에 지배된다고 하면 참값 보다 큰 쪽과작은 쪽의 빈도는 거의 같으리라고 짐작된다.
n 위의 조건 아래서 측정값의 분포는 정규분포(normal distribution)에 따른다.
n 같은 성과 나이에서의 키, 같은 공정에서 생산된 부품의 치수나 전구의 효율, 같은 품종의 농작물의 수확량 (이와 같이 측정하는 값들을 계량치라 한다) 등의 히스토그램을 그려보면 정규분포의 형태를 취하고 있음을 알 수 있다.
n 정규분포의 분포곡선은 종 모양의 대칭곡선이며 plus의 방향과 minus의 방향으로 무한히 뻗쳐져 있다.
정규분포의정규분포의 성질성질
n 정규 분포는 단일 확률 분포가 아니라 2개의 모수(매개 변수)에 따라 위치와 척도가각각 달라지는 동일한 형상의 분포들을 아울러 이른다.
n 정규 분포의 모수는 평균 m 과 표준 편차 σ 이다. 이를 N(m,σ2)로 적는다. n 평균이 0, 표준편차가 1인 정규 분포를 표준 정규 분포라고 한다.
n 대칭분포 이다. n 평균=중앙치=최빈치n 단봉분포(unimodal distribution)이다.n 단봉분포(unimodal distribution)이다.
n 종 모양 이다.
n X 축에 점근 (漸近)한다.n 꼬리부분으로 갈수로 값은
작아지지만 완전히 0이 되지는 않는다. +¥에서 -¥로 점근한다.
n 면적은 1이다.
n 분포의 특징은 “m”와 “s”로 나타낸다.n 무한수의 사례가 있는 전집에 기초를 둔 가설적이고 이상적인 분포이기 때문
정규분포의정규분포의 성질성질
exp: 자연대수의 밑(base), 약 2.718σ:주어진 분포의 표준편차μ :주어진 분포의 평균x :가로 좌표(측정 값)f(x): 세로 좌표 (x값에 대한 곡선의 높이 즉 확률밀도)
정규분포의 표기는 N (평균, 분산) 즉, N ( μ, σ2 )으로 한다.
정규화정규화 & & 정규분포정규분포
— 자연의 법칙:일반적인 자연현상은 무분별하고 미래를 알 수 없는 완전한 랜덤하다고 하지만거기에서도 하나의 법칙이 있다.a Central Limit Theorem- 어떠한 일을 계속 반복적으로 할 경우 그 히스토그램은 정규분포 곡선과 비슷해
진다는 것. - 그리고 그 샘플수가 많아질수록 더욱더 정규분포에 가까워진다.- 그리고 그 샘플수가 많아질수록 더욱더 정규분포에 가까워진다.
평균 지점에서 가운데 볼록 솟아난다.이 세상에서 일어나는 모든 일은 이 법칙에 따른다. 이유는 모른다;어떠한 특수한 경우가 아닌 이상 이 법칙은 모든 자연현상에 적용이 된다.
정규분포의정규분포의 확률밀도확률밀도((곡선곡선 밑의밑의 넓이넓이))
정규분포는 μ 와 σ 에 의해서 결정되며, 그림에 보이는 바와 같이, μ 를 중심으로 ±1σ 이내에 68.27 %,
±2σ 이내에는 95.45 %의 확률로 나타나게 된다.
정규화정규화 & & 정규분포정규분포
정규: 일정한 규약이나 규칙
정규화 또는 정상화(normalization)는 어떤 대상을 일정한 규칙이나 기준에 따르는‘정규적인’ 상태로 바꾸거나, 비정상적인 대상을 정상적으로 되돌리는 과정을 뜻한다.
정규: 일정한 규약이나 규칙
정규화 또는 정상화(normalization)는 어떤 대상을 일정한 규칙이나 기준에 따르는‘정규적인’ 상태로 바꾸거나, 비정상적인 대상을 정상적으로 되돌리는 과정을 뜻한다.
모집단이 특정 변량(구분)에 대해서 정규분포임은 어떻게 알 수 있을까?— 어떠한 집합이라도 많은 실험을 하게 되면, 정규분포를 가지게 된다. — 정답집합은 제한적일 수 밖에 없으므로, 정규분포 가정은 항상 힘들게 된다. — 해당 샘플이 정규분포를 가지는지 비모수방법으로 규명하는 것도 방법중 하나이다
'정규분포를 따른다'라고 하는 것은 통계적으로 어떤 의미를 지닐까?— 평균에 가까운 샘플들이 종형을 이루면서 많아지는 모양을 가지는 분포— 평균을 중심으로 양방향으로 동일한 모양을 가진다— 표준편차의 값에 따라서 신뢰구간을 정할 수 있다
정규화정규화 & & 정규분포정규분포
n 정규분포를 따른다는 가정을 하게 되면, 생각보다 많은 부분이 단순화 될수 있다. - 이를테면, 기계학습을 할 때 학습집합의 갯수를 정할 때에도 얼마나 많은학습집합을 만들게 되면, 어느 정도 이상의 신뢰도를 가질 수 있다고 말할수 있기 때문이다. - 즉 적절한 샘플링 또는 학습집합의 갯수를 정하는 데에 좋은 지표가 된다는 것이다. 는 것이다. - 하지만 해당 실험집합의 정규분포 여부를 확인할 수 있는 명확한 방법이없기때문에 막연한 방법들을 택할 수 밖에는 없다.
n 일반적으로 알려진 정규분포의 예는
- 나이에 따른 남녀 평균신장, - 대통령 선거 출구조사를 통한 예상 득표율 등의 경우를 들 수가 있는데, - 이러한 경우는 이미 한번 그러한 실험을 거치고 통계적인 사전정보가 있
기 때문에 이러한 정규분포임을 알고 있는 경우이다.
표준정규분포표준정규분포
정규분포곡선 밑의 넓이가 통계수치표로 만들어져 있으면 편리하다. 그러나 아래 그림에서 보는 바와 같이 평균 μ 와 표준편차 σ 에 따라서 무수한 정규분포가있으므로 모든 경우를 망라해서 표를 만들 수는 없다.
그러나 우리는 다음과 같은 변환을 하면 어떤 정규분포에 대하여도 적용할 수 있는 방법을얻게된다.즉 z = ( x - μ ) / σ
라는 표준화 변환을 하면, z 는 평균이 0 이고, 분산이 1인 정규분포를 한다. 평균이 0 이고, 분산이 1인 정규분포N ( 0, 12 ) 를 표준정규분포 (standard normal distribution) 라 한다. 식에서 z 란 「 어떤 값x 가 μ 로 부터 표준편차의 몇 배 (몇σ) 떨어져 있는가」를 나타내는 값임에 유의하라. 이와 같이 모든 정규분포는 표준화 변환을 하면 위 그림의 표준정규분포와 match시켜 모집단의 어디에 위치하는가를 알 수 있고 (분포표로써 그 확률까지), 이로써 통계적 확률에 입각한검추정을 할 수 있게 된다.
표준정규분포표준정규분포
sm-
= iXZX~N(m,s2)인 정규분포X~N(m,s2)인 정규분포
평균이 0 이고 표준편차는 1이 되는 정규분포로 변환평균이 0 이고 표준편차는 1이 되는 정규분포로 변환
이게 왜 필요할까?
sm-
= iXZ ~ N(0,1)
( ) ( ) òò-
==<<b
a
zb
adxedxxfbxaP 2
2
21ps
표준정규분포의표준정규분포의 필요성필요성m와 s에 따라 다양한 형태의 정규분포가 가능m와 s에 따라 다양한 형태의 정규분포가 가능
m=4s=1.5
m=10s=1.0
분포의 형태는 다르지만평균을 중심으로 제한된범위내의 확률은 같다.
분포의 형태는 다르지만평균을 중심으로 제한된범위내의 확률은 같다.
1 2 3 4 5 6 7 8 9 10 11 12
s=1.5m=7s=2 모든 형태에 적용
가능한 표준적인형태의 분포를이용하는 것이 편리
모든 형태에 적용가능한 표준적인형태의 분포를이용하는 것이 편리
표본분포의표본분포의 정규분포접근정규분포접근
n 표본자료에서 모수치를 추정할 때 충족되어야 할 두 가지 조건
n 표본이 표집되는 모집단 분포가 정규분포여야 한다. n 표본수가 충분히 커야 한다. 표본 분포는 다소간 불규칙적 인데 그 이
유는 다음과 같다.n 표집방법이 편기적
n 측정도구의 비 신뢰성n 측정도구의 비 신뢰성
n 표본의 수, 표본의 수가 무한개에 접근할 때 표본분포는 이상적인정규분포에 접근하며 정규성의 전제가 가능하다
v중심극한 정리 : 모집단의 분포형태에 관계없이 만약 표본수가 충분히크고 표본이 무선적으로 표집된 경우 표본 평균치의 분포는 정규분포를이룬다.
v중심극한 정리 : 모집단의 분포형태에 관계없이 만약 표본수가 충분히크고 표본이 무선적으로 표집된 경우 표본 평균치의 분포는 정규분포를이룬다.
반드시알아두자반드시
알아두자
정규분포정규분포 예제예제
n S대학의 입시에 응시한 학생 10000명의 수학성적을 조사하였더니 평균이50점, 표준편차가 15점인 정규분포를 이루었다. 이때, 점수가 20점부터 80점까지를 받은 학생수는 약 몇 명이겠느냐?
Sol. 표준척도를 이용하여 표준정규분포로 고쳐서 해결
임의로 뽑은 한 학생의 점수를 X라 하면
m=50, σ=15표준척도 에서
X=20 일 때
X=80 일 때
1550-
=-
=XXZ i
sm
215
5020-=
-=Z
215
5080=
-=Z
( ) ( ) ( )95449544.010000
9544.04772.02202228020=´
=´=££=££-=££ ZPZPXP
Statistical ParametersStatistical Parameters
n Report강의게시판에 주어지는 음성, 음악, 잡음 신호의
평균, 분산, 표준편차, 왜도, 첨도, 정규분포를구하는 Matlab 프로그래밍을 구현하고, 그 결과 값을 Matlab구하는 Matlab 프로그래밍을 구현하고, 그 결과 값을 Matlab
으로 출력하여 메일로 조교에게 제출하세요.
제출일자:
Random VariableRandom Variablen 확률변수(random variable)
n 실험 또는 관찰에서 일정한 확률을 가지고 발생하는 사건에 여러 가지 값이 부여되는 변수
n 표본공간의 각 원소에 실수를 대응시켜주는 함수(수학적 표현)
n 보통 X로 표기
n 이산확률변수 vs. 연속확률변수n 이산확률변수 vs. 연속확률변수
Probability DistributionProbability Distributionn 확률분포란 무엇인가?수치로 대응된 확률변수의 개별 값들이 가지는 확률 값의 분포확률변수 X가 가질 수 있는 특정한 값 x와 이 x값에 대응하는 확률을 나열한 리스트
예1) 두 개의 동전을 던지는 확률 실험에서 앞면이 나오는 숫자
예2) 두 개의 주사위를 던져서 나오는 점들의 합
Discrete Probability ValueDiscrete Probability Valuen 확률변수:
n 어떤 측정값이 일어날 수 있는 상대 빈도를 가리키는 함수
n 확률 변수의 분포를 나타내는 함수
n 이산확률변수n 이산형 확률변수는 이산점에서 0이 아닌 확률값을 가지며 확률은
으로 표현 한다.n 주사위나 동전던지기의 경우처럼 취할 수 있는 값이 유한하거나 또는 셀 수
niPxXP iir ,,2,1,)( L===n 주사위나 동전던지기의 경우처럼 취할 수 있는 값이 유한하거나 또는 셀 수
있는 변수
n 이산확률분포(discrete probability distribution)n 이산확률변수 X가 취할 수 있는 특정한 값 x에 대응하는 확률을 나타내주
는 확률분포n 확률변수의 각각의 값에 대응하는 확률을 일일이 나열하는 것은 복잡하고
번거로운 일확률분포의 특징을 찾아 간단하게 어떤 함수 모양으로 표현
n X가 특정한 값 x를 취할 확률을 로 나타내면가 X의 확률분포를 대표(확률밀도(probability density))
n 이를 함수관계로 나타낸 것을 확률밀도함수라 함
)()( xfxXP ==)(xf
Probability Density Function: Probability Density Function: P.D.FP.D.Fn 확률밀도함수: 확률 변수의 분포를 나타내는 함수를 특정 구간에 대해 적분한
값이 구간에 포함될 확률값이 되는 함수이다.n 확률변수 X가 a≤ X ≤b의 값을 가지는 확률 P(a≤ X ≤b)
= 확률 밀도 함수 f(x)와 구간 (a,b]에 대해서 확률 변수 X가 구간에 포함될 확률 는
n 이산확률변수에서의 성질1. 각 수치가 나타날 확률은 당연히 0과 1사이의 값2. 모든 가능한 경우의 확률의 합은 1
모든 의 값에 대하여x 0)( ³xf1)( =å
xxf
( ) ( )b
aP a X b f x dx£ £ = ò ( ) ( ) ( )j
k
jjX xxxPxf -=å
=
d1
n 연속형 확률변수: 연속형 확률변수란 가능한 값이 실수의 어느 특정 구간 전체에 해당하는 확률변수를 말한다. 즉, 특정실수 구간에서 0이 아닌확률을 갖는 확률변수이다.
n 확률밀도 함수 조건
1. X의 모든 실수값에 대하여 확률밀도함수는 0 이상
1)( =ò¥
¥-
dxxf
Probability Density Function: Probability Density Function: P.D.FP.D.F
2. X의 모든 가능한 값의 확률은 적분 으로 구하며 이 값은
항상 1이다.
3. 구간 (a, b)의 확률은 이다. 즉, 그 구간에 있어서
확률밀도함수로 만들어지는 면적의 크기이다.
1)( =ò¥
¥-
dxxf
òb
a
dxxf )(
P. D. F. P. D. F. 의의 성질성질
0.6f(x)
P. D. F.P. D. F.의의 예제예제
n 예) 어떤 확률변수 X의 함수가 다음과 같다고 한다.
이 함수는 확률밀도함수(p.d.f)인가?n 모든 x값에 대하여 f(x)의 값이 0과 1사이의 값을 갖고, 그 합이 1이므로 p.d.f임
3,2,1,0,61)( == xxxf
0
0.1
0.2
0.3
0.4
0.5
0.6
0 1 2 3 x
f(x)
P. D. F.P. D. F.의의 예제예제
n 예) 확률변수 X가 0과 1사이에서 균등한 분포를 가질 때 X의 확률밀도함수는
와 같고
îíì ££
=곳다른 ,0
10,1)(
xxf
확률밀도 함수의 조건도 만족함을 쉽게 확인 할 수 있다.
이 경우 X가 0.2에서 0.5사이의 값을 가질 확률은?
3.0)()5.02.0(5.0
2.0
==££ ò dxxfXPr
P. D. F.P. D. F.의의 예제예제
n 예) 확률변수 X의 확률밀도함수가 다음과 같을 때
îíì
<³
=-
0,00,
)(xxe
xfx
역시 확률밀도함수의 조건을 만족하는데, 0과 1사이의 확률은?
880.63212055 1)()10( 11
0
=-==££ -ò edxxfXPr
P. D. F.P. D. F.의의 예제예제
n 예) 확률변수 X의 확률밀도함수가 다음과 같을 때 상수 C를 구하여라.
îíì ££
=곳다른 ,0
20,)(
xcxxf
121)()(
2
0
22
0
=úûù
êëé== òò
¥
¥-
cxdxxfdxxf 121)()(
2
0
22
0
=úûù
êëé== òò
¥
¥-
cxdxxfdxxf
P. D. F.P. D. F.의의 예제예제
n 예) 확률변수 X의 확률밀도함수가 다음과 같을 때 상수 k의 값과 확률P{lXl≤0.5}를 구하여라.
( )îíì
>-<££--
=1 ,1 ,0
11,1)(
2
xxxxk
xf
( )
( )
( ) ( )1611
34321
435.0X5.0
43 ,1
34
3212
,1010)(
21
0
325.0
5.0
1
0
31
0
2
1
1 1
21
=úû
ùêë
é-´=-=££-
===úû
ùêë
é-=-
=+-+=
ò
ò
ò òòò
-
-
¥-
¥-
¥
¥-
xxdxxP
kkxxkdxxk
dxdxxkdxdxxf
n 누적분포함수n 때때로 일정한 구간의 확률을 계산해야 할 때가 있음
n 예) 두 개의 동전을 던져서 앞면이 하나 이하가 나올 확률은 얼마인가를 계산하는 경우
n 앞면이 전혀 안 나오는 경우와 하나인 경우를 합해야 함
n 이러한 계산을 위해서 확률밀도함수로부터 도출한 함수를 확률분
Cumulative Distribution Function; Cumulative Distribution Function; C.D.F C.D.F
n 이러한 계산을 위해서 확률밀도함수로부터 도출한 함수를 확률분포함수(probability distribution function) 또는 누적분포함수(cumulative distribution function)라 하며 보통 로 나타냄
n 누적분포함수의 값 : 실수 x보다 작거나 같은 확률을 누적한 것
어떤 확률 분포에 대해서, 확률 변수가 특정 값보다 작거나 같은 확률을 나타낸다.
n 이산확률변수의 경우
)(xF
)()( xXPxF £=
å£
=cx
xfcF )()(
Cumulative Distribution Function; Cumulative Distribution Function; C.D.F C.D.F
CDF
n 누적분포함수
확률변수X가 x이하의 값을 가지는 확률 P(X ≤ x)을 말하며, 다음과 같이 표시된다.
- 이산형:
)()( aFaxP Xr =£
å£
==ax
iXi
xXPaF )()(
( ) ( ) ( )in
iiX xxuxPxF -×=å
=1
Cumulative Distribution Function; Cumulative Distribution Function; C.D.F C.D.F
이산형 확률변수의 누적분포함수 는
계단함수(step function)가 된다.
- 연속형:
도시적으로 나타내면, f(x) 곡선 아래의 x값까지의 면적에 해당한다
이와 같이, 어떠한 특정 값 x 이하가 될 확률 F(x)를, -∞에서 x값까지의 누적된 양을 나타낸다는 의미
å£
==ax
iXi
xXPaF )()(
ò ¥-=
a
X dxxfaF )()(
C. D. FC. D. F의의 예제예제
예) 동전 3개를 던지는 실험에서 확률변수 X를 앞면의 수라고 정의할 때X의 확률분포는 다음과 같다.
X 0 1 2 3 합
확률 1/8 3/8 3/8 1/8 1
누적분포의 경우는누적분포의 경우는
x 0 1 2 3
F(x) 1/8 1/2 7/8 1
C. D. FC. D. F의의 성질성질
n 누적분포함수의 성질
C. D. FC. D. F의의 성질성질
nxxx L<< 21
1xa <
1xa ³ å£
=ax
ii
PaF )(
이산형 확률변수의 누적분포함수는 이산형 확률변수의 각 이산점
에서 0이 아닌 확률을 가지므로
가. 인 경우, F(a)=0
나. 인 경우, å£
=ax
ii
PaF )(
nxa ³라. F(a)는 X의 각 이산점에서 해당확률값 만큼 도약하는 계단함수이다.
다. 인 경우, F(a)=1
연속형 확률변수의 누적분포함수 – 감소하지 않는 연속함수(non-decreasing continuous function)가 된다.
ò ¥-=
a
X dxxfaF )()(
C. D. FC. D. F의의 예제예제
îíì ££
=otherwise
xxf
,010,1
)(
òò ¥-¥-===
xxxdtdttfxF 1)()(
예제) 에 대한 누적분포함수를 구하라
0보다 작은 경우 영적분이므로 F(x)=0이고, 1보다 크거나 같은 경우에는 모든 경우를 아우르므로 F(x)=1이지만,그 사이 구간의 값의 경우
òò ¥-¥-===
xxxdtdttfxF 1)()(
그 사이 구간의 값의 경우
따라서 그림으로 표현하면
C. D. FC. D. F의의 예제예제
îíì
<³
=-
0,00,
)(xxe
xfx
òòò --
¥--====
x xtxxedtedttfdttfxF
001)()()(
예) 에 대한 누적분포함수는?
x<0의 경우 0적분으로 F(x)=0그 외의 경우는
òòò --
¥--====
x xtxxedtedttfdttfxF
001)()()(
C. D. FC. D. F와와 P. D. FP. D. F의의 관계관계
P.D.FP.D.F와와 C. D. FC. D. F의의 실시간실시간 예제예제
îíì
<<<
=0,0
30,)(
2
xxcx
xf
1. P.D.F.의 상수 c 를 구하라.
2. P(1<X<2)를 계산하라.2. P(1<X<2)를 계산하라.
3. C.D.F를 구하여라.
4. 3의 결과를 이용하여 P(1<X≤2)를 구하라.
C. D. FC. D. F와와 P. D. FP. D. F의의 예제예제
C. D. FC. D. F와와 P. D. FP. D. F의의 예제예제
C. D. FC. D. F와와 P. D. FP. D. F의의 예제예제
C. D. FC. D. F와와 P. D. FP. D. F의의 예제예제
이산확률분포의이산확률분포의 측정측정
n 확률분포n 특별한 종류의 도수분포
n 변수의 값에 대하여 확률을 알려줌
n 중심위치와 산포경향에 따라 분포가 특징 지워짐
n 평균과 분산 및 표준편차의 측정은 분포의 모양을 파악하는데n 평균과 분산 및 표준편차의 측정은 분포의 모양을 파악하는데매우 중요한 측정수단
n 모집단의 평균과 모집단의 분산을 나타낸다. 모집단의 평균과모집단의 분산은 모집단의 특성을 나타내는 중요한 값이다. 이와 같이, 모집단의 특성을 나타내는 양을 모수(parameter)라고 한다.
n 기대값 : 확률변수의 평균
Expected Value E(X)Expected Value E(X)
n 이산분포일 경우:
n 연속분포일 경우:
( ) ( )E X xP x=å( ) ( )E X xf x dx
¥
-¥= ò
3 3( )g x x a= - 3 3[ ( )] ( ) ( ) ( ) ( )E g x g x P x x a P x= = -å å3 3[ ( )] ( ) ( ) ( ) ( )E g X g x f x dx x a f x dx
¥ ¥
-¥ -¥= = -ò ò
n 평균(이산확률변수)n
n 예1) 청운 아파트 단지 전체에 있는 평형과 가구수평형(x) 가구수(x)
20 100
25 200
)(xfxå ×=m
Expected Value E(X) Expected Value E(X) 예제예제
아파트 단지의 1가구당 평균 평수는 얼마인가?
n
25 200
30 200
합계 500
)(26500
13000500
200302002510020평==
´+´+´=
×=å
Nxf
m
평형(x) f(x) x·f(x)
20 0.2=100/500 4
25 0.4=200/500 10
30 0.4=200/500 12
합계 1.0 26
n 예2) 두 개의 동전을 던지는 실험에서 앞면이 나오면 1, 뒷면이 나오면 0이라 한다. 이 표를 이용하여 평균을 구하라. 그리고 그 값이 의미하는바는 무엇인가?
x f(x) x·f(x)0 1/4 0
1 1/2 1/2
Expected Value E(X) Expected Value E(X) 예제예제
n
n 평균이 1이라는 것은 두 개의 동전을 던질 때 평균적으로 보아 둘 중의 하나는 앞면이 나온다는 의미
1 1/2 1/2
2 1/4 1/2
합계 1.0 1
1)( =×=å xfxm
n 수학적 기대값n 무한모집단의 경우 확률변수의 평균을 기대값이라 부른다.
n 예) 주사위를 던져 3이 나올 확률을 알기 위해 무한 반복 실험할 경우, 평균적으로 보아 확률이 1/6이 될 것이라고 기대할 수 있다.
n 확률변수가 반복 시행되는 곳에서 나올 때 기대값은 장기적으로 보아 반복시행 결과의 평균치라고 해석 가능
Expected Value E(X) Expected Value E(X)
아 반복시행 결과의 평균치라고 해석 가능
n 이산확률변수의 경우
n 예1) 자동차보험회사에서는 자동차사고가 일어난 확률에 근거하여 보험료를 산정하고 있다. 특히 20대 남자운전자는 사고확률이 높기 때문에 다른연령의 운전자보다 보험료가 더 많다. 이 운전자의 대물배상 보험 가입액이20,000,000원이고 사고확률은 0.002로 알려져 있다. 만일 보험료가 100,000원이라면 이 회사는 어느 정도의 수익을 남기는 셈인가?
n 대물배상 기대값
n 보험료가 100,000원이므로 60,000원이 수익
m=×=å )()( xfxXE
000,40002.0000,000,20)( =´=XE
n 확률변수의 분산과 표준편차
Variance, Standard DeviationVariance, Standard Deviation
2( ) { ( )} ( )Var X x E X P x= -å2( ) { ( )} ( )Var X x E X f x dx
¥
-¥= -ò
( ) ( ) ( )sd X SD X Var X= =
Expected Value, Variance, Expected Value, Variance,
n Expected value(mean) ( )( )
( ) continuous :X discrete :X
ïî
ïíì
==ò
å¥
¥-dxxxf
xPxXEX
X
iiXi
n Varinace
( )[ ] ( ) ( )
( ) ( )
( )[ ] ( )[ ] [ ] [ ] ( )[ ] ( ) [ ] ( ) ( )[ ] ( ) [ ] [ ]( )2222
22222
222222
2
2
22
22
22
XEXEXXE
XXXEXXXXE
XXXEXEXXXXEXXE
dxxfXx
xPXxXXE
X
Xi
iiXi
X
-=-=
+-=+-=
+-=+-=-=
ïî
ïí
ì
-
-=-=
ò
å¥
¥-
s
s
n 분산 및 표준편차
n 분산 : 확률변수의 값이 평균으로부터 벗어난 편차를 제곱한 것을 가중평균한 것(가중치는 확률)
n
n 표준편차 : 분산의 제곱근
n
)()( 22 xfx ×-=å ms
ss 2=
Variance, Standard DeviationVariance, Standard Deviation
n
n 예) 앞의 동전던지기 실험에서 분산 및 표준편차를 구하라.ss 2=
21)()( 22 =×-=å xfx ms 71.0
21==s
x f(x) (x-μ)2 (x-μ)2·f(x)
0 1/4 1 1/4
1 1/2 0 0
2 1/4 1 1/4
n 분산의 기대값
n 모집단 분산은 평균적인 편차제곱
n 확률분포에서 분산은 편차제곱의 기대되는 값
n å =×-=-= smm 222 )()()()( xfxXEXVar)]([)( 22 XEXE -=
Variance, Standard Deviation Variance, Standard Deviation 예제예제
n 예) 앞의 갑회사 주식투자 문제에서 분산과 표준편차를 구하여라.n
n
)]([)( 22 XEXE -=
å =×-= 400,92)()()( 2 xfxXVar m0.304)( == XVars
x(만원) f(x) (x-μ)2 (x-μ)2·f(x) x2·f(x)
-200 0.4 129,600 51,840 16,000
300 0.3 19,600 5,880 27,000
500 0.3 115,600 34,680 75,000
Expected ValueExpected Value의의 성질성질
Binomial Distribution (Binomial Distribution (이항분포이항분포))n 베르누이 시행
n 확률변수 X의 값은 0또는 1이다. 흔히, 의 사상을 성공, 을 실패라 한다.
n 각 시행에서 성공의 결과가 나타날 확률 은 일정하다. 그리고 성공할 확률과 실패할 확률은 합하면 1이다.
n 여러 번에 걸친 베르누이 시행은 각각 독립적이다.
0=x1=x
))1(( =XP
.n
n 베르누이 확률변수의 기대값, 분산 및 표준편차n
n
n
x f(x)
0 1-π
1 π
pm =)1()1()1()0( 222 pppppps -×=×-+-×-=
)1( pps -×=
n 이항분포의 의의n 일반적으로 n회의 독립적인 베르누이 시행을 이항실험이라 함
n 성공의 횟수 또는 실패의 횟수를 이항확률변수라 한다.n 이항확률변수의 확률분포를 이항확률분포(binomial probability distribution)
또는 간단히 이항분포(binomial distribution)라 함
n 이항분포의 확률변수 X는 n개의 독립적인 베르누이 확률변수의 합
Binomial Distribution (Binomial Distribution (이항분포이항분포))
n 이항분포의 확률변수 X는 n개의 독립적인 베르누이 확률변수의 합
n
n 이항확률함수n 한 사상이 한번 시행에서 일어날 확률을 p, 일어나지 않을 확률을 q=1-p라
하면 그 사상을 n번 시행에서 x번 일어날 확률
nXXXX +++= L21
)1()()( ppCxfxXP xnxxn -×=== -
성공횟수총시행횟수 == xn , 확률실패의확률성공의 1 , =-= pp
)!(!!
xnxnCxn-
=
n 예) 차가 경부고속도로의 신갈 인터체인지에서 강릉방면으로 가는 경우를 성공이라 하고 그 외 방면으로 가는 경우를 실패라 가정하자. 성공할 확률은 0.1이고 실패할 확률은0.9로 가정하는 경우 임의로 10대를 뽑았을 때 2대 이하가 강릉방면으로 갈 확률은 얼마인가?
)2()1()0()2( =+=+==£ XPXPXPXP)9.0()1.0()9.0()1.0()9.0()1.0( 82
21091
110100
010 CCC ++=
Binomial Distribution (Binomial Distribution (이항분포이항분포))
)9.0()1.0()9.0()1.0()9.0()1.0( 82210
91110
100010 CCC ++=
1937.03874.03487.0 ++=9298.0=
Binomial Distribution (Binomial Distribution (이항분포이항분포))n 이항분포의 모수
n 이항분포의 모양은 n과 p의 값에 따라 달라진다.n n과 p의 값이 주어지면 확률계산이 가능하기 때문에 이를 이항분포의
모수라고 한다.
n 이항분포의 성질n 이항분포의 성질
n
n 평균
n 분산, 표준편차
n f(x+1)과 f(x)의 관계
n X가 B(n,p)에 따르면,
( )pqpqppCxfxXP nxnxxn -==+=-×=== - 1 1)()1()()(
pnXE ×== )(m)1(2 ppn -××=s )1( ppn -××=s
( ) ( )xfqp
xxnxf ×
+-
=+1
1
{ } 1 ,12 >£³- k
knpqknpXP 단
Binomial Distribution (Binomial Distribution (이항분포이항분포))
( )( ) ( )
( )( ) ( )
( ) ( )
( ){ } 111
1!!
!
1
,...,2,1,0 ,1)1(
0
00
==-+=
--
=
-÷÷ø
öççè
æ=
=-÷÷ø
öççè
æ=-×=
å
åå
=
-
-
==
--
nn
n
x
xnx
xnxn
x
n
xnX
xnxxnxxnnX
pp
ppxxn
n
ppxn
xP
nxppxn
ppCxP ( )( ) ( )
( )( ) ( )
( ) ( )
( ){ } 111
1!!
!
1
,...,2,1,0 ,1)1(
0
00
==-+=
--
=
-÷÷ø
öççè
æ=
=-÷÷ø
öççè
æ=-×=
å
åå
=
-
-
==
--
nn
n
x
xnx
xnxn
x
n
xnX
xnxxnxxnnX
pp
ppxxn
n
ppxn
xP
nxppxn
ppCxP
Binomial Distribution: MeanBinomial Distribution: Mean
( )[ ] ( )( ) ( )
( ) ( )
( )( ) ( ) ( ) ( )
( ) ( ) ( )
( )( ) ( )
( ) ( ){ } ( ) npnpppnpppj
nnp
ppjjn
nnp
njnxjxxj
ppxxn
nnppppxxxn
nnx
ppxxn
nx
ppxn
xxxPnXE
nnjnjn
j
jnjn
j
xnxn
x
xnxn
x
xnxn
x
xnxn
x
n
xnX
==-+=-÷÷ø
öççè
æ -=
----
=
-=®==®=-=Ü
---
-=-
---×
=
--
=
-÷÷ø
öççè
æ==
-----
=
---
=
--
=
--
=
-
=
-
==
å
å
åå
å
åå
1111
0
11
0
1
1
1
1
0
00
1111
1!!1
!11 ,01 ,1
1!1!
!11!1!
!1
1!!
!
1( )[ ] ( )( ) ( )
( ) ( )
( )( ) ( ) ( ) ( )
( ) ( ) ( )
( )( ) ( )
( ) ( ){ } ( ) npnpppnpppj
nnp
ppjjn
nnp
njnxjxxj
ppxxn
nnppppxxxn
nnx
ppxxn
nx
ppxn
xxxPnXE
nnjnjn
j
jnjn
j
xnxn
x
xnxn
x
xnxn
x
xnxn
x
n
xnX
==-+=-÷÷ø
öççè
æ -=
----
=
-=®==®=-=Ü
---
-=-
---×
=
--
=
-÷÷ø
öççè
æ==
-----
=
---
=
--
=
--
=
-
=
-
==
å
å
åå
å
åå
1111
0
11
0
1
1
1
1
0
00
1111
1!!1
!11 ,01 ,1
1!1!
!11!1!
!1
1!!
!
1
Binomial Distribution: VarianceBinomial Distribution: Variance( ) ( )[ ] ( )[ ]{ }
( ) ( ){ }[ ] ( ) ( )( ) ( ) ( )
( ) ( ) ( )
( ) ( )( )( ) ( )( ) ( ) ( ) ( )
( ) ( ) ( )
( ) ( )( ) ( )
( ) ( ) ( ) ( ){ } ( ) ( )
( ) ( )[ ] ( )[ ]nXEnXEpnn
pnnpppnnppj
npnn
ppjjn
npnn
njnxjxxj
ppxxn
npnnpppxxxxnnnnxx
ppxxn
nxx
ppxn
xxxPxxnXnXE
nXEnXE
nnjnjn
j
jnjn
j
xnxn
x
xnxn
x
xnxn
x
xnxn
x
n
xnX
nX
-=-=
-=-+-=-÷÷ø
öççè
æ --=
----
-=
-=®==®=-=Ü
---
--=-
-----×-
=
--
-=
-÷÷ø
öççè
æ-=-=-
-=
-----
=
---
=
--
=
--
=
-
=
-
==
å
å
åå
å
åå
22
122222
0
2
22
0
2
2
2
222
2
0
00
222
1
111112
1
1!!2
!21
2 ,02 ,2
1!2!
!211!21!!211
1!!
!1
1111
s ( ) ( )[ ] ( )[ ]{ }
( ) ( ){ }[ ] ( ) ( )( ) ( ) ( )
( ) ( ) ( )
( ) ( )( )( ) ( )( ) ( ) ( ) ( )
( ) ( ) ( )
( ) ( )( ) ( )
( ) ( ) ( ) ( ){ } ( ) ( )
( ) ( )[ ] ( )[ ]nXEnXEpnn
pnnpppnnppj
npnn
ppjjn
npnn
njnxjxxj
ppxxn
npnnpppxxxxnnnnxx
ppxxn
nxx
ppxn
xxxPxxnXnXE
nXEnXE
nnjnjn
j
jnjn
j
xnxn
x
xnxn
x
xnxn
x
xnxn
x
n
xnX
nX
-=-=
-=-+-=-÷÷ø
öççè
æ --=
----
-=
-=®==®=-=Ü
---
--=-
-----×-
=
--
-=
-÷÷ø
öççè
æ-=-=-
-=
-----
=
---
=
--
=
--
=
-
=
-
==
å
å
åå
å
åå
22
122222
0
2
22
0
2
2
2
222
2
0
00
222
1
111112
1
1!!2
!21
2 ,02 ,2
1!2!
!211!21!!211
1!!
!1
1111
s
Binomial Distribution: VarianceBinomial Distribution: Variance
( ) ( )[ ] ( )[ ]{ }( )
( )( )[ ] ( ) ( ){ }[ ] ( )[ ]
( )
( )( ) ( )[ ] ( ) knkx
knX
nX
ppkn
xnXPxF
nppnnnXEnXnXEnXE
pnpnpnppnnppnn
nXEnXE
-
=
-÷÷ø
öççè
æ=£=
+-=
+-=Ü
-=-=
-+-=
-=
å 1
Binomial CDF
1 1
1 1
0
2
2
2
222
222s ( ) ( )[ ] ( )[ ]{ }( )
( )( )[ ] ( ) ( ){ }[ ] ( )[ ]
( )
( )( ) ( )[ ] ( ) knkx
knX
nX
ppkn
xnXPxF
nppnnnXEnXnXEnXE
pnpnpnppnnppnn
nXEnXE
-
=
-÷÷ø
öççè
æ=£=
+-=
+-=Ü
-=-=
-+-=
-=
å 1
Binomial CDF
1 1
1 1
0
2
2
2
222
222s
Binomial Distribution Binomial Distribution 예제예제
n 하나의 동전을 6번 던질 때 적어도 4번 표면이 나올 확률을 구하라.
n 동전을 100번 던질 때 표면이 나오는 횟수를 X라 할 때 다음을 구하라.3211
21
21
21
21
21 65
56
24
46 =÷øö
çèæ+÷
øö
çèæ
÷øö
çèæ+÷
øö
çèæ×÷
øö
çèæ CC
{ }
{ } 2
2
2
1505505
121
21100
21100
,1
kkXkP
kkXP
knpqknpXP
£+££+-
£þýü
îíì
´´´³´-
£³-
n 동전을 10번 던질 때 표면이 나오는 확률분포를 아래 공식을 이용하여구하라.(숙제)
( ) ( )xfqp
xxnxf ×
+-
=+1
1
{ }
{ } 2
2
2
1505505
121
21100
21100
,1
kkXkP
kkXP
knpqknpXP
£+££+-
£þýü
îíì
´´´³´-
£³-
Poisson (Poisson (포아송포아송 분포분포))n 포아송분포의 의의
n 포아송 분포(Poisson distribution)는 산업분야에서 널리 응용되는 확률분포이다
n 프랑스 수학자 포아송(1781~1840)으로부터 비롯된 이름
n 포아송 분포를 따르는 확률변수의 예(적용예)n 경부 고속도로상에서 하루 동안에 발생하는 교통사고에 의한 사망자수
n 어느 집에서 한 시간 동안에 걸려 오는 전화 통화 수
n 일주일 동안에 어느 보험회사에서 접수되는 사망 보험금 청구건수
n 하루 동안에 정전이 되는 횟수, 백과사전 한 페이지에 나타난 오자의 수등과같이 희귀한 사건의 수들
⇒ 포아송분포는 보험관계에 중요한 확률모형이 되며 실제로 많이 응용되는 이산형 확률분포이다.
n 포아송분포 적용의 필요조건n 한 단위 시간 내에서의 사건 발생 수는 다른 단위시간에서의 사건 발생 수와 서로 독립적
이다.→ 겹치지 않는 시간 내에서 발생하는 사건 수는 상호 독립적
n 극히 작은 단위시간에서 둘 또는 그 이상의 사건이 발생할 확률은 0으로 간주한다. → 짧은 시간 내에 두 개 이상의 사건이 발생할 확률은 무시할 수 있음.→ 전화교환대에 10분 동안 평균 열 통의 전화가 온다고 할 때 1초 동안 걸려오는 전화통화
수는 0으로 본다.
Poisson (Poisson (포아송포아송 분포분포))
수는 0으로 본다.n 관심의 대상이 되는 단위시간은 더 작은 단위시간으로 나눌 수 있으며 작은 단위시간에서
사건이 발생할 확률은 작다. 즉, 짧은 시간 내에 하나의 사건이 발생할 확률은 시간의 길이에 비례
n 포아송분포의 확률함수:이항분포 B(n,p)에서 평균 μ=np로 일정하게 하고 n을 충분히 크게 하는 경우(n→∞,즉 p→0)에 만들어지는 근사분포
K2,1,0 ,!
)(lim)( =====-
-
¥®x
xexfqpCxXP
xxnx
xnn
mm
) (71828.2 밑수자연로그의=e 평균발생횟수단위시간당일정 =m L3,2,1,0=x
n 포아송분포의 기대값과 분산
n
n
n 포아송분포와 이상분포의 비교
n n이 비교적 크고( ) 성공의 확률 p가 매우 작은 ( ) 경우, 100³n
m=)(XEm=)(XVar
05.0£p
Poisson (Poisson (포아송포아송 분포분포))
n n이 비교적 크고( ) 성공의 확률 p가 매우 작은 ( ) 경우, 이항분포의 확률값은 포아송 분포의 확률값에 접근
n 이항분포는 n번의 시행에서 발생할 사건의 수의 확률을 말하는 것이고, 포아송 분포는 시간(혹은 단위면적)당 발생하는 사건(혹은 성공)의 확률을말하는 것이다.
100³n
!)1(
xeppC
xxnx
xnmm-- @-× pm n=
05.0£p
Poisson (Poisson (포아송포아송 분포분포) ) 예제예제
n 왼손잡이는 100명에 1명꼴이라 한다. 어떤 모집단에서 150명을 추출했을 때, 왼손잡이가 2명 이하일 확률을 구하라.
80884.025102.033469.022313.0!2
5.1!1
5.1!0
5.15.115001.0 ,150 ,01.0
25.115.105.1
=++=´
+´
+´
=´====--- eee
npnp m
n 35세의 남자가 40세 이전에 사망할 확률은 0.081이다. 현재 35세가 되는남자 50명중, x명이 40세 이전에 사망할 확률을 구하라.
여기에 x=1,2,3,…50 을 대입하여 사망할 확률을 얻는다.
( )!
05.410742.1!
05.405.450081.0 ,50 ,081.0
205.4
xxexf
npnpxx ´´
=´
=
=´====--
m
Normal Distribution (Normal Distribution (내용내용 확인확인))n 정규분포는 종모양의 확률밀도 함수 그래프를 가진다.n 모든 연속확률분포와 마찬가지로 정규분포의 그래프 안의 전체면적은 1이다.n 정규분포는 평균과 분산에 따라 다양한 모양을 가질 수 있다. 그리고 평균이 μ이고 표준편
차가 σ인 정규 분포 확률 밀도 함수를 수학 공식으로 나타내면 다음과 같다.
( )22 /)(
21
21 sm
ps
--=
Xexf m=4
s=1.5 m=7s=2
m=10s=1.0
n 복잡한 식, 평균과 분산에 따라 모양과 위치가 달라진다.→정규분포를 한가지 표준의 형태로 표준화 (표준정규분포)
Z값은 확률변수 값이 평균치로부터 표준편차의 몇 배 만큼이나 아래쪽이나 위쪽으로 떨어져 있는가를 나타내는 값.
즉, 확률변수 값>평균 → Z가 양의 값
확률변수 값<평균 → Z가 음의 값
1 2 3 4 5 6 7 8 9 10 11 12
s=2
sm-
= iXZ ~ N(0,1)
Normal DistributionNormal Distribution( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
( ) ( )( ) 9973.033
,9545.022 ,6827.0112
1212zerf
score standard:21
21
21
21
1 ,0 , variablestandard
21 C.D.F
devisation standard: ,: , ,2
1
0
0
2/2/2/
2/
2/)(
2
222
22
22
=££-=££-=££-
úû
ùêë
é÷ø
öçè
æ+=Þ=
+==£=Þ=Þ
==-
=
=£=
¥<<¥-=
ò
òò
ò
-
-
¥-
--
¥-
--
--
ZPZPZP
zerfzFdue
z
dueduezZPZFezf
XZ
dvexXPxF
meanxexf
z u
x uz zz
x v
x
p
ppp
smsm
ps
smps
sm
sm
표준정규분포
( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( )
( ) ( )( ) 9973.033
,9545.022 ,6827.0112
1212zerf
score standard:21
21
21
21
1 ,0 , variablestandard
21 C.D.F
devisation standard: ,: , ,2
1
0
0
2/2/2/
2/
2/)(
2
222
22
22
=££-=££-=££-
úû
ùêë
é÷ø
öçè
æ+=Þ=
+==£=Þ=Þ
==-
=
=£=
¥<<¥-=
ò
òò
ò
-
-
¥-
--
¥-
--
--
ZPZPZP
zerfzFdue
z
dueduezZPZFezf
XZ
dvexXPxF
meanxexf
z u
x uz zz
x v
x
p
ppp
smsm
ps
smps
sm
sm
Normal Distribution Normal Distribution 예제예제
n Standard normal curve에서 z=-0.46과 z=2.21.사이의 area를 계산하라.
( )
6636.04864.01772.0
21
21
21
21.246.0
21.2
02/20
46.02/2
21.2
46.02/2
=+=
+=
=££-
òò
ò-
--
--
duedue
dueZP
uu
u
pp
p( )
6636.04864.01772.0
21
21
21
21.246.0
21.2
02/20
46.02/2
21.2
46.02/2
=+=
+=
=££-
òò
ò-
--
--
duedue
dueZP
uu
u
pp
p
BinomialBinomial과과 Normal DistributionNormal Distribution의의 관계관계
n 이항분포에서 시행 횟수 n 이 커지면 확률을 계산하는 과정이 매우 복잡하여평균과 분산을 구하기가 어렵다. →n 이 충분히 크고, p가 0에 가까우면 Poisson 분포를 이용하여 근사값 계산
n 그러나 p의 값에 관계없이 n이 충분히 커지면(n→large, p, q는 0에 가깝지 않다면), binomial 분포는 연속형 분포인 정규분포에 가까워진다.즉, 이항분포는 n 이 클 때 평균이 np , 분산이 np(1-p) 인 정규분포에 가까워진다.
npq
npXXZ ,-=
-=
sm
X: n Bernoulli trials에서 성공할 확률 p을 갖는 random variableZ 로 주어지는 standardized random variable을 가진 normal 분포에 의해 근사 되어 진다.
np>5, nq>5일 때 좋은 근사값을 갖는다.
Z를 asymptotically normal하다고 한다.
npq
npXXZ ,-=
-=
sm
duebnpq
npXaPb
a
u
n ò -
¥®=÷
÷ø
öççè
æ£
-£ 2/2
21limp
BinomialBinomial과과 Normal DistributionNormal Distribution의의 관계관계 예제예제
n 하나의 동전을 10번 던질 때, 앞면이 3~6번 나올 확률을 (가) 이항분포, (나) 이항분포와 관계된 정규분포를 이용하여 구하라
(가)( ) ( )
( ) ( )
( ) 7734.012899
512105
25663
512105
1281563
512105
21
216 ,
25663
21
215
512105
21
214 ,
12815
21
213
46
610
55
510
64
410
73
310
==+++=££
=÷øö
çèæ
÷øö
çèæ===÷
øö
çèæ
÷øö
çèæ==
=÷øö
çèæ
÷øö
çèæ===÷
øö
çèæ
÷øö
çèæ==
XP
CXPCXP
CXPCXP
(나)
( ) ( )
( ) ( )
( ) 7734.012899
512105
25663
512105
1281563
512105
21
216 ,
25663
21
215
512105
21
214 ,
12815
21
213
46
610
55
510
64
410
73
310
==+++=££
=÷øö
çèæ
÷øö
çèæ===÷
øö
çèæ
÷øö
çèæ==
=÷øö
çèæ
÷øö
çèæ===÷
øö
çèæ
÷øö
çèæ==
XP
CXPCXP
CXPCXP
0.77180.32890.4429) 95.0 0() 0 58.1(
) 95.0 58.1(
95.01.58
5-6.5 Z,58.158.1
55.2 6.5 2.5 6 3
58.121
2110 ,5
2110 ,
=+===+=-==
=-=
==-=-
=-
=
Þ
=´´===´==
표준정규분포확률영역사이의과표준정규분포확률영역사이의과
확률영역표준정규분포사이의과
구하면확률을이용하여표준정규분포확률을
표현로와확률분포연속과앞면이항분포의이산
표준편차평균이항분포의
zzzzzz
XZ
npqnp
sm
sm
BinomialBinomial과과 Normal Normal DistributionDistribution 예제예제
n 하나의 동전을 500번 던졌다. 앞면이 나오는 경우가 250번을 기준으로 (a), (b)의 확률을 구하라.(a) ±10번일 경우
(b) ± 30번일 경우
평균과 표준편차는 다음과 같이 구해진다.
(a) 앞면이 나오는 횟수가 240~260번 사이의 확률을 구하기 위해, 본 문제의 연속확률변수를 고려하여
BinomialBinomial과과 Normal Normal DistributionDistribution 예제예제
1 1 1(500)( ) 250 (500)( )( ) 11.182 2 2
np npqm s= = = = = =
219.5 250( ) 219.5( ) 2.73 280.5( ) 2.7311.18
)
b starndard units starndard units-= = - =
확률 = (z=0 and z=2.73 사이의면적의두배 = 2(0.4968) = 0.9936
(b) 앞면이 나오는 횟수가 220~280번 사이의 확률은 다음과 같다.
239.5 250( ) 239.5( ) 0.94 260.5( ) 0.9411.18
) )
a starndard units starndard units-= = =
확률 = (z=-0.94 and z=0.94 사이의정규곡선아래의면적
= (z=0 and z=0.94 사이의면적의두배 = 2(0.3264) = 0.6528
PoissionPoission과과 Normal DistributionNormal Distribution의의 관계관계
n X: Poission random variable
duebXaPb
a
uò -
¥®=÷
÷ø
öççè
æ£
-£ 2/2
21limpm
mm
K2,1,0 ,!
)( ==-
xx
exfxml
mm-
=XZ
로 주어지는 standardized random variable을 가진 normal 분포에의해 근사 되어 진다.
Z를 asymptotically normal하다고 한다.
mm-
=XZ
PoissionPoission과과 Normal DistributionNormal Distribution의의 예제예제
n 이항분포의 포아송 근사치가 타당함을 보여라.만약 X가 이항 분포 되어 있다고 가정한다면 이항분포는 다음과 같다.
( ) , ( ) . p= / .
( 1)( 2) ( 1)( ) 1 (1 )!
x n x
x n xx n x
x
np X x p q E x np np n
x
n n n n n xp X xx n n x n n
l l
l l ll
-
--
æ ö= = = =ç ÷
è ø
æ ö - - ××× - +æ ö æ ö= = = - -ç ÷ç ÷ ç ÷è ø è øè ø
이다 이라고 하면 이된다
=!
1 2 1(1 )(1 ) (1 ) (1 )
!
x
x n x
x n n x n nx
n n nx n
ll -
ç ÷ç ÷ ç ÷è ø è øè ø
-- - ××× -
= -
1 2 1, (1 )(1 ) (1 ) 1
(1 ) (1 ) (1 ) ( )(1) .
.
lim(1 )
, .
( )!
n x n x
n u
n
x
xnn n n
e en n n
u en
eP X xx
l l
l
l l l
l
- - - -
®¥
-
-®¥ - - ××× - ®
- = - - ® =
+ =
= ®
일때 으로 수렴하고
이된다
이는 다음의자연상수 수렴특성을 이용한다
위에서정리한 값을 정리하면 다음과 같다
PoissionPoission과과 Normal DistributionNormal Distribution의의 예제예제
n 특정 제품 생산 과정에서 10%의 결함품이 발생한다. 10개의 제품을Random하게 선택했을 경우, 정확히 2개의 결함품이 발생할 확률을 (a) 이항분포로 (b) 이항분포의 포아송 근사치로 구하라.
(a) 결함품 발생확률 p=0.1이고, x를 10개의 제품을 선택했을 때 결함품의 개수라고
하면, 이항분포에 따라 다음과 같이 표현된다.
0.1p =
(b)
2 8
2 1
0.110
( 2) (0.1) (0.9) 0.1937 0.192
(10)(0.1) 11( ) ( 2) 0.1839 0.18
! 2!, 5 .
x
p
p X or
npe ep X x or p X orx
np
l
l
l
l
- -
=
æ ö= = =ç ÷
è ø= = =
= = = = =
£ = £일반적으로 p 0.1 and 일 때근사치의값이좋다
Central Limit TheoremCentral Limit Theoremn 동전을 백 번 던지면...
n 경우의 수
n 앞면이 정확히 50번 나오는 경우의 수
30100 1027.12 ´»
291001.1149505199100
!50!50!100
´»´×××´´´×××´´
=´
n 정확히 앞면이 50번 나올 확률
앞면이 50회 나오는 경우의 수총 경우의 수
q 위와 같은 방식으로 동전을 100번 던졌을 때 앞면이 정확히 50번 나올 확률을 계산하기는
불편하다.
q 대안은? 동전을 많이 던지는 경우 전체 시행횟수 가운데 앞면이 나오는 횟수 또는 앞면이
나오는 비율은 그 분포가 정규분포에 의해서 잘 근사된다.
291001.1149505199100
!50!50!100
´»´×××´´´×××´´
=´
%808.01027.11001.1
30
29
=»´´
»
Central Limit TheoremCentral Limit Theorem
400회 던질 때100회 던질 때
ü앞면이 나올 횟수의 기대값 : 50
ü앞면의 나올 횟수의 표준오차 : 5
ü정규분포곡선과 매우 비슷하다.
확률히스토그램은 시행횟수가 증가함에 따라 그 모습이점점 더 정규분포곡선과 닮아간다.
관측치
수가
증가함에
따라
합이나
평균은
그
확률히스토그램이
정 규분포곡선으로
수렴해
간다.
이를
중심극한정리
라고
한다.
Central Limit TheoremCentral Limit Theoremn 중심극한정리는 동일한 확률분포를 가진 독립 확률 변수 n개의 평균값은 n이 충분히 크
다면 정규분포에 가까워진다는 정리이다. 확률과 통계학에서 큰 의미를 가지며 실용적인 면에서도 품질관리, Six 시그마에서 많이 이용된다.
n 평균 , 분산 인 무한집단에서 추출한 크기 n의 표본을 X1, X2, X3, ... Xn 이라 하자. n 을 충분히 크게 하면
- 표본합 의 분포는 평균 , 분산 인 정규분포 즉 에 수렴
2sm
å=
=n
iin xS
1
mn 2sn ( )2, sm nnN- 표본합 의 분포는 평균 , 분산 인 정규분포 즉 에 수렴
- 표본합 의 분포는 평균 , 분산 인 정규분포 즉 에 수렴한다. ( )nN /, 2sm
å=
=n
iin xS
1
mn 2sn ( )2, sm nnN
å=
n
i
i
nx
1
mn
2s
duebnnSaP
b
a
un
n ò -
¥®=÷
ø
öçè
æ £-
£ 2/2
21limps
m
n 이항 분포된 랜덤변수 X에 대한 Central limit이론을 증명하라, 그리고이항분포의 정규근사치의 타당성을 보여라.
Central Limit TheoremCentral Limit Theorem의 예제(1)
*
*
( )/
/ /
( ) / ( )
( ) ( )
( )
t X np npqtX
tnp npq tX npq
X X X np npq
E e E e
e E e
-
-
= -
=
=
의표준화된변수
/ /
0
/ /
0
/ /
/
( )
( )
( )
[ (
ntnp npq tX npq x n x
x
ntnp npq t npq x n x
x
tnp npq t npq n
tp npq
e E en
e e p qx
ne pe q
x
e q pe
e
- -
=
- -
=
-
-
=
æ ö= ç ÷
è øæ ö
= ç ÷è ø
= +
=
å
å
/
/ /
)]
( )
t npq n
tp npq tq npq n
q pe
qe pe-
+
= +
여기서 eu는 다음과 같이 전개되고, 이를 이용하여 우변의 밑을 정리할수 있다.
Central Limit TheoremCentral Limit Theorem의 예제(2)
2 3
2 2 2 2/ /
12! 3!
(1 ) (1 )2 2
u
tp npq tq npq
u ue u
tp t p tp t pqe pe q pnpq npqnpq npq
-
= + + + + ×××
+ = - + + ××× + + + + ×××
*
2
2
2
(1 ) (1 )2 2
( )2
12
( ) (1 )2
tX n
qe pe q pnpq npqnpq npq
pq p q tq pnpq
tn
tE en
+ = - + + ××× + + + + ×××
+= + + + ×××
= + + ×××
= + + ×××