Upload
sungmin-oh
View
522
Download
6
Embed Size (px)
DESCRIPTION
head first statistics summary chapter 03
Citation preview
Statistics
Head����������� ������������������ First
Summary����������� ������������������ ch03
차례
•chapter����������� ������������������ 3����������� ������������������ :����������� ������������������ 변이와����������� ������������������ 분포����������� ������������������ 측정하기����������� ������������������
1. 평균의����������� ������������������ 문제점����������� ������������������ 2. 범위����������� ������������������ (����������� ������������������ range����������� ������������������ )����������� ������������������ 3. 이상치(skewed)����������� ������������������ 의����������� ������������������ 문제점����������� ������������������ 4. 부분범위����������� ������������������ • 사분위수����������� ������������������ (����������� ������������������ quartile����������� ������������������ )����������� ������������������ • 사분범위����������� ������������������ (����������� ������������������ interquartile����������� ������������������ range,����������� ������������������ IQR����������� ������������������ )����������� ������������������ • 하한����������� ������������������ /����������� ������������������ 상한����������� ������������������ 사분위수����������� ������������������ (����������� ������������������ lower����������� ������������������ quartile,����������� ������������������ upper����������� ������������������ quartile)����������� ������������������ • 백분위수����������� ������������������ (����������� ������������������ percentiles����������� ������������������ )����������� ������������������ • 상자수염����������� ������������������ 다이어그램����������� ������������������ (����������� ������������������ box����������� ������������������ and����������� ������������������ whisker����������� ������������������ diagram����������� ������������������ )����������� ������������������ 5. 분산����������� ������������������ (����������� ������������������ variance����������� ������������������ )����������� ������������������ &����������� ������������������ 표준편차����������� ������������������ (����������� ������������������ standard����������� ������������������ deviation����������� ������������������ )����������� ������������������ 6. 표준점수����������� ������������������ (����������� ������������������ standard����������� ������������������ score����������� ������������������ )
평균의����������� ������������������ 문제점
•평균은����������� ������������������ 데이터����������� ������������������ 집합의����������� ������������������ 전형적인����������� ������������������ 값을����������� ������������������ 나타냄����������� ������������������
• 일반적으로����������� ������������������ 데이터����������� ������������������ 집합의����������� ������������������ 가운데����������� ������������������ 값����������� ������������������
• 데이터의����������� ������������������ 중심은����������� ������������������ 나타내지만,����������� ������������������ 변화는����������� ������������������ 표현����������� ������������������ 불가.
범위����������� ������������������ (����������� ������������������ range����������� ������������������ )
• 값들이����������� ������������������ 분포되어����������� ������������������ 있는����������� ������������������ 방식을����������� ������������������ 측정하는����������� ������������������ 방법����������� ������������������
• 상한����������� ������������������ -����������� ������������������ 하한����������� ������������������
• 상한����������� ������������������ (����������� ������������������ upper����������� ������������������ bound����������� ������������������ )����������� ������������������ :����������� ������������������ 가장����������� ������������������ 큰����������� ������������������ 값����������� ������������������
• 하한����������� ������������������ (����������� ������������������ lower����������� ������������������ bound����������� ������������������ )����������� ������������������ :����������� ������������������ 가장����������� ������������������ 작은����������� ������������������ 값
이상치����������� ������������������ (����������� ������������������ skewed����������� ������������������ )의����������� ������������������ 문제점
•값들이����������� ������������������ 분포되어����������� ������������������ 있는����������� ������������������ 방식을����������� ������������������ 측정하는����������� ������������������ 방법����������� ������������������
• 상한����������� ������������������ -����������� ������������������ 하한����������� ������������������
• 상한����������� ������������������ (����������� ������������������
• 하한����������� ������������������ (����������� ������������������ 데이터의����������� ������������������ 폭����������� ������������������ (넓이)����������� ������������������ 만����������� ������������������ 표현����������� ������������������ 할����������� ������������������ 뿐����������� ������������������ ����������� ������������������
실제����������� ������������������ 분포����������� ������������������ 방식은����������� ������������������ 설명����������� ������������������ 불가����������� ������������������ 이상치
����������� ������������������ 때문에����������� ������������������ !!
부분����������� ������������������ 범위
• 이상치를����������� ������������������ 무시하는����������� ������������������ 미니����������� ������������������ 범위����������� ������������������ (����������� ������������������ mini����������� ������������������ range����������� ������������������ )를����������� ������������������ 살펴보는����������� ������������������ 것����������� ������������������
• 데이터����������� ������������������ 전체의����������� ������������������ 부분적인����������� ������������������ 범위를����������� ������������������ 측정����������� ������������������
• 사분위수,����������� ������������������ 십분위수,����������� ������������������ 백분위수
사분위수����������� ������������������ (����������� ������������������ quartile����������� ������������������ )
• 데이터����������� ������������������ 중심����������� ������������������ 근처의����������� ������������������ 데이터를����������� ������������������ 이용하는����������� ������������������ 방법����������� ������������������
• 사분위수는����������� ������������������ 데이터를����������� ������������������ 네����������� ������������������ 조각으로����������� ������������������ 나누는����������� ������������������ 값����������� ������������������
• 하한����������� ������������������ 사분위수����������� ������������������ :����������� ������������������ 가장����������� ������������������ 작은����������� ������������������ 사분위수����������� ������������������
• 상한����������� ������������������ 사분위수����������� ������������������ :����������� ������������������ 가장����������� ������������������ 큰����������� ������������������ 사분위수����������� ������������������
• 중앙값����������� ������������������ :����������� ������������������ 가운데에����������� ������������������ 있는����������� ������������������ 사분위수
사분범위����������� ������������������ ����������� ������������������ (interquartile����������� ������������������ range,����������� ������������������ IQR)
1. 오름차순����������� ������������������ 정렬����������� ������������������
2. 데이터����������� ������������������ 셋을����������� ������������������ 같은����������� ������������������ 크기의����������� ������������������ 네����������� ������������������ 개의����������� ������������������ 조각으로����������� ������������������ 나눔����������� ������������������ (데이터의����������� ������������������ 1����������� ������������������ /����������� ������������������ 4)����������� ������������������
3. 바깥쪽����������� ������������������ 조각����������� ������������������ 사이에����������� ������������������ 존재����������� ������������������ 하는����������� ������������������ 값들을����������� ������������������ 이용해서����������� ������������������ 범위����������� ������������������ 생성����������� ������������������
4. 사분범위����������� ������������������ =����������� ������������������ 상한����������� ������������������ 사분위수����������� ������������������ -����������� ������������������ 하한����������� ������������������ 사분위수
하한����������� ������������������ /����������� ������������������ 상한����������� ������������������ 사분위수����������� ������������������ ����������� ������������������ (lower����������� ������������������ quartile,����������� ������������������ upper����������� ������������������ quartile)
백분위수����������� ������������������ (����������� ������������������ percentile����������� ������������������ )
• 사분위수가����������� ������������������ 데이터를����������� ������������������ 4개����������� ������������������ 조각으로����������� ������������������ 나누듯,����������� ������������������ 데이터를����������� ������������������ 퍼센트로����������� ������������������ 나누는����������� ������������������ 값����������� ������������������
• 벤치마킹을����������� ������������������ 할����������� ������������������ 때����������� ������������������ 유용,����������� ������������������ ����������� ������������������
• 어떤����������� ������������������ 값이����������� ������������������ 다른����������� ������������������ 값들에����������� ������������������ 비해����������� ������������������ 얼마나����������� ������������������ 높은지����������� ������������������ 결정할����������� ������������������ 때����������� ������������������ 사용
백분위수����������� ������������������ (����������� ������������������ percentile����������� ������������������ )
• K����������� ������������������ 번째����������� ������������������ 백분위수는����������� ������������������ 데이터를����������� ������������������ K%����������� ������������������ 위치에서����������� ������������������ 분할����������� ������������������ ->����������� ������������������ Pk����������� ������������������ 로����������� ������������������ 표기
상자수염����������� ������������������ 다이어그램����������� ������������������ (����������� ������������������ Box����������� ������������������ and����������� ������������������ Whisker����������� ������������������ diagram����������� ������������������ )
• 데이터����������� ������������������ 집합의����������� ������������������ 범위,����������� ������������������ 사분범위,����������� ������������������ 중앙값을����������� ������������������ 표현����������� ������������������
• 같은����������� ������������������ 차트위에����������� ������������������ 하나����������� ������������������ 이상의����������� ������������������ 데이터����������� ������������������ 집합을����������� ������������������ 표현����������� ������������������ 가능����������� ������������������
• 데이터를����������� ������������������ 비교하는����������� ������������������ 데����������� ������������������ 매우����������� ������������������ 뛰어난����������� ������������������ 방법
분산����������� ������������������ (����������� ������������������ variance����������� ������������������ )����������� ������������������ &����������� ������������������ 표준편차����������� ������������������ (����������� ������������������ Standard����������� ������������������ deviation)
• 범위와����������� ������������������ 사분범위����������� ������������������ :����������� ������������������ 높은����������� ������������������ 값,����������� ������������������ 낮은����������� ������������������ 값만����������� ������������������ 표현����������� ������������������
• 평균값으로����������� ������������������ 부터����������� ������������������ 떨어진����������� ������������������ 거리의����������� ������������������ 평균으로����������� ������������������ 변이를����������� ������������������ 판단하자
분산은����������� ������������������ ����������� ������������������ 거리를����������� ������������������ 제곱한����������� ������������������ 값����������� ������������������
머리속에����������� ������������������ 그리기����������� ������������������ 쉽지����������� ������������������ 않다.����������� ������������������ 분산에����������� ������������������ 제곱근을����������� ������������������ 씌우자!����������� ������������������
=>
표준점수����������� ������������������ (����������� ������������������ standard����������� ������������������ score����������� ������������������ )
• 표준편차와����������� ������������������ 평균을����������� ������������������ 이용하여����������� ������������������ 데이터����������� ������������������ 집합을����������� ������������������ 비교����������� ������������������ 하기����������� ������������������ 위함.