THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH · PDF file1 thỐng kÊ trong kinh tẾ vÀ kinh doanh chƯƠng 3: thỐng kÊ mÔ tẢ - cÁc ĐẠi lƯỢng ĐẠi sỐ m&b – 19/5/2017

1

THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH

CHƯƠNG 3: THỐNG KÊ MÔ TẢ - CÁC ĐẠI LƯỢNG ĐẠI SỐ

M&B – 19/5/2017

1. CÁC ĐẠI LƯỢNG ĐO LƯỜNG VỊ TRÍ

Các công thức về trung bình (mẫu, tổng thể), trung vị, vị

yếu, … sẽ không được trình bày ở đây vì đã có trong giáo

trình và phần ôn tập xác suất thống kê ở chuyên mục kinh

tế lượng cơ bản (đỡ mất công gỏ). Phần này chỉ tập trung

hướng dẫn em thực hành Stata với các ví dụ kèm theo cuốn

giáo trình.

Sử dụng tập tin StartSalary.xls (Bảng 3.1, trang 102),

chuyển sang tập tin Stata, và đặt lại tên biến cho ngắn gọn

(nhớ lưu lại nhé).

Trung bình

Trung vị

2

Vị yếu

Thường thì lệnh modes không phổ biến nên không có sẵn, em

phải gỏ vào màn hình lệnh findit modes, chọn đường link,

rồi install vào.

Phân vị

Xem các bước tính phân vị thứ p (chữ đầu của Percetile)trong

sách, trang 105 – 106.

Giải thích tí: Có 5% lương khởi điểm thấp hơn hoặc bằng

3310, có 50% thấp hơn hoặc bằng 3505, và có 95% thấp hơn

hoặc bằng 3925.

Giải thích tương tự …

3

Tứ phân vị

Xem HÌNH 3.1 ở trang 106 nhé.

Ngủ phân vị

Khái niệm này hay dùng trong kinh tế phát triển đối với

biến thu nhập, hoặc chi tiêu … để xem 20% nhóm nghèo nhất

và 20% nhóm giàu nhất chiếm bao nhiêu của cải quốc gia

(maybe 78/22 rule).

4

Lưu ý: Việc sử dụng trung vị như là đại lượng đo lường vị

trí trung bình tốt hơn trung bình khi một tập dữ liệu chứa

các giá trị đột biến (outliers). Khi dữ liệu có giá trị đột

biến, ta cũng có thể dùng một đại lượng khác là trung bình

lọc (trimmed mean), tức là cắt tỉa vài % giá trị nhỏ nhất

và lớn nhất. Trong Stata, em dùng lệnh trimmean, nhưng

thường không có sẵn đâu, nên em phải findit trimmean trước,

rồi install vào.

2. CÁC ĐẠI LƯỢNG ĐO LƯỜNG ĐỘ PHÂN TÁN

Các khái niệm về khoảng biến thiên (giá trị lớn nhất – giá

trị nhỏ nhất) và độ trải giữa (IQR = Q3 – Q1) thì dễ rồi.

Để tính IQR, em cũng dùng lệnh centile + tên biến, centile

(25 50 75), giá trị ở 25% là Q1 và giá trị ở 75% là Q3.

Okie fine?

Các công thức về phương sai (mẫu, tổng thể), độ lệch chuẩn

(mẫu, tổng thể), hệ số biến thiên,… em xem trong sách (trang

113-116) hoặc ôn tập xác suất thống kê ở chuyên mục kinh

tế lượng căn bản nhé.

5

Ở đây, em cần hiểu tại sao bậc tự do (df) của mẫu là n-1

chứ không phải n (em xem phần chứng minh ở chuyên mục Kinh

tế lượng căn bản để biết cách giải thích).

Phương sai hay độ lệch chuẩn cung cấp thông tin về sự phân

tán của đối tượng quan tâm: giá trị càng cao thì sự phân

tán càng nhiều. Từ đó cung cấp rất nhiều thông tin rất hay

về các hiện tượng kinh tế - xã hội.

Ví dụ, điểm kết thúc học phần Kinh tế vi mô 1 của hai lớp

AE và AG như sau (giả sử điểm có phân phối chuẩn):

AG AE

Trung bình 7 7

Độ lệch chuẩn 1 0.5

Nếu giáo viên nhận giảng Kinh tế vi mô 2, và có quyền lựa

chọn giữa một trong hai lớp thì họ thích chọn AE hơn, vì

học lực chung của AE đồng đều hơn, còn AG thì có một số bạn

rất giỏi, nhưng cũng có vài đứa xếp vào nhóm ‘giặc‘, tức

sinh viên cá biệt á. Nhận lớp AG rất rủi ro: giảng cao thì

nhóm dưới ngủ, giảng thấp thì nhóm giỏi liên quân hoặc phây

mỗi mắt.

Sau này, các đại lượng phương sai (var) và độ lệch chuẩn

(sd) dùng nhiều trong phân tích rủi ro ở các học phần như

quản trị rủi ro, thẩm định dự án, đầu tư tài chính, quản

lý danh mục, …

Để hiểu rõ hơn về công thức, em chịu khó tính lại bằng tay

các Bảng 3.3 (trang 114), và Bảng 3.4 (trang 115).

6

Lệnh trên Stata

Phương sai

Ở đây df (degree of freedom, bậc tự do) chính là n-1 = 12

– 1 = 11, SS là sum of squares, MS là Mean of Squares, và

F là thống kê F (em sẽ học ở các phần sau).

Độ lệch chuẩn

Lệnh phổ biến nhất là sum, vừa cho giá trị trung bình, vừa

cho giá trị độ lệch chuẩn, tức căn bậc hai của phương sai.

Như vậy, em cũng có thể dễ dàng tính được khoảng biến thiên

từ lệnh sum.

Hệ số biến thiên (cv = coefficient of variation)

cv = (độ lệch chuẩn/trung bình)*100*

CV dùng chủ yếu để so sánh độ phân tán của các biến có độ

lệch chuẩn khác nhau và trung bình khác nhau. Trong ví dụ

về điểm kết thúc học phần Kinh tế vi mô 1, mình giả định

trung bình bằng nhau, nên chỉ so sánh phương sai và ra

7

quyết định. Nếu điểm trung bình của AE là 6.5 thì phải nhờ

đến CV.

Lệnh hay dùng nhất trên Stata để có tất cả các đại lượng

vừa nói trên là tabstat:

tabstat salary, stat(mean med variance sd cv)

Chú thích: p50 (phân vị thứ 50 tức là giá trị trung vị).

sd là độ lệch chuẩn.

med là trung vị đó.

Ta có thể thêm các đại lượng khác vào ngoặc đơn như: count

n range … (lưu ý: count và n là như nhau, tức đếm có bao

nhiêu quan sát trong mẫu).

tabstat salary, stat(mean count n sum max min range sd

variance cv sk k p5 p10 p25 med p50 p75 p90 p95 iqr q)

8

Các đại lượng em sẽ gặp ở phần tiếp sau:

• sk = skewness, độ nghiêng của phân phối (hay hệ số bất

đối xứng).

• k = kurtosis, độ nhọn của phân phối.

• pi = phân vị thứ i đó em.

• iqr = độ trải giữa.

• q = quartile, tức là tứ phân vị (25 50 75)

3. HÌNH DÁNG PHÂN PHỐI ….

Hình dáng phân phối

Phụ thuộc vào giá trị sk (skewness) – Em xem Hình 3.3,

trang 121 nhé:

• sk = 0: đối xứng (như phân phối chuẩn).

• sk < 0: lệch (nghiêng) trái (nghĩa là đuôi trái dài

hơn).

• sk > 0: lệch (nghiêng) phải (nghĩa là đuôi phải dài

hơn).

• Giá trị âm hoặc dương càng lớn thì độ lệch càng nhiều.

Em xem công thức trang 121 nhé, nhớ là có LŨY THỪA 3 CỦA

ĐỘ LỆCH nha, các thành phần còn lại trong công thức này đều

là số dương: n, n-1, n-2, và độ lệch chuẩn.

Ý nghĩa gì trên thực tế vậy em?

• Ví dụ: Điểm trung bình Kinh tế vi mô 1 của AE42 là 7,

nếu có một bạn điểm 7.1 thì đối lại có một đứa 6.9;

một bạn 7.2 thì một đứa 6.8; … như vậy khi tổng lại

các lũy thừa 3 của các độ lệch thì chắc chắn bằng 0.

Đối xứng. Nhưng, đa số gần điểm 7 (học lực xấp xỉ

nhau), chỉ có một vài bạn có điểm 0 (giả sử thôi), thì

(0-7)3 của nhóm này làm có tổng các lập phương sẽ có

giá trị âm, nên phân phối bị kéo qua phía trái. Vậy em

rút ra được điều gì? (1) Nhìn phân phối có thể suy ra

9

được tình hình của lớp; (2) Có thể nhận ra lớp mình có

giặc (tức là các outliers) hay không.

• Ví dụ khác: Thường thì biến chi tiêu của sinh viên UEH

có xu hướng lệch phải (nghĩa là sk > 0). Vì sao? Vì

trong mẫu khảo sát có một vài sinh viên nhà quá giàu,

xài nhiều.

• Các biến giá trị dương (như chi tiêu), khi phân tích

hồi quy người ta thường chuyển sang dạng logarithm (tức

lấy log) để làm mượt/trơn dữ liệu, nhằm giảm bớt tính

đột biến. Sau này em sẽ thấy trong phân tích hồi quy.

Để nhận diện hình dáng phân phối, người ta hay dùng lệnh

histogram hay hist, và có khi đưa thêm đường phân phối

normal (chuẩn) hay kdensity vào lệnh Stata.

Hist salary, normal

0

5.0

e-0

4

.001

.001

5.0

02

.002

5

De

nsity

3200 3400 3600 3800 4000Starting Salary

10

hist salary, kdensity

Giá trị z

zi = (xi – mean(xi)]/s(xi)

(trang 122)

Biến z này thường gọi là biến chuẩn hóa (standardized

variable). Sau này em sẽ biết, nó quan trọng đấy. Giả sử,

xi có phân phối chuẩn, với trung bình là mean(x) và độ lệch

chuẩn s(x), thì z sẽ có trung bình = 0 và s = 1. Em xem

thêm Bảng 3.5, trang 123 để hình dung cách tính zi.

0

.001

.002

.003

.004

De

nsity

3200 3400 3600 3800 4000Starting Salary

11

Quy tắc Chebyshev và quy tắc thực nghiệm

Quy tắc

Chebyshev

Quy tắc thực

nghiệm

Phạm vi áp dụng Bất kỳ dữ liệu

nào, bất kể hình

dáng phân phối.

Dữ liệu có phân

phối chuẩn

1.

Ít nhất 75% các

giá trị nằm

trong khoảng z =

2 độ lệch chuẩn

so với trung

bình (+/-2)

Khoảng 68% các

giá trị nằm

trong khoảng +/-

một độ lệch so

với trung bình

2.

Ít nhất 89% các

giá trị nằm

trong khoảng z =


so với trung

bình (+/-3)

Khoảng 95% các

giá trị nằm

trong khoảng +/-

hai độ lệch so

với trung bình

3.

Ít nhất 94% các

giá trị nằm

trong khoảng z =


so với trung

bình (+/-4)

Hầu như tất cả

các giá trị nằm

trong khoảng +/-

ba độ lệch so

với trung bình

Phát hiện giá trị bất thường

Khi nào là một giá trị bất thường?

• Giá trị quá nhỏ hoặc quá lớn nhưng do lỗi ghi chép hoặc

nhập liệu không chính xác => chỉnh lai5i cho đúng.

• Có thể quan sát đó không nằm trong tập dữ liệu => loại

bỏ ra.

• Giá trị quá nhỏ hoặc quá lớn, được ghi chép chính xác

và thuộc trong tập dữ liệu. Đây được xem là quan sát

outlier.

12

Cách nhận biết ra sao?

• Sử dụng giá trị z: Bỏ các quan sát có z nhỏ hơn -3 và

z > 3.

• Vẻ đồ thị và quan sát: Đồ thị histogram (1 biến), đồ

thị scatter (hai biến), …

4. PHÂN TÍCH DỮ LIỆU THĂM DÒ

Bộ tóm tắt năm số

(1) Giá trị nhỏ nhất (min)

(2) Tứ phân vị thứ nhất (Q1)

(3) Trung vị (Q2)

(4) Tứ phân vị thứ 3 (Q3)

(5) Giá trị lớn nhất (max)

Như vậy, dùng lệnh tabstat là nhanh nhất, em còn nhớ hay

em đã quên?

Biểu đồ hộp

Em xem Hình 3.5, trang 131.

Lệnh trên Stata là graph box

13

Graph box salary

Biểu đồ hộp thường dùng để so sánh giữa các nhóm của cùng

một biến. Ví dụ, so sánh khác biệt chi tiêu giữa nam và nữ

theo nhóm tuổi (với y là chi tiêu, x là giới tính (biến giả

1 là nam, 0 là nữ), và z là nhóm tuổi (giả sử có 3 nhóm

tuôi):

graph box y, over(x) over(z)

3,2

00

3,4

00

3,6

00

3,8

00

4,0

00

Sta

rtin

g S

ala

ry

14

5. CÁC ĐẠI LƯỢNG ĐO LƯỜNG MỐI LIÊN HỆ GIỮA

HAI BIẾN

Hai đại lượng hay dùng (ở rất nhiều môn học khác) là hiệp

phương sai (covariance) và hệ số tương quan (correlation).

[trong chuỗi thời gian thì có thêm đại lượng hệ số tự tương

quan, autocorrelation]. Em xem các công thức (3.10) –

(3.13), trang 135 đến 142 hoặc phần ôn tập xác suất thống

kê, nhé.

Em tính lại Bảng 3.8 trang 137, xem Hình 3.8 trang 138 để

hiểu cov.

• Ví dụ 1: Giả sử lấy mẫu 31 sinh viên AE với điểm 2 môn

Vi mô và Vĩ mô. Trung bình vi mô của mẫu là 7, độ lệch

chuẩn là 1, và trung bình vĩ mô của mẫu là 8, độ lệch

chuẩn là 0.5. Dĩ nhiên, điểm của 31 sinh viên này khác

nhau. Lấy tích độ lệch điểm vi mô và độ lệch điểm vĩ

mô của từng bạn, rồi cộng tất cả lại, nếu tổng này âm,

hoặc = 0, thì chương trình đào tạo thất bại; nếu dương

(giả sử là 12), có nghĩa việc học vi mô có ảnh hưởng

tích cực đến việc học vĩ mô.

• Ví dụ 2: Giả sử lấy mẫu 31 sinh viên AE với điểm 2 môn

Vi mô và NLKT. Trung bình vi mô của mẫu là 7, độ lệch

chuẩn là 1, và trung bình NLKT của mẫu là 6, độ lệch

chuẩn là 1.2. Dĩ nhiên, điểm của 31 sinh viên này khác

nhau. Lấy tích độ lệch điểm vi mô và độ lệch điểm NLKT

của từng bạn, rồi cộng tất cả lại, và tổng này là 18,

có nghĩa việc học vi mô cũng có ảnh hưởng tích cực đến

việc học NLKT.

• Vậy có phải Vi mô có ảnh hưởng đến kết quả NLKT nhiều

hơn so với Vĩ mô? Không chắc đâu. Vậy làm sao?

• Phải dùng hệ số tương quan để so sánh. Và kết quả là

hệ số tương quan giữa Vi mô và Vĩ mô là 0.8 (=0.4/0.5)

và hệ số tương quan giữa Vi mô và NLKT là 0.5

(=0.6/1.2).

Ngoài ra, lập luận ở cuối trang 138 cho rằng cùng một vấn

đề (ví dụ mối quan hệ giữa chiều cao và cân nặng), thì cov

15

bị ảnh hưởng bởi đơn vị đo lường (chiều cao là m hay cm),

còn corr thì không bị ảnh hưởng bởi đơn vị đo lường.

Lệnh trên Stata:

Ví dụ, sử dụng tập tin PCs.xls (Bảng 3.10, trang 144),

chuyển sang Stata, và đặt lại tên biến PC và rating (nhắc

lại, Stata phân biệt chữ HOA và chữ thường, PC khác với pc

nhé). Tính ma trận hệ số tương quan (trường hợp nhiều biến,

và hay dùng trong chương về Đa cộng tuyến ở kinh tế lượng

căn bản) bằng lệnh corr:

6. TRUNG BÌNH CÓ TRỌNG SỐ VÀ DỮ LIỆU ĐÃ ĐƯỢC PHÂN NHÓM

Công thức thì em xem ở các trang 146, 148, và 149.

Lưu ý: Công thức (3.15, trang 146) có gì đó sai!

Ở đây, em đặc biệt quan tâm đến cách tính trung bình và

phương sai của dữ liệu đã được phân nhóm, thực hành bài tập

nhiều vào, vì liên quan đến các chương sau. Cách tạo nhóm

với Stata cho trường hợp dữ liệu liên tục đã được trình bày

ở chương 2, em xem lại để nhớ.

Documents

THỐNG KÊ TRONG KINH TẾ VÀ KINH DOANH · PDF file1 thỐng kÊ trong kinh tẾ vÀ kinh doanh chƯƠng 3: thỐng kÊ mÔ tẢ - cÁc ĐẠi lƯỢng ĐẠi sỐ m&b – 19/5/2017