8
Lp Phương pháp NCKH – Chương trình CUD UPNT03 Baøi 2 (STATA) SDNG STATA 10.0 ĐỂ PHÂN TÍCH THNG KÊ TRONG NGHIÊN CU KHOA HC ĐẠI CƯƠNG VPHÂN TÍCH SLIU TS. BS Tăng Kim Hng Nhìn chung, tiến trình phân tích sliu bao gm 3 bước: qun lý sliu, phân tích sliu mang tính cht thăm dò, và phân tích thng kê 1. Qun lý sliu: bao gm tt ccác công đon tthu thp sliu, nhp sliu, kim tra và làm sch sliu 2. Phân tích sliu mang tính cht thăm dò (exploratory data analysis): là công đon xem xét sliu vi các phép thng kê mô tvà các kthut vđồ th(graphs) 2.1 Kim tra sliu Mt ssai sót ca sliu có thđược phát hin bng vic kim tra nhanh vi lnh tabulate (đối vi biến sphân loi) và summarize (đồi vi biến sliên tc) 2.2 Xlý “Các giá trnm ngoài” (Outliers) Các “outliers” có thlà do: - Sai strong đo lường - Sai strong mã hóa dliu - Sai strong quá trình nghiên cu (ví dlà phn thu thp thêm ngoài đề cương nghiên cu) - Giá trthc Khi xlý “outliers”, ta cn phi kim tra li sliu hết sc cn thn trước khi thay đổi và xlý “outliers” như mt giá tr“missing” 2.3 Xem xét phân phi ca các biến s- Đối vi biến sliên tc, mc đích là để xem biến scó phân phi bình thường hay không. Nếu biến sphân phi bình thường thì sliu sđược trình bày bng trung bình độ lch chun, nếu biến sphân phi không bình thường thì sliu sđược trình bày vi trung vvà [25%, 75%] (interquartile ranges). Mt sbiến scó phân phi không bình thường có thđược chuyn sang dng khác (transform) - Đối vi biến sphân loi, chúng ta có ththy được phân phi tn sut ca các biến s, da trên sphân phi này, có thchúng ta squyết định có gp/nhóm li 1 sphân loi vi nhau hay không. Biến sphân loi sđược trình bày dưới dng các tlphn trăm + Mfile “PULSE” để phân tích. 1

Su dung stata 2

Embed Size (px)

Citation preview

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

Baøi 2 (STATA)

SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ TRONG NGHIÊN CỨU KHOA HỌC

ĐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU

TS. BS Tăng Kim Hồng

Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu mang tính chất thăm dò, và phân tích thống kê 1. Quản lý số liệu: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm tra và làm sạch số liệu 2. Phân tích số liệu mang tính chất thăm dò (exploratory data analysis): là công đoạn xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị (graphs) 2.1 Kiểm tra số liệu Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh tabulate (đối với biến số phân loại) và summarize (đồi với biến số liên tục) 2.2 Xử lý “Các giá trị nằm ngoài” (Outliers) Các “outliers” có thể là do:

- Sai số trong đo lường - Sai số trong mã hóa dữ liệu - Sai số trong quá trình nghiên cứu (ví dụ là phần thu thập thêm ngoài đề cương

nghiên cứu) - Giá trị thực

Khi xử lý “outliers”, ta cần phải kiểm tra lại số liệu hết sức cẩn thận trước khi thay đổi và xử lý “outliers” như một giá trị “missing” 2.3 Xem xét phân phối của các biến số - Đối với biến số liên tục, mục đích là để xem biến số có phân phối bình thường hay không. Nếu biến số phân phối bình thường thì số liệu sẽ được trình bày bằng trung bình và độ lệch chuẩn, nếu biến số phân phối không bình thường thì số liệu sẽ được trình bày với trung vị và [25%, 75%] (interquartile ranges). Một số biến số có phân phối không bình thường có thể được chuyển sang dạng khác (transform) - Đối với biến số phân loại, chúng ta có thể thấy được phân phối tần suất của các biến số, dựa trên sự phân phối này, có thể chúng ta sẽ quyết định có gộp/nhóm lại 1 số phân loại với nhau hay không. Biến số phân loại sẽ được trình bày dưới dạng các tỉ lệ phần trăm + Mở file “PULSE” để phân tích.

1

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

Xem xét biến số liên tục có phân phối bình thường hay không? Có một số thủ thuật để kiểm tra xem biến số liên tục có phân phối bình thường hay không: 1) So sánh trung bình và trung vị Nếu trung bình và trung vị xấp xỉ bằng nhau thì có nghĩa là phân phối đó phân bố một cách đối xứng – hay nói cách khác phân phối bình thường. Để có được trung bình và trung vị, ta cần phải chạy lệnh như sau: + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Summary statistics -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1

Thông thường nếu chọn “standard display” thì kết quả chỉ có số trung bình, độ lệch chuẩn, min và max . summarize pulse1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- pulse1 | 92 72.86957 11.00871 48 100 Tuy nhiên nếu chọn “display additional statistics” thì kết quả thể hiện sẽ nhiều hơn, có cả trung bình, trung vị, độ lệch chuẩn, 25%, 75%.

2

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

. summarize pulse1, detail pulse1 ------------------------------------------------------------- Percentiles Smallest 1% 48 48 5% 58 54 10% 60 54 Obs 92 25% 64 58 Sum of Wgt. 92 50% 71 Mean 72.86957 Largest Std. Dev. 11.00871 75% 80 94 90% 90 96 Variance 121.1916 95% 92 96 Skewness .3908803 99% 100 100 Kurtosis 2.516723 Lưu ý: Nếu chọn lệnh “means” ta cũng có thể có được trung bình và độ lệch chuẩn kèm theo KTC 95% + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Means -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 . mean pulse1 Mean estimation Number of obs = 92 -------------------------------------------------------------- | Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------ pulse1 | 72.86957 1.147737 70.58973 75.1494 --------------------------------------------------------------

3

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

2) Vẽ histogram với đường cong thể hiện phân phối bình thường + Graphics -> Histogram -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn số cột (bin)ta muốn có trong đồ thị (ví dụ chọn bin = 10) -> Nếu muốn có đường cong thể hiện phân phối bình thường thì phảichọn “Desity plots) và đánh dấu vào ô “Add normal density plot”

4

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

3) Vẽ đường phân phối bình thường (Normal probability plot) + Graphics -> Distributional graphs -> Normal probability plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1)

5

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

Tập hợp các điểm tạo thành 1 đường. Đường biểu diễn càng nằm thẳng càng chứng tỏ biến số này phân phối bình thường 4) Vẽ đồ thị box plot + Graphics -> Box plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn đồ thị theo dạng đứng hay nằm ngang (ví dụ chọn Orientation là “Horizontal”)

6

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

25% 50% 75% Nhận xét: Kết quả cho thấy giá trị trung vị (71) hơi thấp hơn trung bình (72,9) chứng tỏ số liệu hơi lệch về bên phải. Đồ thị histogram, normal probability plot và box plot cũng

7

Lớp Phương pháp NCKH – Chương trình CUD UPNT03

8

cho thấy số liệu hơi lệch về bên phải. Tuy nhiên, phân phối có dạng hình chuông úp ngược, tương đối đối xứng và không quá cao hay quá dẹt, chứng tỏ số liệu phân phối gần như bình thường. Lưu ý: Tính phân phối bình thường của số liệu có thể được kiểm định bằng phép kiểm Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Nếu giá trị p của test > 0,05 => không loại bỏ giả thiết H0 (Số liệu phân phối bình thường). Tuy nhiên, không nên dựa hoàn toàn vào phép kiểm này để kết luận về tính phân phối bình thường của số liệu mà nên dựa vào nhiều cách khác, nhất là các đồ thị để kết luận về tính phân phối bình thường của số liệu 2.4 Xử lý số liệu phân phối không bình thường Trong hấu hết các phép kiểm thống kê mà chúng ta sử dụng, giả định (assumption) của các phép kiểm luôn là “số liệu phân phối bình thường”. Vậy nếu số liệu phân phối không bình thường thì sao? Cách đầu tiên là chúng ta sẽ sử dụng những phép kiểm phi tham số (non-parametric tests). Và cách thứ hai là chúng ta “chuyển dạng” (transform) số liệu để biến từ phân phối không bình thường thành phân phối gần như bình thường. + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Ladder of powers -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Từ kết quả của bảng này, chúng ta có thể chọn ra 1 dạng để chuyển đổi số liệu. Đặc điểm của các dạng chuyển đổi số liệu được trình bày ở bảng dưới đây:

2.5 Khảo sát mối liên quan giữa các biến số (sẽ được trình bày ở những bài sau) 3. Phân tích thống kê (sẽ được trình bày ở những bài sau)