Upload
khanh-hau-ta
View
54
Download
7
Embed Size (px)
Citation preview
0
TRƯỜNG ðẠI HỌC NHA TRANG KHOA CHẾ BIẾN
Bài giảng
THI ẾT KẾ VÀ PHÂN TÍCH THÍ NGHI ỆM (Lưu hành nội bộ)
Người biên soạn: ðặng Thị Thu Hương
Nha Trang, tháng 4 năm 2010
1
Tài li ệu học
1. Bài giảng Thiết kế và phân tích thí nghiệm – ðặng Thị Thu Hương
2. ðặng Văn Giáp. Phân tích dữ liệu khoa học bằng chương trình MS- Excel. NXB giáo dục-
1997.
5. Tài liệu tham khảo:
I. TI ẾNG VIỆT
1. Nguyễn Cảnh. Quy hoạch thực nghiệm.Trường ñại học bách khoa Tp HCM 2004.
2. Nguyễn Cảnh- Nguyễn ðình Soa. Tối ưu hoá thực nghiệm trong hoá học và kỹ
thuật hoá học.Tài liệu dịch- Trường ñại học kỹ thuật Tp Hồ Chí minh 1994.
3. Phạm Hiếu Hiền. Phương pháp bố trí thí nghiệm và xử lý số liệu. NXB nông
nghiệp - Tp Hồ Chí Minh 2001.
4. Phạm Văn Lang- Bạch Quốc Khang. Cơ sở lý thuyết quy hoạch thực nghiệm và
ứng dụng trong kỹ thuật nông nghiệp .NXB nông nghiệp Hà Nội- 1998.
5. Chu Văn Mẫn – ðào Hữu Hồ. Thống kê sinh học. NXB khoa học và kỹ thuật – 2001.
II. TI ẾNG ANH
1. W. Michael Kelly and Robert A. Donnelly Jr.2009. The humongous book of statistic problems 2. D. Brynn Hibbert and J. Justin Gooding 2006. Data Analysis for Chemistry 3. John A. Bower 2009. Statistical Methods for Food Science
2
CHƯƠNG 1. THU THẬP VÀ TRÌNH BÀY SỐ LIỆU
1.1.Tổng thể và mẫu
1.1.1.Tổng thể (population, ñám ñông )
Là toàn bộ tập hợp các phần tử ñồng nhất theo một dấu hiệu nghiên cứu ñịnh tính
hoặc ñịnh lượng nào ñó (là tập hợp các ñối tượng có chung một tính chất nào ñó mà
chúng ta ñang quan tâm). Số lượng các phần tử của tổng thể ñược gọi là kích thước của
tổng thể, ký hiệu N.
Dấu hiệu ñịnh lượng: là những dấu hiệu quan sát cho những giá trị bằng số.
Dấu hiệu ñịnh tính: là những dấu hiệu quan sát cho những tính chất.
1.1.2 Mẫu (sample)
Từ tổng thể N phần tử chọn ra một tập hợp con n phần tử và chỉ tập trung nghiên
cứu n phần tử ñó ñể rút ra những kết luận về tổng thể thì tập hợp con ñó ñược gọi là
mẫu. Số phần tử của mẫu ñược gọi là kích thước mẫu, ký hiệu n. Các thí nghiệm ñược
tiến hành trên mẫu, kết quả thu ñược qua xử lý thống kê ñể suy rộng ra cho cả tổng thể.
Lý do ñể chúng ta tiến hành nghiên cứu trên mẫu chứ không phải trên tổng thể là do:
- Quy mô của tập hợp quá lớn, việc nghiên cứu toàn bộ sẽ ñòi hỏi nhiều chi phí vật chất và
thời gian.
- Quy mô của tập hợp quá lớn vì vậy có thể xảy ra trường hợp tính trùng hoặc bỏ sót
các phần tử của nó.
- Quy mô nghiên cứu lớn nhưng trình ñộ tổ chức nghiên cứu lại hạn chế dẫn ñến sai
sót trong quá trình thu thập thông tin ban ñầu, do ñó hạn chế ñộ chính xác của kết quả
phân tích.
- Nếu các phần tử của tập hợp bị phá huỷ trong quá trình nghiên cứu thì phương pháp
nghiên cứu toàn bộ trở thành vô nghĩa.
Do ñó phương pháp nghiên cứu toàn bộ thường chỉ áp dụng ñối với tập hợp các
phần tử có quy mô nhỏ, còn chủ yếu là áp dụng phương pháp nghiên cứu không toàn
bộ ñặc biệt là phương pháp chọn mẫu.
Phương pháp nghiên cứu chọn mẫu: Là phương pháp chọn ra một tập hợp các phần
tử từ tổng thể nghiên cứu, phân tích các tổng thể này và dựa vào ñó mà mà suy ra các
kết luận về tập hợp cần nghiên cứu. Nếu mẫu ñược chọn ra một cách ngẫu nhiên và xử
3
lý bằng phương pháp xác suất thì các kết luận sẽ thu ñược một cách nhanh chóng, ñỡ
tốn kém mà vẫn bảo ñảm ñộ chính xác cần thiết.
Do ñặc ñiểm là mẫu có kích thước hữu hạn n<<N nên những kết luận ñược suy
ra từ mẫu cho tổng thể sẽ có một sai số (gọi là sai số do chọn mẫu). Thường có hai
nguyên nhân dẫn ñến sai số do chọn mẫu:
- Kích thước mẫu quá nhỏ so với tổng thể.
- Phương pháp chọn mẫu không khách quan
⇒ Do vậy chúng ta phải có phương pháp chọn mẫu phù hợp và kích thước mẫu phải
ñủ lớn ñể ñạt ñược ñộ tin cậy.
Các phương pháp chọn mẫu:
- Chọn mẫu ngẫu nhiên ñơn giản
- Chọn mẫu ngẫu nhiên phân tầng
- Chọn mẫu ngẫu nhiên hệ thống
- Chọn mẫu cụm
Thông tin ñầu tiên và nhiều khi cũng là thông tin duy nhất mà chúng ta dựa vào
ñể nghiên cứu, phân tích chính là các kết quả quan sát có ñược vì vậy các kết quả này
phải ñảm bảo tính chính xác, tính ngẫu nhiên của nó, phải là các ñại diện một cách
trung thực cho hiện tượng hoặc cho ñại lượng mà chúng ta ñang nghiên cứu.
Xuất phát từ thông tin sai lệch thì các kết luận nhận ñược sẽ phản ánh không
ñúng hiện tượng nghiên cứu thậm trí còn làm cho ta nghi ngờ ngay cả tính hiệu quả của
phương pháp chúng ta sử dụng. Do vậy trước tiên ta quan tâm ñến việc thu thập thông
tin ban ñầu.
Việc thu thập thông tin phải ñảm bảo các yêu cầu sau
- Các quan sát ñộc lập hay phép thử ñộc lập: các quan sát (phép thử) ñược tiến hành
một cách ñộc lập với nhau, kết quả của phép thử (quan sát) này không phụ thuộc vào
kết quả của phép thử (quan sát) khác và cũng không ảnh hưởng ñến khả năng xảy ra
kết quả của phép thử (quan sát) khác.
- Các phép thử lặp: các phép thử ñược tiến hành trong các ñiều kiện hoàn toàn như nhau.
4
1.2. Thu thập số liệu
Là quá trình cân, ñong, ño, ñếm trên các mẫu ñược chọn. Trong quá trình thu thập
số liệu thường gặp các loại sai số sau:
* Sai số thô: Là sai số phát sinh khi phạm các ñiều kiện cơ bản của việc thu thập số
liệu do sự bất cẩn của người làm công tác thu thập số liệu hoặc sử dụng sai phương
pháp lấy số liệu do chọn mẫu không ñúng phương pháp. Loại sai số này không ñược
chấp nhận trong thống kê, vì vậy phải ñựơc loại bỏ.
* Sai số hệ thống: Loại sai số này không ñổi trong một loạt ño và thay ñổi theo một quy luật
nhất ñịnh. Sai số này phát sinh là do phương pháp hoặc do dụng cụ thu thập số liệu. Trong
thống kê có thể chấp nhận loại sai số này nhưng phải ñược hiệu chỉnh trước khi tính toán
thống kê
* Sai số ngẫu nhiên: Là những sai số của phép ño còn lại sau khi ñã loại bỏ sai số hệ
thống và sai số thô. ðây là những sai số bắt buộc có trong quá trình thu thập số liệu mà
con người không hạn chế ñược nó, chính vì vậy mà nó ñược chấp nhận trong thống kê.
1.3.Trình bày số liệu
Sau khi ñiều tra thống kê chúng ta thu thập ñược hàng loạt thông tin (gọi là dữ
liệu ban ñầu hay dữ liệu thô, gốc). Tuỳ theo mục ñích nghiên cứu mà có cách xử lý số
liệu gốc khác nhau.
ðể những thông tin này có tác dụng cần sắp xếp chúng theo trật tự nhất ñịnh
(theo kiểu có ý nghĩa).Việc sắp xếp này giúp cho chúng ta có một sự ñánh giá chung về
phân phối dữ liệu, sơ bộ phát hiện ra các ñặc ñiểm của mẫu nghiên cứu làm cơ sở cho
việc ñưa ra những quyết ñịnh ñúng ñắn.
Các cách trình bày số liệu gốc
1.3.1.Trình bày số liệu dưới dạng các bảng mô tả
• Bảng mô tả ñặc tính ñịnh tính
• Bảng mô tả ñặc tính ñịnh lượng
1.3.2. Trình bày số liệu thống kê bằng biểu ñồ.
Biểu ñồ là một hình ảnh cho phép thấy toàn bộ số liệu, những nét ñặc trưng của
tập hợp mẫu, những sự kiện ñáng chú ý, gợi cho người nghiên cứu những ñiều cần so
sánh, những ñiểm cực trị của số liệu, thấy mối quan hệ giữa các hiện tượng. Nó cho
5
phép phát hiện nhanh các biến thiên bất thường hoặc một sự gián ñoạn ñột ngột ở chiều
hướng tiến triển của sự kiện.
Khi trình bày số liệu bằng biểu ñồ phải theo nguyên tắc:
- Biểu ñồ phải rõ ràng, không rườm rà, bỏ qua chi tiết không cần thiết
- Những chỉ dẫn trên biểu ñồ phải ñược hiểu dễ dàng
- Chú ý ñơn vị ño của biểu ñồ, cách phân biệt các thành phần khác nhau của biểu
ñồ bằng màu sắc, ký tự.
Có hai loại biểu diễn: biểu ñồ và ñồ thị
Biểu ñồ: biểu ñồ hình chữ nhật, biểu ñồ hình quạt và biểu ñồ ñường gấp khúc
ðồ thị có thể là tuyến tính (ñường bậc 1) hoặc phi tuyến (parabol, quả chuông …)
CHƯƠNG II. MÔ T Ả DỮ LI ỆU THỐNG KÊ
(Descriptive Statistics)
ðể có thể cô ñọng và nhanh chóng nắm bắt ñược những thông tin quan trọng
chứa ñựng trong mẫu, người ta ñưa ra một vài chỉ số gọi là chỉ số ñăc trưng (giá trị ñặc
trưng hay ñại lượng thống kê tóm lược ).
2.1. ðộ tập trung
Các số ñặc trưng cho chúng ta là một hình ảnh về vị trí trung tâm của mẫu tức
là về xu thế các số liệu trong mẫu tụ tập xung quanh các con số nào ñó. Thường quan
tâm ñến các số ñặc trưng sau: trung bình mẫu, trung vị, mode.
2.1.1.Trung bình mẫu (sample mean)
• Trung bình cộng
+ Số liệu mẫu ñược cho dưới dạng rời rạc (số liệu gốc)
∑=
=n
iiX
nX
1
1
++ Số liệu mẫu ñược cho dưới dạng bảng phân bố thực nghiệm thu gọn. X nhận m giá trị
khác nhau
ii Xfn
X ∑= 1 i=1÷m
+++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp.
6
ii Xf
nX ∑= 1
i = 1 ÷k Xi: trung ñiểm của lớp thứ i
• Trung bình nhân
nn
i
nn ixxxG x
1
1
21 ....
== ∏
=
• Trung bình bình phương
21
1
2 /
= ∑=
nxXn
iibp
2.1.2 . Trung vị (median )
Có nghĩa là trung bình về vị trí: là giá trị nằm ở chính giữa, chia các số liệu mẫu
thành hai phần ký hiệu me
+ Số liệu mẫu gồm n giá trị rời rạc ñược sắp xếp theo thứ tự tăng dần.
n: lẻ 2
1+= ne xm
n: chẵn 2
122
++
=nn
e
xx
m
++ Số liệu mẫu ñược cho dưới dạng bảng phân bố thực nghiệm thu gọn. X nhận m giá trị
khác nhau
Xi ñược gọi là số trung vị sao cho i là chỉ số bé nhất ñể f1+f2+…..+fi ≥ n/2
+++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp.
- Khoảng trung vị
- Số trung vị
• Tìm khoảng trung vị
Giả sử ta có k khoảng với các ñiểm chia là: a0<a1<a2……< ak C1 = (a0,a1); C2(a1,a2)
..Ck(ak-1,ak). Khoảng Ci có tần số là fi ( ki ,1= ); nfk
ii =∑
=1
Khi ñó khoảng Ci ñược gọi là
khoảng trung vị nếu i là chỉ số bé nhất ñể f1+f2+…..+fi ≥ n/2
Số trung vị là số mà tại ñó ñường thẳng x = me chia ñôi diện tích của tổ chức ñồ tần số.
Số trung vị luôn luôn nằm trong khoảng trung vị
• Tìm số trung vị
7
e
e
e
m
m
me f
Sn
hxm1
min2 −−
∗+=
xme min: cận dưới của khoảng chứa trung vị.
h: bề rộng khoảng
n: kích thước mẫu ∑= ifn
S me -1 : tổng tần số của các lớp ñứng trước lớp (khoảng ) chứa trung vị.
fme: tần số của lớp (khoảng) chứa trung vị
2.1.3 .Mode
- Số liệu mẫu ñược cho dưới dạng bảng phân bố thực nghiệm thu gọn. X nhận m giá trị
khác nhau. xi ñược gọi là mode sao cho tương ứng với xi có tần số fi lớn nhất.
- Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp.
+ Tìm khoảng mode
+ Tìm số mode
Ci ñược gọi là khoảng mode sao cho tương ứng với Ci có tần số fi lớn nhất
Số mode
( ) ( )1010
1
0
00
0
min0
+−
−
−+−−
∗+=MMMM
MM
m ffff
ffhxM o
xM0min: cận dưới của khoảng chứa mode (khoảng có tần số fi lớn nhất).
h: bề rộng khoảng
fM0 :tần số của khoảng chứa mode
f Mo-1: tần số của khoảng trước khoảng chứa mode.
f M0+1: tần số của khoảng sau khoảng chứa mode
ðây là một chỉ tiêu thường ñược chú ý trong các bài toán về kinh tế.
2.2. ðộ phân tán
Là các số ñặc trưng cho chúng ta một hình ảnh về mức ñộ phân tán của các số
liệu, ñộ biến ñộng của các số liệu.Thường quan tâm tới: biên ñộ (khoảng biến thiên),
ñộ lệch tuyệt ñối trung bình, phương sai, ñộ lệch chuẩn.
2.2.1.Khoảng biến thiên (range)
R= x max - x min
8
Khi khoảng biến thiên càng nhỏ thì giá trị trung bình ñại diện càng tốt.
2.2.2. ðộ lệch tuyệt ñối trung bình (Mean Abrolate Deviation)
+ Số liệu mẫu gồm n giá trị rời rạc ñược sắp xếp theo thứ tự tăng dần.
∑=
−=n
ii xx
nd
1
1
++ Số liệu mẫu ñược cho dưới dạng bảng phân bố thực nghiệm thu gọn. X nhận m giá trị
khác nhau.
i
m
ii fxx
nd ∑
=
−=1
1 i=1÷m
+++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp.
i
k
ii fxx
nd ∑
=
−=1
1 i = 1 ÷k xi: trung ñiểm của lớp thứ i
d > 0 , d càng nhỏ thì dữ liệu càng ñồng ñều.
2.2.3. Phương sai (Variance)
- Tổng thể (σ2) ( )2
1
2 1∑
=
−=N
iix
Nµσ
- Mẫu ( 2S
))
+ Số liệu mẫu gồm n giá trị rời rạc ñược sắp xếp theo thứ tự tăng dần.
( )2
1
2
1
1ˆ ∑=
−−
=n
ii xx
nS
++ Số liệu mẫu ñược cho dưới dạng bảng phân bố thực nghiệm. X nhận m giá trị khác nhau
( ) i
m
ii fxx
nS
2
1
2
1
1ˆ ∑=
−−
= i=1÷m
+++ Số liệu ñược trình bày dưới dạng bảng phân bố ghép lớp với k lớp.
( ) i
k
ii fxx
nS
2
1
2
1
1ˆ ∑=
−−
= i = 1 ÷k Xi:trung ñiểm của lớp thứ i
2.2.4. ðộ lệch chuẩn (Standard deviation)
2σσ = ( ñối với tổng thể)
2ss =) (ñối với mẫu)
9
CHƯƠNG III. ƯỚC LƯỢNG CÁC THAM SỐ ðẶC TRƯNG CỦA TỔNG THỂ
3.1. Một số khái niệm có liên quan ñến lý thuyết xác suất
Xác suất (Probability) là một giá trị bằng số, nó diễn tả mức ñộ không chắc
chắn khi xem xét sự xuất hiện của một biến cố nào ñó.
Phép thử (trial) hay là thí nghiệm ngẫu nhiên: Việc thực hiện một nhóm các
ñiều kiện cơ bản ñể quan sát một hiện tượng nào ñó có thể xảy ra hay không ñược gọi
là thực hiện một phép thử hay một thí nghiệm ngẫu nhiên.
Biến cố (event) :Hiện tượng có thể xảy ra trong kết quả của phép thử ñó ñược
gọi là biến cố.
Ví dụ: kết quả sấp
gieo ñồng xu: (event)
(trial) ngửa
Biến cố sơ cấp (elementary event): Là biến cố không thể phân chia ñược nữa.
Không gian mẫu (sample space): Là tập hợp các biến cố sơ cấp.
Tập hợp các biến cố sơ cấp trong không gian mẫu theo qui ñịnh riêng của chúng ta gọi
là event set (những biến cố có cùng tính chất).Ví dụ: {1,2,3,4,5,6…..}
Số biến cố trong không gian mẫu gọi là kích thước của không gian mẫu (size of sample space).
Một biến cố chỉ có thể xảy ra khi một phép thử gắn liền với nó ñược thực hiện. Thực tế
có các loại các biến cố sau.
- Biến cố chắc chắn (certain event): Là biến cố nhất ñịnh xảy ra khi thực hiện một phép thử.
- Biến cố không thể (impossible event): Là biến cố nhất ñịnh không xảy ra trong một phép thử
- Biến cố ngẫu nhiên (random event): Là biến cố có thể xảy ra hoặc không xảy ra khi thực
hiện một phép thử.
3.1.1 Các ñịnh nghĩa cơ bản về xác suất.
3.1.1.1. ðịnh nghĩa xác suất theo quan ñiểm cổ ñiển
n
mA =)Pr( với n là số trường hợp cùng khả năng. m là số trường hợp thuận lợi ñể biến cố A xảy ra
Ví dụ: có mười sản phẩm trong ñó có 3 phế phẩm. Lấy ngẫu nhiên một sản phẩm. Tính
xác suất ñể sản phẩm lấy ñược là phế phẩm
10
G ọi A là biến cố sản phẩm lấy ñược là phế phẩm.10
3)Pr( =A
3.1.1.2 ðịnh nghĩa xác suất theo quan ñiểm thống kê
Tần suất: tần suất xuất hiện của biến cố A là tỷ lệ giữa số phép thử trong ñó biến
cố A xảy ra và tổng số phép thử ñược thực hiện.
n
nf A
A = khi ñó người ta ñịnh nghĩa An fA ∞→= lim)Pr(
3.1.1.3.Các tính chất
)A(Pr -1 Pr(A)
0 event) impossible (Pr
1event)certain (Pr
1)Pr(0
=
==
≤≤ A
Thường có hai loại xác suất:
- Xác suất khách quan (objective probability) dựa vào kinh nghiệm,sự hiểu biết về phép thử
- Xác suất chủ quan (subjective probability) không thể ñánh giá bằng khách quan, buộc
lòng phải dựa vào chủ quan
3.1.2. Các quy tắc tính xác suất
3.1.2.1. Quy tắc cộng (Addition Law)
- Biến cố xung khắc: Hai biến có A và B gọi là xung khắc với nhau nếu chúng không
bao giờ xảy ra ñồng thời.
- Hợp của hai biến cố (union of events): Là biến cố xảy ra nếu có ít nhất một trong
hai biến cố A,B xảy ra. Ký hiệu: A+B, A or B, A U B .
( ) ( ) ( )BPAPBAP +=∪ (Nếu A và B xung khắc ). Nếu A và B không xung khắc thì
A*B bi ến cố cả A và B ñồng thời xảy ra.
3.1.2.2. Quy tắc nhân (Multiplication Law)
- Biến cố ñôc lập (independent events): A và B là hai biến cố ñộc lập nhau nếu việc
xảy ra hoặc không xảy ra của biến cố này không ảnh hưởng tới xác suất của biến cố
kia. Trường hợp ngược lại thì người ta gọi là biến cố phụ thuộc (dependent events)
Ký hiệu: A*B, A and B, Khi A và B ñộc lập thì P (A and B) = P(A)* P(B)
( ) ( ) ( ) ( )BAPBPAPBAP *−+=∪
11
- Xác suất có ñiều kiện (conditional probability): Xác suất của biến cố A ñược tính
với giả thiết biến cố B ñã xảy ra ñược gọi là xác suất có ñiều kiện của biến cố A với
ñiều kiện B. Ký hiệu: P (A/B)
Quy tắc nhân tổng quát: A và B là 2 biến cố bất kỳ
P(A*B) = P(A)*P(B/A), A và B ñộc lập: P(B/A) = P (B)
3.1.3. Biến ngẫu nhiên và quy luật phân phối xác suất
(random variable and probability distribution).
3.1.3.1. ðịnh nghĩa và phân loại
Biến ngẫu nhiên là ñại lượng mà trong kết quả của phép thử nó thay ñổi và thay
ñổi với một xác suất xác ñịnh.
Có hai loại biến ngẫu nhiên (BNN):
- Biến ngẫu nhiên rời rạc: Biến ngẫu nhiên gọi là rời rạc nếu các giá trị mà nó có thể
nhận lập nên một tập hợp hữu hạn hoặc ñếm ñược (nói cách khác là ta có thể liệt kê
ñược tất cả các giá trị có thể có của nó).
- Biến ngẫu nhiên liên tục: Biến ngẫu nhiên gọi là liên tục nếu các giá trị mà nó có thể
nhận lấp ñầy một hay nhiều khoảng của trục số thậm trí lấp ñầy toàn bộ trục số.
Vd: Xét phép thử gieo xúc sắc. Gọi X: là số chấm xuất hiện trên mặt xúc sắc, X là
BNN rời rạc. Y: thời gian hoạt ñông của một bóng ñèn, Y là BNN liên tục.
3.1.3.2. Quy luật phân phối xác suất
@1. BNN rời rạc
a. Bảng phân phối xác suất
Bảng cho biết sự tương ứng giữa các giá trị có thể có của biến ngẫu nhiên và các
xác suất tương ứng của nó gọi là bảng phân phối xác suất.
X x1 x2 …… xn
Pr(X) P1 P2 …. pn
ni
xxpp ii
,1
)(
=
==
ðiều kiện của bảng phân phối xác suất 1,,0 =∀≥ ∑ ii pip
b. Các giá trị ñặc trưng của BNN rời rạc.
12
+ Kỳ vọng (expected value): chính là giá trị trung bình khi ∞→n ( ) ( )∑ ∗= ii xpxXE
+ Phương sai (variance): ( ) ( )[ ] ( )ii xpxExX ∗−== ∑22 varσ
+ ðộ lệch chuẩn (standard deviation) 2σσ = ñộ lệch chuẩn của tổng thể
Ý nghĩa của:
Kỳ vọng: chính là giá trị mong ñợi, nó gần bằng trung bình số học của các giá trị quan
sát của BNN khi số phép thử gần ñến vô cùng. Nó phản ánh giá trị trung tâm của phân
phối xác suất của BNN.
Phương sai: phản ánh mức ñộ phân tán của các giá trị của BNN xung quanh giá trị
trung tâm của nó là kỳ vọng toán. Trong thực tế phương sai ñặc trưng cho mức ñộ
phân tán của các chi tiết gia công hay sai số của thiết bị (trong kỹ thuật) mức ñộ rủi ro
của các quyết ñịnh trong quản lý kinh doanh).
ðộ lệch chuẩn: ðơn vị ño của phương sai bằng bình phương ñơn vị ño của BNN. Vì
vậy khi cần phải ñánh giá mức ñộ phân tán của BNN theo ñơn vị ño của nó người ta
thường tính ñộ lệch chuẩn chứ không phải là phương sai vì ñộ lệch chuẩn có cùng ñơn
vị ño với BNN cần nghiên cứu.
@@@@2222. Biến ngẫu nhiên liên tục
a. Hàm mật ñộ xác suất
ðối với biến ngẫu nhiên liên tục, xác suất ñể nó nhận một giá trị cụ thể nào ñó
luôn luôn bằng 0. Có nghĩa là với mọi a, P (X = a) = 0
Do vậy mà với biến ngẫu nhiên liên tục người ta chỉ quan tâm tới xác suất ñể nó
nhận giá trị trong một khoảng nào ñó. Xác suất này ñược quyết ñịnh bởi một hàm gọi
là hàm mật ñộ xác suất.
ðể ñặc trưng cho quy luật phân phối xác suất của biến ngẫu nhiên liên tục người
ta dùng hàm mật ñộ xác suất.
ðịnh nghĩa: Hàm mật ñộ xác suất của biến ngẫu nhiên liên tục X ký hiệu là f(x) là ñạo
hàm bậc nhất của hàm phân bố xác suất của biến ngẫu nhiên ñó.
13
( ) ( )( )
( )
[ ] ( )dxxfbXaPba
dxxfx
xf
xFxf
b
a∫
∫
=⟨⟨⟨∀
=∀
≥′=
∞
∞−
,
1,
0
P(a<X<b) chính là diện tích hình thang cong giới hạn bởi ñồ thị hàm số y=f(x) và hai
ñường thẳng x=a, x=b.
( ) ( )
( ) ( )
2
2
2 *)(
*
σσ
µσ
µ
=
−==
==
∫
∫∞
∞−
∞
∞−
dxxfxXVar
dxxfxXE
b. Hàm phân bố xác suất
Nếu như bảng phân bố xác suất ñặc trưng cho quy luật phân phối xác suất của biến
ngẫu nhiên rời rạc và hàm mật ñộ xác suất ñặc trưng cho quy luật phân phối xác suất
của biến ngẫu nhiên liên tục thì hàm phân bố xác suất ñược dùng cho cả biến ngẫu
nhiên rời rạc và liên tục.
ðịnh nghĩa:
Hàm phân bố xác suất của biến ngẫu nhiên X ký hiệu là F(x) là xác suất ñể biến
ngẫu nhiên X nhận giá trị nhỏ hơn x với x là một số thực bất kỳ.
( ) ( )( ) ∑
⟨
=⟨=
xxi
i
PxF
xXPxF
Thực chất hàm phân bố xác suất là hàm xác suất tích lũy.
Tính chất của hàm phân phối
14
( ) ( ) ( )( ) ( )( ) ( )
( )dxxfxF
FxF
FxF
aFbFbXaP
xF
x
x
x
∫∞−
−∞→
∞→
=
=∞−=
=∞=−=<≤
≤≤
)(
0,0lim
1,1lim
1)(0
Hàm phân bố xác suất phản ánh mức ñộ tập trung xác suất ở về phía bên trái
một số thực x nào ñó. X là biến ngẫu nhiên liên tục thì hàm phân bố xác suất của nó
liên tục và khả vi tại mọi ñiểm của X. ðồ thị của nó là một ñường cong liên tục.
X là biến ngẫu nhiên rời rạc thì ñồ thị hàm phân bố xác suất của nó có dạng bậc
thang với số ñiểm gián ñoạn bằng số giá trị có thể có của X.
Trong thống kê có nhiều hàm xác suất thường dùng, mỗi hàm là một công thức
toán với một vài thông số ñặc trưng. Ta gọi mỗi công thức ñó là một mô hình xác
suất. Người ta sử dụng các mô hình ñó ñể suy diễn các kết quả thí nghiệm. Người
dùng thống kê như một công cụ không nhất thiết phải nhớ công thức mà chỉ cần
biết ñiều kiện nào thì sử dụng mô hình nào là phù hợp.
• Một số phân phối thường gặp và ứng dụng trong thực tế
@1 Phân bố nhị thức (binominal distribution)
Xét quá trình Bernoully:
Mỗi thí nghiệm ngẫu nhiên ñược xem là một phép thử và quá trình này là
một loạt các phép thử, ñối với mỗi phép thử kết quả của nó là một trong hai biến cố sơ
cấp bù nhau thành công và không thành công A hoặc không A . Xác suất ñể cho biến
cố thành công xảy ra là một hằng số ñối với mọi phép thử. P(A)=const. Các biến cố thành
công trong các phép thử là ñộc lập với nhau.
Gọi X là số lần biến cố A xuất hiện trong lược ñồ Bernoully thì X có phân phối
nhị thức với hai tham số n, p. Ký hiệu
15
( )( )
( ) ( )( ] ( ) ( ) ( )[ ] [ ]
( ) ( )( )ppn
pnXEpnbX
KXPKXP
KXPXPXPKXP
nkppCKXPP
nX
pnbX
knkknk
−∗∗=
∗==≈<−=≥
=++=+==≤=−∗∗===
=≈
−
1
,,
1
...10
,0,1
...2,1
,
2σµ
Mode: nếu (n*p - q) không nguyên: qpnMqpn +∗≤≤−∗ 0
nếu (n*p - q) nguyên: Mod= (n*p - q) và (n*p - q + 1), p = 1- q
@2.Mô hình phân bố chuẩn (normal distribution)
ðây là mô hình quan trong nhất trong thống kê, thường áp dụng với biến số liên tục.
ðịnh nghĩa: Biến ngẫu nhiên liên tục X nhận giá trị trong khoảng (-∞, +∞) gọi là có phân
phối chuẩn với các tham số µ,σ2 ký hiệu X∼N(µ,σ2) nếu hàm mật ñộ của nó có dạng
( )( )
2
2
2*2
1 σµ
πσ
−
=x
exf
µ,σ là 2 tham số quan trọng trong phân phối chuẩn. µ: giá trị trung bình của tổng thể σ:
ñộ lệch chuẩn của tổng thể ( )
( ) 2σµ
==
XVar
XE
Khi µ tăng thì ñồ thị dịch chuyển sang phải và ngược lại σ tăng thì ñồ thị thấp xuống
và phình ra, σ giảm thì ñồ thị cao lên và nhọn.
Khi ñó ( )( )
∫∞−
−−
=x x
dxexF2
2
2*2
1 σµ
πσ
@3 .Mô hình phân bố chuẩn hóa (Normal Standard distribution)
ðịnh nghĩa: Biến ngẫu nhiên Z nhận các giá trị trong khoảng (-∞, +∞) ñược gọi là có
phân phối chuẩn hóa X∼N(0,1) nếu hàm mật ñộ xác suất của nó có dạng
( ) 2
2
*2
1 z
ezπ
ϕ =
Lúc này mọi hàm X∼N(µ,σ2) ñều ñược ñưa về N(0,1) bằng cách ñặt σ
µ−= XZ
16
khi ñó ( ) [ ]zZPz ≤=Φ . Ta có thể tính xác suất liên quan ñến X bằng cách ñưa nó về
một biến cố liên quan tới Z rồi tra bảng:
[ ]
−Φ=
−⟨=
−⟨
−=⟨
σµ
σµ
σµ
σµ aa
ZPax
PaXP
Người ta ñã lập bảng tính sẵn các giá trị của hàm Φ(z) Trường hợp z < 0: có thể tra
bảng hoặc dùng công thức Φ(-z) = 1- Φ(z). Tra Φ(z) dùng bảng Laplace
Tính [ ]
−Φ−
−Φ=
−⟨⟨
−=⟨⟨
σµ
σµ
σµ
σµ abb
Za
PbXaP
+ Phân vị mức αααα (0<αααα<1) của phân bố chuẩn hóa Z ký hiệu zαααα là một số thỏa mãn ñẳng thức
[ ][ ]( )
( ) αα
αα
α
α
α
α
−=Φ=Φ−
=≤−=⟩
1
1
1
z
z
zZP
zZP
@4 Hàm phân bố Student (T)
ðịnh nghĩa: ðại lượng ngẫu nhiên T ñược gọi là có phân bố Student với n bậc tự do (n
là một số nguyên dương cho trước ) nếu hàm mật ñộ của nó có dạng
( )2
12
1
2
2
1 +−
+
Γ⋅
+Γ=
n
n
x
nn
n
xf
π
s
Xt
µ−=
Phân vị mức αααα (0 <αααα<1) của phân bố Student T ký hiệu tαααα là một số thỏa mãn
ñẳng thức [ ] αα =⟩tTP
@5 Hàm phân bố Khi bình phương (χχχχ2)
ðịnh nghĩa: ðại lượng ngẫu nhiên χχχχ2 ñược gọi là có phân bố Khi bình phương với n
bậc tự do (n là một số nguyên dương cho trước ) nếu hàm mật ñộ của nó có dạng
x≤0
x>0 ∑=
=n
iiX
1
22χ
Phân vị mức αααα (0 <αααα<1) của phân bố Khi bình phương ký hiệu (χχχχαααα2) là một số
thỏa mãn ñẳng thức [ ] αχχ α =⟩ 2P
( )
⋅
Γ=
−1
2
22
22
10
nx
xenxf
n
17
@6 Hàm phân bố Fisher (F)
ðịnh nghĩa: ðại lượng ngẫu nhiên F ñược gọi là có phân bố Fisher với (n1,n2)bậc tự
do nếu hàm mật ñộ của nó có dạng
x≤0 x>0
2
221
1
222
21
21
22
21
21
2
1
21
..
...
22
2
n
YYn
XXX
F
nn
nnnn
C
n
n
nn
+
++
=
Γ
Γ
⋅
+Γ
=
Phân vị mức αααα (0 <αααα<1) của phân bố Fisher ký hiệu fαααα là một số thỏa mãn ñẳng
thức [ ] αα =⟩ fFP
3.2. Ước lượng các tham số ñặc trưng của tổng thể
Ước lượng là dựa vào các ñặc trưng trên mẫu ñể dự ñoán giá trị cho các ñặc
trưng của tổng thể.
Nếu gọi θ’ là ñặc trưng trên mẫu và θ là ñặc trưng của tổng thể thì
- θ’ chính là ước lượng ñiểm cho ñặc trưng θ
- còn θ’ ± ε chính là khoảng ước lượng cho ñặc trưng θ
3.2.1. Ước lượng giá trị trung bình của tổng thể
• Phương sai σσσσ2 ñã biết n
zXσµ α ∗±=
2
• Phương sai σσσσ2 chưa biết, n≥≥≥≥ 30
Trong nhiều bài toán thực tế ta không biết phương sai của tập hợp chính, nếu kích
thước mẫu n>30 thì ta có thể xấp xỉ σ bởi S).
n
SzX
)∗±=
2αµ
( )( )
( )
+⋅=
+
−
212
2
2
21
1
0
nn
n
xnn
xC
xf
18
• Phương sai σσσσ2 chưa biết, n<30
Giả sử khi nghiên cứu trên mẫu về một ñặc tính nào ñó, từ kết quả của mẫu tính
ñược giá trị trung bình, và ñộ lệch chuẩn. Tức là từ n → X ,S) muốn biết ñược trị số
trung bình của tổng thể (µ) có hai trường hợp
- Ước lượng ñiểm: X chính là ước lượng ñiểm cho µ
- Ước lượng khoảng cho µ là X ± ε, với n
St
)∗=
2αε
3.2.2. Ước lượng phương sai cho tổng thể
Giả sử khi nghiên cứu trên mẫu về một ñặc tính nào ñó, từ kết quả của mẫu tính
ñược giá trị trung bình, và ñộ lệch chuẩn. Tức là từ mẫu có kích thước n → X ,S),
2S)
muốn biết ñược phương sai của tổng thể (σ2) có hai trường hợp
- Ước lượng ñiểm: 2S)
chính là ước lượng ñiểm cho σ2
- Ước lượng khoảng cho σ2 là:
• ðã biết kỳ vọng toán µµµµ của biến ngẫu nhiên gốc X
( ) ( )21
22
2
2
22αα χ
σχ −nn
SnSn)
ππ)
• Chưa biết kỳ vọng toán µµµµ của biến ngẫu nhiên gốc X
( )( )
( )( )
211
22
21
2
22
11
αα χσ
χ −−−
−−
nn
SnSn)
ππ)
3.2.3. Ước lượng tỷ lệ cho tổng thể
Trong một mẫu thực nghiệm có n cá thể, trong ñó có m cá thể có ñặc tính C.Tần
suất của C trong mẫu thực nghiệm sẽ là f = m/n. Từ tần suất thực nghiệm này suy ñoán
tỷ lệ ñặc tính C của tổng thể. Tỷ lệ ñó ñược ký hiệu là p.
- Ước lượng ñiểm cho p chính là f
- Ước lượng khoảng cho p sẽ là ( )n
ffzf
−∗± 12
α
3.2.4. Xác ñịnh kích thước mẫu
Trong thực tế việc xác ñịnh chính xác n là cần thiết trong quá trình thiết kế thí
nghiệm hoặc lập kế hoạch nghiên cứu thực ñịa. Nếu n lớn hơn yêu cầu sẽ gây lãng phí
19
thời gian và kinh phí, còn nếu n quá nhỏ thì các kết luận chưa ñủ tin cậy. ðể xác ñịnh n
cần thiết ta xác ñịnh trong 2 trường hợp sau ñây
• Xác ñịnh kích thước mẫu ñể ước lượng cho trung bình µµµµ
Muốn có ước lượng µ với sai số không quá ε cho trước với ñộ tin cậy (1-α)
* Nếu biết σσσσ thì: 2
2
∗≥
εσ αz
n
* Nếu chưa biết σσσσ: thì lấy sơ bộ một mẫu kích thước m >30 rồi tính X , S): khi ñó n
ñược xác ñịnh từ công thức: 2
2
∗≥
εαzs
n
)với ñiều kiện vế phải không nhỏ hơn 30
• Xác ñịnh kích thước mẫu ñể ước lượng cho tỷ lệ p: 2
22
≥
εαz
n
3.2.5. Phương pháp xác ñịnh số liệu bất thường (khử sai số thô)
* Khi ñã biết σσσσ: Tính
n
n
Xxz
1+∗
−=
∗
σ Sau ñó tra Φ(z). Cho trước mức ý nghĩa α khá bé.
- Nếu Φ(z) >1-α/2: Thì x* là số liệu bất thường
- Nếu Φ(z) ≤ 1-α/2: Thì x* không phải là số liệu bất thường
• Khi chưa biết σσσσ:
- Sắp xếp số liệu từ bé ñến lớn
- Gọi x* là số liệu bất thường, tính X ,S) (không kể x*)
Tính S
Xxt )
−=
∗
Sau ñó tra t (n-1, α/2) cho trước mức ý nghĩa α khá bé.
- Nếu t >t α/2: thì x* là số liệu bất thường (phải loại bỏ)
- Nếu t ≤ t α/2: Thì x* không phải là số liệu bất thường
CHƯƠNG IV. KIỂM ðỊNH GIẢ THUYẾT THỐNG KÊ
(hypothesis testing)
Khi sử dụng phương pháp ñiều tra chọn mẫu, ñôi khi người ta phải ñặt những bài toán so sánh
ñể ñưa ra kết luận chính xác về nội dung hoặc bản chất của hiện tượng nghiên cứu.
20
Trong nghiên cứu khoa học, nhiều vấn ñề ñược giải quyết nhờ ñưa ra một số giả
thuyết, sau ñó kiểm ñịnh các giả thuyết ấy bằng thực nghiệm.
4.1. Một số khái niệm
4.1.1. Giả thuyết thống kê
Là giả thuyết về phân phối xác suất của BNN, về các tham số ñặc trưng của
BNN hoặc tính ñộc lập của các BNN.
Vd: - Tuổi thọ trung bình của hai loại bóng ñèn A và B là như nhau.
- Phương pháp ñiều trị A chữa khỏi 90% bệnh nhân.
4.1.2. Kiểm ñịnh thống kê.
Là một quy tắc hoặc một thủ tục quyết ñịnh dẫn tới việc bác bỏ hoặc chấp nhận
giả thuyết ñã nêu. Thực tế là sự so sánh một số chỉ tiêu thống kê ñược gọi là tiêu chuẩn
kiểm ñịnh ñược tính theo số liệu thực nghiệm với các chỉ tiêu ấy ñược nêu ra theo giả
thuyết.
Thường giả thuyết ñược ñưa ra kiểm ñịnh là giả thuyết không H0 (thuật ngữ của
Fisher). Là giả thuyết mà nếu ta bác bỏ là một cách sai lầm thì sẽ chịu một hậu quả
nghiêm trọng, nói một cách ñơn giản giả thuyết không H0 là giả thuyết mà ta nghi ngờ
và muốn bác bỏ.
Các bước kiểm ñịnh:
1.Xây dựng cấu trúc của giả thuyết (The structure of a hypothesis test)
Gồm 2 giả thuyết bù nhau có nghĩa: nếu không là giả thuyết này thì sẽ là giả thuyết kia.
• Giả thuyết không H0 (Null hypothesis)
• Giả thuyết ñối Ha (Alternative hypothesis)
Việc ñặt giả thiết H0 là tuỳ ý nhưng thông thường người ta ñặt giả thuyết không
là giả thuyết mà nếu ta bác bỏ nó 1 cách sai lầm ta sẽ chịu 1 hậu quả nghiêm trọng.
Khi ñặt ra 2 giả thuyết như vậy sẽ có 2 sự lựa chọn
• Chấp nhận H0 (accept H0) tương ứng với reject Ha
• Bác bỏ H0 (reject H0) tương ứng với accept Ha
Tuy nhiên mới chỉ ñặt ra giả thiết thôi, ta chưa biết ñược giả thiết nào ñúng, vì vậy
cần phải tiến hành các bước tiếp theo.
2.Chọn thống kê kiểm ñịnh (Test statistic).
21
3. Quy tắc kiểm ñịnh (quyết ñịnh)
ðể quyết ñịnh xem giả thuyết nào ñúng, ta phải dựa vào bảng quyết ñịnh
Hành ñộng (acts) Biến cố
(events) Accept H0 Reject H0
H0 true Correct decision Type I error xác suất mắc sai lầm là α
H0 false Type II error xác suất mắc sai lầm là β Correct decision
Nhìn vào bảng quyết ñịnh ta thấy có 2 quyết ñịnh ñúng ñó là
• Chấp nhận H0 khi H0 ñúng và Bác bỏ H0 khi H0 sai
2 sai lầm:
• Bác bỏ H0 khi H0 ñúng và Chấp nhận H0 khi H0 sai
Tìm kiếm xác suất mắc sai lầm (finding the error probabilities)
α = P[type I error] = P[reject H0 /H0 true]
β = P[type II error] = P[accept H0 /H0 false]
Ta luôn mong cả 2 loại sai lầm ñạt cực tiểu nhưng khi cỡ mẫu n cố ñịnh thì
mong muốn trên không thể thực hiện ñược do ñó thông thường cho trước giới hạn trên
của xác suất phạm sai lầm loại I, ký hiệu α, α thường nhỏ (α = 0.1; 0.05; 0.01) khi ñó
ta sẽ ñi tìm miền sao cho β ñạt cực tiểu. α : mức ý nghĩa tiêu chuẩn
Trong thực tế người ta thường cho phép ñược mắc sai lầm loại I ở mức xác suất α
nào ñó ( tuỳ theo tầm quan trọng của sai lầm loại I) sau ñó cực tiểu hoá sai lầm loại II.
ðể chọn ñúng ta làm như sau: Mặc dù cả hai sai lầm trên ñều không mong
muốn nhưng bác bỏ H0 khi H0 ñúng là sai lầm nghiêm trọng hơn cả. Do ñó xác suất
mắc sai lầm α ñược coi là mức ý nghĩa (significanse level). Tuỳ theo bài toán cụ thể
nếu mức ñộ nghiêm trọng càng lớn thì chọn α càng nhỏ.
Như vậy khi ta ra quyết ñịnh bác bỏ Ho, mặc dù Ho ñúng thì ta ñã mắc một sai
lầm với xác suất α, còn khi ta chấp nhận Ho mặc dù Ho sai ta cũng mắc một sai lầm
với xác suất β.
Giá trị α, β phụ thuộc vào việc ta chọn quy ñịnh. Tuỳ thuộc vào quá trình
nghiên cứu mà chúng ta cần giảm nguy cơ mắc loại sai lầm nào.
22
Muốn giảm α thì tăng X nhưng β tăng. Do ñó muốn giảm cả hai sai lầm thì ta
sẽ tăng kích thước mẫu ( tăng n). Bởi vì dạng của ñường cong phân phối liên quan tới
ñộ lệch chuẩn của tổng thể. Khi n tăng thì σ giảm → ñường cong nhọn →α, β giảm.
Thường ta chọn α còn β có thể giảm bằng cách tăng n.
4.2. Bài toán kiểm ñịnh
Có các dạng bài toán kiểm ñịnh như sau:
- Kiểm ñịnh giá trị trung bình của tổng thể
- Kiểm ñịnh phương sai của tổng thể
- Kiểm ñịnh tỷ lệ cho tổng thể
4.2.1. Kiểm ñịnh giá trị trung bình
X là ñại lựơng ngẫu nhiên có phân bố chuẩn. Một mẫu kích thước n là một tập
hợp gồm n giá trị x1,x2…xn thu ñược từ n quan sát ñộc lập về X. Ta muốn kiểm ñịnh
giả thiết về µ của tổng thể.
* Phương sai σσσσ2ñã biết
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
Bước 1: Công thức hóa
giả thuyết
H0: µ = µ0
Ha: µ ≠ µ0
H0: µ = µ0
Ha: µ > µ0
H0: µ = µ0
Ha: µ < µ0
Bước 2: Chọn thống kê
kiểm ñịnh
( )
σµ nX
Z∗−
= 0
( )
σµ nX
Z∗−
= 0
( )
σµ nX
Z∗−
= 0
Bước 3: Xác ñịnh miền chấp nhận hay
bác bỏ H0
- Zα/2 ≤ Z ≤ Zα/2 Chấp nhận H0
Z < -Zα/2 hoặc Z > Zα/2
Bác bỏ H0
Z ≤ Zα: Chấp nhận H0 Z > Zα: Bác bỏ H0
Z ≥ -Zα: Chấp nhận H0
Z < -Zα : Bác bỏH0
Bước 4: So sánh, ra
quyết ñịnh bác bỏ hay chấp
nhận H0
Bước 5: Kết luận
* Phương sai σσσσ2 chưa biết, n≥≥≥≥30
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
23
Bước 1: Công thức hóa
giả thuyết
H0: µ = µ0
Ha: µ ≠ µ0
H0: µ = µ0
Ha: µ > µ0
H0: µ = µ0
Ha: µ < µ0
Bước 2: Chọn thống kê
kiểm ñịnh
( )
S
nXZ
ˆ0 ∗−= µ
( )
S
nXZ
ˆ0 ∗−= µ
( )
S
nXZ
ˆ0 ∗−= µ
Bước 3: Xác ñịnh miền chấp nhận hay
bác bỏ H0
- Zα/2 ≤ Z ≤ Zα/2 Chấp nhận H0
Z < -Zα/2 hoặc Z > Zα/2
Bác bỏ H0
Z ≤ Zα: Chấp nhận H0 Z > Zα: Bác bỏ H0
Z ≥ - Zα: Chấp nhận H0
Z < -Zα : Bác bỏH0
Bước 4: So sánh, ra quyết ñịnh bác bỏ hay chấp nhận H0
Bước 5: Kết luận
* Phương sai σσσσ2 chưa biết, n < 30
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
Bước 1: Công thức hóa
giả thuyết
H0: µ = µ0
Ha: µ ≠ µ0
H0: µ = µ0
Ha: µ > µ0
H0: µ = µ0
Ha: µ < µ0
Bước 2: Chọn thống kê
kiểm ñịnh
( )S
nXt
ˆ0 ∗−= µ
( )
S
nXt
ˆ0 ∗−= µ
( )S
nXt
ˆ0 ∗−= µ
Bước 3: Xác ñịnh miền chấp nhận hay
bác bỏ H0
- tα/2 ≤ t ≤ tα/2 Chấp nhận H0
t < -tα/2 hoặc t > tα/2
Bác bỏ H0
t ≤ tα: Chấp nhận H0 t > tα: Bác bỏ H0
t ≥ - tα: Chấp nhận H0
t < - tα : Bác bỏ H0
Bước 4: So sánh, ra quyết ñịnh bác bỏ hay chấp nhận H0
Bước 5: Kết luận
4.2.2. Kiểm ñịnh về giá trị của xác suất
Tiến hành phép thử ngẫu nhiên G n lần một cách ñộc lập và quan sát thấy biến cố A xuất
hiện k lần. Tần suất xuất hiện của A là f= k/n cho ta một hình ảnh xấp xỉ của p.
Ta muốn kiểm ñịnh giả thiết p = p0 với p0 là một số ñã cho.
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
24
Bước 1: Công thức hóa
giả thuyết
H0: p = p0
Ha: p ≠ p0
H0: p = p0
Ha: p > p0
H0: p = p0
Ha: p < p0
Bước 2: Chọn thống kê
kiểm ñịnh
Nếu np0 ≥ 5, n(1-p0) ≥ 5 thì dùng thống kê:
( )( )00
0
1 pp
npfZ
−∗∗−=
Nếu np0 ≥ 5, n(1-p0) ≥ 5 thì dùng thống kê:
( )( )00
0
1 pp
npfZ
−∗∗−=
Nếu np0 ≥ 5, n(1-p0) ≥ 5 thì dùng thống kê:
( )( )00
0
1 pp
npfZ
−∗∗−=
Bước 3: Xác ñịnh miền chấp nhận hay
bác bỏ H0
- Zα/2 ≤ Z ≤ Zα/2 Chấp nhận H0
Z < -Zα/2 hoặc Z> Zα/2
Bác bỏ H0
Z ≤ Zα: Chấp nhận H0 Z > Zα: Bác bỏ H0
Z ≥ - Zα: Chấp nhận H0
Z< - Zα : Bác bỏ H0
Bước 4: Bước 5:
4.2.3. Kiểm ñịnh về phương sai
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
Bước 1: Công thức hóa
giả thuyết
H0: σ2 = σ20
Ha: σ2 ≠ σ20
H0: σ2 = σ20
Ha: σ2 > σ20
H0: σ2 = σ20
Ha: σ2 < σ20
Bước 2:
Chọn thống kê kiểm ñịnh
( )20
21
σχ Sn
)∗−=
( )20
21
σχ Sn
)∗−=
( )20
21
σχ Sn
)∗−=
Bước 3: Xác ñịnh miền chấp nhận hay
bác bỏ H0
- χ2α/2 ≤ χ ≤ χ2
α/2 Chấp nhận H0
χ < -χ2α/2 hoặc χ> χ2
α/2
Bác bỏ H0
χ ≤ χ2
α: Chấp nhận H0
χ> χ2α: Bác bỏ H0
χ ≥ - χ2
α Chấp nhận H0
χ< - χ2α : Bác bỏ H0
Bước 4: Bước 5:
4.3. Bài toán so sánh
4.3.1. So sánh hai giá trị trung bình
X và Y là hai ñại lượng ngẫu nhiên có phân bố chuẩn X ∼ N(µ1, σ12), Y ∼ N(µ2,σ2
2).
Chúng ta muốn so sánh µ1, µ2 dựa trên hai mẫu ñộc lập quan sát của X và Y.
• Phương sai σσσσ12, σσσσ2
2 ñã biết
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
Bước 1: Công thức hóa
giả thuyết
H0: µ1 = µ2
Ha: µ1 ≠ µ2
H0: µ1 = µ2
Ha: µ1 > µ2
H0: µ1 = µ2
Ha: µ1 < µ2
25
Bước 2: Chọn thống kê
kiểm ñịnh
( )
mn
YXZ
22
21 σσ
+
−= ( )
mn
YXZ
22
21 σσ
+
−=
( )
mn
YXZ
22
21 σσ
+
−=
Bước 3: Xác ñịnh miền chấp nhận hay
bác bỏ H0
- Zα/2 ≤ Z ≤ Zα/2 Chấp nhận H0
Z < -Zα/2 hoặc Z> Zα/2
Bác bỏ H0
Z ≤ Zα: Chấp nhận H0 Z > Zα: Bác bỏ H0
Z ≥ - Zα: Chấp nhận H0
Z < -Zα : Bác bỏ H0
Bước 4: Bước 5: Kết luận
• Phương sai σσσσ12, σσσσ2
2 chưa biết, mẫu lớn (n ≥≥≥≥ 30, m ≥≥≥≥ 30)
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
Bước 1: Công thức hóa
giả thuyết
H0: µ1 = µ2
Ha: µ1 ≠ µ2
H0: µ1 = µ2
Ha: µ1 > µ2
H0: µ1 = µ2
Ha: µ1 < µ2
Bước 2: Chọn thống kê
kiểm ñịnh
( )
m
S
n
S
YXZ
22
21
))+
−= ( )
m
S
n
S
YXZ
22
21
))+
−=
( )
m
S
n
S
YXZ
22
21
))+
−=
Bước 3: Xác ñịnh miền chấp nhận hay
bác bỏ H0
- Zα/2 ≤ Z ≤ Zα/2 Chấp nhận H0
Z < -Zα/2 hoặc Z> Zα/2
Bác bỏ H0
Z ≤ Zα: Chấp nhận H0 Z > Zα: Bác bỏ H0
Z ≥ - Zα: Chấp nhận H0
Z < -Zα : Bác bỏ H0
Bước 4: Bước 5:
• Phương sai σσσσ12, σσσσ2
2 chưa biết, mẫu nhỏ (n < 30, m < 30)
Bài toán kiểm ñịnh một phía Các bước kiểm ñịnh
Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
Bước 1: CTHG
T
H0: µ1 = µ2
Ha: µ1 ≠ µ2
H0: µ1 = µ2
Ha: µ1 > µ2
H0: µ1 = µ2
Ha: µ1 < µ2
Bước 2: TKKð
( ) ( )2
11 22
212
−+−+−
=mn
SmSnS
))
( ) ( )2
11 22
212
−+−+−
=mn
SmSnS
))
( ) ( )2
11 22
212
−+−+−
=mn
SmSnS
))
26
( )
m
S
n
S
YXt
22
+
−= ( )
m
S
n
S
YXt
22
+
−= ( )
m
S
n
S
YXt
22
+
−=
Bước 3:
- t α/2 ≤ t ≤ tα/2 Chấp nhận H0
t< -tα/2 hoặc t> tα/2
Bác bỏ H0
t tra phân bố Student (n+m-2, α/2)
t ≤ tα: Chấp nhận H0 t > tα: Bác bỏ H0
t tra phân bố Student
(n+m-2, α)
t ≥ - tα: Chấp nhận H0
t < -tα : Bác bỏ H0
t tra phân bố Student (n+m-2, α)
Bước 4: Bước 5:
4.3.2. So sánh hai phương sai
Hai dãy số liệu dù có trị số trung bình giống nhau nhưng phương sai khác nhau
thì vẫn không ñồng nhất. Do ñó ñể ñánh giá hai dãy số liệu quan sát ta cần phải so sánh
hai phương sai. Trong sinh học hai phương sai nhằm ñánh giá ñộ chính xác của hai
phương pháp phân tích thực nghiệm, hai phương pháp quan trắc. Nếu trong cùng một
ñiều kiện, kết quả nào ít biến thiên nhất thì phương pháp ấy chính xác hơn.
Có hai mẫu ngẫu nhiên từ hai tổng thể:
X là ñại lượng ngẫu nhiên có phân phố chuẩn X ∼ N(µ1, σ12)
Y là ñại lượng ngẫu nhiên có phân phố chuẩn Y ∼ N(µ2,σ22)
Mẫu 1: là mẫu ngẫu nhiên ñược rút từ tập hợp chính X với n cá thể, phương sai 21S
)
Mẫu 2: là mẫu ngẫu nhiên ñược rút từ tập hợp chính Y với m cá thể, phương sai 22S
)
ðể kiểm ñịnh sự khác biệt của hai phương sai
Các bước kiểm ñịnh Bài toán kiểm ñịnh 2 phía
Bước 1:
Công thức hóa giả thuyết
H0: σ12 = σ2
2
Ha: σ12 ≠σ2
2
Bước 2: Chọn thống kê kiểm ñịnh 2
2
21
S
SF )
)= chú ý: khi lập tỷ số phương sai của mẫu nào lớn sẽ
làm tử số ñể cho F>1 Bước 3:
Xác ñịnh miền chấp nhận hay bác bỏ H0
F ≤ F (n-1,m-1,α): Chấp nhận H0
F > F (n-1,m-1,α): Bác bỏ H0
Bước 4:
27
Bước 5:
4.3.3. So sánh hai tỷ lệ
Nghiên cứu ñặc tính C trên hai tổng thể A và B. Từ tổng thể A có n1 cá thể trong
ñó có m1 cá thể có ñặc tính C. Từ tổng thể B có n2 cá thể trong ñó có m2 cá thể có ñặc
tính C. Tần suất của ñặc tính C trong hai tổng thể là f1= m1/n1, f2= m2/n2
Bài toán kiểm ñịnh một phía Bài toán kiểm ñịnh 2 phía Kiểm ñịnh phía trên Kiểm ñịnh phía dưới
Bước 1: CTHG
T
H0: p1 = p2
Ha: p1 ≠ p2
H0: p1 = p2
Ha: p1 > p2 H0: p1 = p2
Ha: p1 < p2
Bước 2: TKKð
Nếu nf ≥ 10, n(1-f) ≥ 10 thì dùng thống kê:
( )
( )
+−∗
−=
21
21
111
nnff
ffZ
Với 21
21
nn
mmf
++
=
Nếu nf ≥ 10, n(1-f) ≥ 10 thì dùng thống kê:
( )
( )
+−∗
−=
21
21
111
nnff
ffZ
với 21
21
nn
mmf
++
=
Nếu nf ≥ 10, n(1-f) ≥ 10 thì dùng thống kê:
( )
( )
+−∗
−=
21
21
111
nnff
ffZ
với 21
21
nn
mmf
++
=
Bước 3:
- Zα/2 ≤ Z ≤ Zα/2 Chấp nhận H0
Z < -Zα/2 hoặc Z> Zα/2
Bác bỏ H0
Z ≤ Zα: Chấp nhận H0 Z > Zα: Bác bỏ H0
Z ≥ - Zα: Chấp nhận H0
Z< - Zα : Bác bỏ H0
Bước 4: Bước 5:
4.3.4. So sánh nhiều tỷ lệ
Nghiên cứu ñặc tính C trên nhiều tổng thể. Từ tổng thể 1, rút ra một mẫu có n1
cá thể trong ñó có m1 cá thể có ñặc tính C. Từ tổng thể 2, rút ra một mẫu có n2 cá thể
trong ñó có m2 cá thể có ñặc tính C. Từ tổng thể k, rút ra một mẫu có nk cá thể trong ñó
có mk cá thể có ñặc tính C. Tần suất của ñặc tính C trong các tổng thể lần lượt là
f1=m1/n1, f2=m2/n2… fk=mk/nk
Mẫu 1 2 ……. k Tổng Có C m1 m2 mk m =∑mi
Không C l1= n1-m1 l2= n2-m2 lk= nk-mk l=∑l i Tổng n1 n2 nk N=m+n=∑ni
28
Bài toán kiểm ñịnh 2 phía
Bước 1: CTHGT
H0: p1 = p2=…= pk= p Ha: ∃ ít nhất 1pi ≠ p
Bước 2:
TKKð ( ) ( )∑∑
==
−+
−=
k
i i
iik
i i
ii
l
ll
m
mm
1
2
1
2
))
))
χ
hay ta có thể tính theo công thứcl
mN
n
m
ml
N k
i i
i −= ∑=1
22
χ
với N
mnm ii ∗=)
N
lnl ii ∗=
)
Bước 3:
χ > χ2(α, k-1): Chấp nhận H0
χ ≤ χ2(α, k-1): Bác bỏ H0 Bước 4: Bước 5:
CHƯƠNG 5. PHÂN TÍCH PHƯƠNG SAI
Phân tích phương sai ñược dùng trong các trắc nghiệm ñể so sánh các giá trị
trung bình của hai hay nhiều mẫu ñược lấy từ các tổng thể. ðây có thể ñược xem như
phần mở rộng của của trắc nghiệm t hay z.
5.1. Phân tích phương sai một yếu tố
Giả sử ta có k ñại lượng ngẫu nhiên có phân bố chuẩn X1, X2, …Xk trong ñó
X i∼N(µi,σi2). Các giá trị trung bình µi và phương sai σi
2 ñều chưa biết. Tuy nhiên
chúng ta giả thiết rằng các phương sai bằng nhau: σi2 = σ2
2 = …= σk2.
Chúng ta muốn kiểm ñịnh xem liệu các giá trị trung bình µi này có như nhau
hay không. H0: µµµµ1 = µµµµ2 =…= µµµµk. trong thống kê vấn ñề trên thường ñược xem xét dưới
góc ñộ sau ñây.
Giả sử chúng ta quan tâm tới một nhân tố X nào ñó. Nhân tố X có thể xem xét ở
k mức ñộ khác nhau. Ký hiệu Xi là hiệu quả của việc tác ñộng nhân tố X ở mức i.
Chúng ta muốn biết khi cho nhân tố X thay ñổi các mức khác nhau thì ñiều ñó có ảnh
hưởng hay không tới hiệu quả trung bình.
29
Ví dụ: Chúng ta muốn nghiên cứu ảnh hưởng của giống tới năng suất cây trồng. Nhân
tố ở ñây là giống. Các loại giống khác nhau là các mức của nhân tố. Hiệu quả của
giống lên năng suất cây trồng ñược ño bằng sản lượng của cây trồng. Như vậy Xi chính
là sản lượng của giống i và µi là sản lượng trung bình của giống i.
Tổng bình phương chung : SST ( Total Sum of Squares) n
TXSST
k
i
n
jji
i 2
1 1
2 −=∑∑= =
Tổng bình phương do nhân tố: SSF (Sum of Squares for Factor) n
T
n
TSSF
k
i i
i2
1
2
−=∑=
Tổng bình phương do sai số: SSE (Sum of Squares for Error)
−= ∑∑∑
== =
k
i i
ik
i
n
jji n
TXSSE
i
1
2
1 1
2 SST = SSF + SSE
1−=
k
SSFMSF
kn
SSEMSE
−=
MSE
MSFF =
Bảng phân tích phương sai:ANOVA (Analysis of Variance)
Nguồn Tổng bình phương Bậc tự do Trung bình bình phương Tỷ số F
Nhân tố SSF k-1
MSF
Sai số SSE n-k MSE
MSE
MSF
Nhóm
i
j
1 2 … k
1 X11 X12 X1k
2 X21 X22 X2k
…. … … …
ni Xn11 Xn22 Xnkk
∑=
=k
iinn
1
Tổng T1 T2 … Tk ∑=
=k
iiTT
1
Trung bình 1X 2X
kX n
TX =
30
Tổng SST n-1
Nếu F ≤ F (α, k-1, n-k): Chấp nhận H0
F > F (α, k-1, n-k): Bác bỏ H0
5.2. Phân tích phương sai hai yếu tố
ðọc trong tài liệu (Phân tích dữ liệu bằng chương trình Ms- Excel)
CHƯƠNG 6. PHÂN TÍCH TƯƠNG QUAN VÀ HỒI QUY
6.1. Phân tích tương quan
Phân tích tương quan (correlation) là ñể khảo sát khuynh hướng (tuyến tính,
khuynh hướng tuyến tính, phi tuyến) và mức ñộ của sự liên quan (chặt, vừa, yếu…) của
các ñại lượng về mặt ñịnh tính
ðặt vấn ñề:
Chúng ta ñã rất quen với mối liên hệ tất ñịnh (liên hệ hàm số); tức là khi ñã
biết mối liên hệ hàm thì nếu cho giá trị của biến này ta sẽ biết chắc chắn biến kia nhận
giá trị nào.
Trong thực tế khi nghiên cứu chúng ta gặp một hình thái liên hệ khác – liên hệ
ngẫu nhiên; nghĩa là ứng với mỗi giá trị bất kỳ của ñại lượng này thì ñại lượng kia vẫn
còn là ngẫu nhiên và có thể nhận những giá trị khác nhau với xác suất nhất ñịnh. Ví dụ:
- Trong cùng ñiều kiện môi trường như nhau, năng suất sinh khối của nấm men
sacharomyces cerevisiae là khác nhau ở các ống nghiệm khác nhau trong cùng
một lô thí nghiệm.
- Cùng một ñàn gà tại thời ñiểm bắt ñầu nuôi có trọng lượng như nhau, tuy nhiên
sau cùng một thời gian nuôi với cùng một chế ñộ ăn, ñiều kiện nuôi nhưng trọng
lượng của từng con gà là khác nhau.
Vấn ñề ñặt ra là khi cho 2 biến ngẫu nhiên, hỏi rằng hai biến này có mối liên hệ
ngẫu nhiên gì không? Mức ñộ liên hệ chặt hay không chặt, biểu thức liên hệ thuộc dạng
nào? Tuyến tính hay phi tuyến?...
6.1.1. Tương quan tuyến tính
31
Xét hai ñại lượng ngẫu nhiên X và Y có n cặp kết quả quan sát (x1,y1), (x2, y2),…,
(xn, yn). Khảo sát mối quan hệ giữa hai ñại lượng này có hai khả năng xảy ra:
- X, Y ñộc lập với nhau
- X, Y có mối quan hệ phụ thuộc
ðể xác ñịnh mối quan hệ giữa hai ñại lượng ta phải tìm ra sự tương quan giữa chúng.
Mối quan hệ này biểu thị bởi hệ số tương quan r
( ) ( )
( ) ( )2
1
2
1
1
∑∑
∑
==
=
−•−
−⋅−=
n
ii
n
ii
n
iii
yyxx
yyxxr
r =1: tập hợp các ñiểm (xi, yi) nằm trên cùng một ñường thẳng
19,0 <≤ r : tương quan chặt (tốt, xuất sắc)
9,07,0 <≤ r : tương quan tương ñối chặt
7,05,0 <≤ r : tương quan vừa
5,00 << r : tương quan yếu
r =0 : không tương quan
6.1.2. Tương quan phi tuyến
Khi sự liên hệ giữa X1 và Yi không tuân theo quan hệ tuyến tính, muốn tìm xem
giữa Xi và Yi có mối quan hệ phi tuyến hay không, ta sẽ tính tỷ số tương quan.
Xuất phát từ mẫu ngẫu nhiên cỡ n, ñể ño mức ñộ phụ thuộc hàm tính bất kỳ giữa
hai biến ngẫu nhiên X và Y, người ta ñưa ra ñại lượng mà ta gọi là tỷ số tương quan,
ñược xác ñịnh như sau:
( )( ) ( ){ } 5,022
∑∑ −−= yymyymR iiixix
y
( )( ) ( ){ } 5,022
∑∑ −−= xxmxxmR iiiyiy
x
mi là tần số của (xi, yi), n : kích thước mẫu
32
6.2. Phân tích hồi quy
Phân tích hồi quy là ñể xác ñịnh sự liên quan ñịnh lượng giữa các ñại lượng
(theo dạng hàm nào?)
Khi làm thí nghiệm ta thu ñược các số liệu nhưng không biết quan hệ giữa biến
tiên ñoán và biến ñáp ứng tuân theo dạng hàm gì? Dạng hàm của mô hình hồi quy phụ
thuộc vào việc chọn biến tiên ñoán Xi, có thể là dạng ñường hoặc mặt. ðôi khi các lý
thuyết có liên quan có thể chỉ cho chúng ta dạng hàm nhưng ña số các trường hợp ta
không biết là gì. Thường ta chọn theo kinh nghiệm và xấp xỉ bằng hàm bậc 1 hoặc bậc
2 vì: dễ,…Còn khi mối quan hệ quá phức tạp các nhà nghiên cứu chia thành từng khúc
và tuyến tính hóa dưới dạng bậc 1 hoặc bậc 2.
ðể chọn ñược dạng hàm thích hợp, ta sẽ biểu diễn các cặp giá trị (Xi, Yi) trên
mặt phẳng tọa ñộ và dựa vào hình dạng ñể xác ñịnh dạng hàm.
Trong các dạng hàm thì dạng tuyến tính là ñơn giản nhất
6.2.1. Hồi quy tuyến tính ñơn
6.2.1.1.Dạng chính tắc của mô hình (Formal Statement of Model)
iii XY εββ +∗+= 10 trong ñó:
Yi: giá trị của biến ñáp ứng tại phép thử thứ i. Xi giá trị của biến tiên ñoán.
β0, β1 các thông số εi: sai số ngẫu nhiên E(εi) = 0
Trong thực tế thì ta không biết ñựơc β0, β1. Khi nghiên cứu mẫu thì ta chỉ biết ñược Xi, Yi
còn εi luôn luôn thay ñổi vì vậy β0, β1 cũng không biết. Do ñó khi xử lý thực nghiệm ta tìm
phương trình hồi quy gần ñúng bằng cách ước lượng các giá trị của β0, β1.
ðể ước lượng cho β0, β1 người ta dùng các hệ số hồi quy b0, b1 sao cho E(b0)= β0 E(b1) =β1
Phương trình hồi quy gần ñúng phụ thuộc chủ yếu vào phương pháp tính dùng
ñể tính các hệ số hồi quy. Người ta thường sử dụng phương pháp bình phương bé
nhất bởi vì phương pháp này cho phép xác ñịnh các hệ số của phương trình hồi quy ñã
chọn sao cho ñộ lệch của sự phụ thuộc ñã chọn so với các số liệu thực nghiệm về một
phương diện nào ñó là nhỏ nhất.
Nội dung của phương pháp:
33
Giả sử ta có n ñiểm quan sát (x1, y1),(x2, y2)……..(xn, yn) khi ñó ñường nối các
ñiểm Ai(xi, yi) ni ,1= là ñường hồi quy thực nghiệm. Nếu ta thấy ñường hồi quy thực
nghiệm gần với ñường lý thuyết nào nhất thì ta nói dạng của ñường hồi quy thực
nghiệm gần ñúng bằng ñường lý thuyết ñó. Ở ñây ta ñang xét hồi quy tuyến tính một
biến nên ñường hồi quy lý thuyết có dạng là xbby 10 +=
Gọi S là tổng bình phương các khoảng cách ', ii AA ( ) ( )2
110
2
1
' ∑∑==
−+==n
iii
n
iii yxbbAAS
S sẽ bé nhất khi:
i
n
ii
n
ii
n
ii
n
ii
n
ii
yxxbxb
yxbnb
b
S
b
S
∑∑∑
∑∑
===
==
=+
=+⇔
=∂∂
=∂∂
11
21
10
1110
1
0
0
0
⇒ ( )( )( )∑
∑
∑ ∑
=
=
= =
−
−−=
−=
−=
n
ii
n
iii
n
i
n
iii
xx
yyxxb
xbyxbyn
b
1
2
11
11 1
10
1
Hàm xbby 10ˆ += ñược gọi là hàm hồi quy ước lượng và ñược thiết lập theo phương pháp ñại số
6.2.1.2.Phân tích hồi quy bằng ANOVA
Sau khi thiết lập ñược phương trình hồi quy ta sẽ lập bảng ANOVA
Source of Variation SS df MS F
Regression ( )2
1∑
=
−=n
ii YYSSR
)
1 1
SSRMSR=
MSE
MSRF =
Error (Residual) ( )2
1∑
=
−=n
iii YYSSE
)
n-2 2−
=n
SSEMSE
Total ( )2
1∑
=
−=n
ii YYSSTO
n-1
SSTO = SSR + SSE .
SSTO = 0. Các giá trị quan sát là như nhau
SSTO → 0. Các giá trị quan sát khá tập trung
SSE = 0. Các giá trị của hàm hồi quy ước lượng trùng với thực nghiệm
6.2.1.3.Bài toán kiểm ñịnh
34
Với hồi quy tuyến tính 1 biến mối quan hệ giữa X và Y thể hiện qua hệ số b1, nếu hệ số
tồn tại có nghĩa là mô hình tồn tại. Vì vậy trong trường hợp này ta chỉ cần kiểm ñịnh hệ
số hoặc mô hình mà không cần làm cả 2 trường hợp.
@1 . Kiểm ñịnh ý nghĩa của các hệ số (dùng tiêu chuẩn Student)
+ Cấu trúc: H0: β1=0 Ha: β1 ≠ 0
+ Tính 1
11
bs
bt =∗ ( )∑ −
=2
21
XX
MSEs
i
b
+ So sánh t* với t (α/2, n-2)
Nếu ( )2,2 −≤∗ ntt α : chấp nhận H0 ∼ β1=0 ∼ b1=0. Không có mối quan hệ giữa
X và Y. do ñó không tồn tại mối quan hệ tuyến tính giữa X và Y.
@2. Kiểm ñịnh sự tương thích của mô hình ( Tiêu chuẩn Fisher)
+ Cấu trúc: H0: β1=0 Ha: β1 ≠ 0
+ Tính MSE
MSRF =∗
+ So sánh F* với F (α, 1, n-2)
+ Nếu F* ≤ F (α, 1, n-2): Chấp nhận H0. ∼β1=0 ∼ b1=0. Không có mối quan hệ
giữa X và Y. Mô hình hồi quy không phù hợp.
6.2.2. Hồi quy tuyến tính ña biến
6.2.2.1.Dạng chính tắc của mô hình (Formal Statement of Model)
iòjiii XXXY εββββ +∗++∗+∗+= ..22110 trong ñó:i = 1÷n, j = 0÷k
Yi: giá trị của biến ñáp ứng tại phép thử thứ i. Xij giá trị của biến tiên ñoán tại phép thử
thứ i. β0, β1, .., βj các thông số εi: sai số ngẫu nhiên E(εi) = 0
* Phương trình hồi quy có dạng jj xbxbxbby ++++= ...ˆ 22110
6.2.2.2.Phân tích hồi quy bằng ANOVA
Source of Variation SS df MS F
Regression ( )2
1∑
=
−=n
ii YYSSR
)
k k
SSRMSR=
MSE
MSRF =
35
Error (Residual) ( )2
1∑
=
−=n
iii YYSSE
)
n-k-1 1−−
=kn
SSEMSE
Total ( )2
1∑
=
−=n
ii YYSSTO
n-1
SSTO = SSR + SSE .
SSTO = 0 Các giá trị quan sát là như nhau
SSTO → 0. Các giá trị quan sát khá tập trung
SSE = 0. Các giá trị của hàm hồi quy ước lượng trùng với thực nghiệm
6.2.2.3. Bài toán kiểm ñịnh
@1 . Kiểm ñịnh ý nghĩa của các hệ số (dùng tiêu chuẩn Student)
+ Cấu trúc: H0: βj =0 Ha: βj ≠ 0 j = 0 ÷ k
+ Tính bj
jj s
bt =∗
+ So sánh tj* với t (α/2, n-k-1)
Nếu ( )1,2 −−≤∗ kntt j α : chấp nhận H0 ∼ βj=0 ∼ bj=0. Hệ số bj không có ý
nghĩa. Yếu tố Xj không ảnh hưởng hoặc ảnh hưởng không ñáng kể tới Y, bj bị loại
khỏi phương trình.
@2. Kiểm ñịnh sự tương thích của mô hình ( Tiêu chuẩn Fisher)
- Cấu trúc: H0: β0= β1=…=βj Ha: Tồn tại ít nhất 1βj ≠ 0
- Tính MSE
MSRF =∗
- So sánh F* với F (α, k, n-k-1)
- Nếu F* ≤ F (α, k, n-k-1): Chấp nhận H0. Mô hình hồi quy không phù hợp.
CHƯƠNG 7. BỐ TRÍ THÍ NGHI ỆM
7.1. ðại cương về bố trí thí nghi ệm
Thực nghiệm: Là hệ thống các công ñoạn, các tác ñộng và quan sát nhằm nhận thông
tin về ñối tượng trong các công trình nghiên cứu.
36
Thí nghiệm: Là một phần của thực nghiệm, là sự tái hiện lại hiện tượng cần nghiên
cứu trong các ñiều kiện xác ñịnh ñược hoạch ñịnh trong thực nghiệm.
Theo quan ñiểm lý thuyết: ðể xây dựng ñược lý thuyết của quá trình cần nghiên cứu
thì chúng ta phải nghiên cứu một cách toàn diện cơ chế của quá trình, tính chất ñặc
ñiểm, tác ñộng qua lại của các phần tử trong hệ.
Tuy nhiên trong thực tế: tính chất, ñặc ñiểm, tác ñộng qua lại của các phần tử trong
hệ rất phức tạp, do ñó không thể nghiên cứu lý thuyết trong khoảng thời gian hợp lý.
Với những lĩnh vực công nghệ và kỹ thuật khác nhau thì ñối tượng nghiên cứu rất
ña dạng, các yếu tố ảnh hưởng và chỉ tiêu ñánh giá là một hệ thống cồng kềnh. Các
hàm lý thuyết không thể mô tả một cách hoàn hảo ñược các mối liên quan giữa các
thành phần trong hệ thống. Cần phải giải quyết bằng thực nghiệm.
Lý thuyết và thực nghiệm luôn hỗ trợ và bổ xung cho nhau. Nếu như lý thuyết
có tác dụng ñịnh hướng ban ñầu, hỗ trợ, giảm bớt khối lượng công việc, rút ngắn thời
gian cho nghiên cứu thực nghiệm. Thì thực nghiệm có tác dụng trở lại là bổ xung kết
quả nghiên cứu của lý thuyết, xác ñịnh rõ hơn cơ chế của hiện tượng.
Vấn ñề ñặt ra là làm thế nào ñể nhận ñược thông tin chính xác ñầy ñủ về ñối
tượng nghiên cứu nhưng vẫn ñảm bảo hiệu quả cao nhất và chi phí nhỏ nhất.
ðể thu ñược :
- Chất lượng thông tin tốt nhất
- Kết quả có ñộ tin cậy cao nhất
- Số thí nghiệm ít nhất, giá thành thấp nhất
⇒ ðòi hỏi phải có phương pháp bố trí thí nghiệm hợp lý
7.2. Bố trí thí nghiệm theo phương pháp cổ ñiển
Các thí nghiệm ñược bố trí bằng cách lần lượt thay ñổi từng thông số trong khi
giữ nguyên các yếu tố còn lại.
- Yếu tố A ñược nghiên cứu ở các mức : a0, a1, a2, a3, a4
- Yếu tố B ñược nghiên cứu ở các mức : b0, b1, b2, b3, b4
- Yếu tố C ñược nghiên cứu ở các mức : c0, c1, c2, c3, c4
37
Các thí nghiệm ñược bố trí như sau:
TN1 (a0, b0, c0), TN2 (a0, b0, c1), .. TN5 (a0, b0, c4)
TN6 (a0, b1, c0), TN7 (a0, b1, c1), .. TN10 (a0, b1, c4)
...
TN31 (a0, b4, c0), TN32 (a0, b4, c1), .. TN35 (a0, b4, c4)
...
Với phương pháp này:
- Chỉ xác ñịnh ñược sự phụ thuộc ñơn ñịnh giữa chỉ tiêu ñánh giá và các yếu tố ảnh
hưởng một cách riêng biệt, do ñó không thể kết luận ñược mức ñộ ảnh hưởng của từng
yếu tố trong mối tác ñộng qua lại giữa chúng, không thể tìm kiếm phương án phối hợp
tối ưu của các yếu tố ảnh hưởng.
- Khi các yếu tố ảnh hưởng tăng lên thì khối lượng thí nghiệm tăng lên gấp bội.
- Không thấy ñược hướng chuyển dịch khi tìm các ñiều kiện tối ưu của quá trình.
7.2. Bố trí thí nghiệm theo phương pháp quy hoạch thực nghiệm
Sự ra ñời của lý thuyết quy hoạch thực nghiệm ñã mang lại những ưu ñiểm rõ rệt và
nó ñược ứng dụng rộng rãi trong nghiên cứu khoa học. Thực tế cho thấy phương pháp
này mang lại những ưu ñiểm sau:
- Giảm ñáng kể số lượng thí nghiệm cần thiết
- Giảm thời gian tiến hành thí nghiệm và chi phí phương tiện vật chất
- Hàm lượng thông tin nhiều hơn rõ rệt nhờ ñánh giá ñược vai trò của các tác
ñộng qua lại giữa các yếu tố và ảnh hưởng của chúng ñến hàm mục tiêu
- Nhận ñược mô hình toán học thực nghiệm, ñánh giá ñược sai số thí nghiệm, cho
phép xét ảnh hưởng của các thông số với mức ñộ tin cậy xác ñịnh.
- Cho phép xác ñịnh ñiều kiện tối ưu ña yếu tố của ñối tượng nghiên cứu một
cách khá chính xác bằng các công cụ toán học thay cách giải gần ñúng, tìm tối
ưu cục bộ như ở các thí nghiệm bố trí theo phương pháp cổ ñiển.
38
Các bước cơ bản trong quy hoạch thực nghiệm.
* Bước 1: Chọn thông số nghiên cứu
Trên cơ sở mục ñích nghiên cứu ta phải ñi xác ñịnh hàm mục tiêu và các yếu tố
ảnh hưởng hay nói cách khác là phải xác ñịnh ñược thông số vào và thông số ra của
quá trình nghiên cứu.
Thông số vào là các yếu tố tác ñộng ñến quá trình nghiên cứu dù ít hay nhiều
ñều làm thay ñổi giá trị của hàm mục tiêu. Tuy nhiên khi chọn thông số nào ñể nghiên
cứu thì chúng ta phải lựa chọn những yếu tố ảnh hưởng chính, loại bỏ những yếu tố
không cần thiết nhằm ñảm bảo tính khả thi và tính hiệu quả của thực nghiệm.
Thông số ñầu ra của quá trình nghiên cứu thường là các chỉ tiêu về kinh tế hoặc
là về kỹ thuật.
* Bước 2: Xác ñịnh miền thí nghiệm
Miền thí nghiệm là khu vực trong ñó thông số vào biến thiên. Người ta xác ñịnh
miền thí nghiệm dựa vào:
- cơ sở lý thuyết
- tham khảo các công trình nghiên cứu ñã công bố
- làm thí nghiệm thăm dò
Tùy thuộc vào kỹ thuật mà mình có trong tay cũng như ñiều kiện thí nghiệm mà
ta chỉ tập trung vào một vùng mà chúng ta quan tâm.
* Bước 3: Bố trí thí nghiệm
Có nhiều kiểu bố trí thí nghiệm khác nhau tùy theo mục ñích và nội dung nghiên cứu
7.3. Một số phương pháp quy hoạch thực nghiệm
7.3.1. Thực nghiệm yếu tố toàn phần
Là những thực nghiệm mà mọi tổ hợp của các mức yếu tố ñều ñược thực hiện ñể
nghiên cứu. Ví dụ có k yếu tố, mỗi yếu tố có n mức thì số thí nghiệm phải thực hiện là:
N = nk. Nếu các thí nghiệm chỉ thực hiện ở hai mức thì N=2k. Hai mức thường là hai
giá trị biên của các yếu tố cần khảo sát.
Quá trình nghiên cứu
Thông số vào (Yếu tố ñầu vào hay yếu tố ảnh
hưởng) Ký hiệu: X , X , …X
Thông số ra (Yếu tố ñầu ra hay hàm
mục tiêu) Ký hiệu: Y , Y , …Y
39
- Nếu các ñiểm chọn làm thí nghiệm có một tâm ñối xứng ta có phương án cấu trúc có tâm.
- ðể việc tính toán, ñánh giá, so sánh mức ñộ ảnh hưởng của các yếu tố ñược thực hiện
thuận lợi người ta chuyển từ hệ trục tự nhiên sang hệ trục không thứ nguyên (mã hóa).
Các yếu tố vào ñược ký hiệu là Zj hay Uj (j ÷k).
Trong hệ mã hóa các yếu tố ñược ký hiệu là Xj.: j
jjj U
UUX
∆−
=0
, 2
minmax0 jjj
UUU
+= ,
2
minmaxjj
j
UUU
−=∆
Umin U0 Umax (Biến thực)
∆U
-1 0 +1 X (Biến mã)
Dù biến thực biến thiên trong miền thí nghiệm có giá trị bao nhiêu ñi chăng nữa
thì khi chuyển từ biến thực qua biến mã tất cả các yếu tố ảnh hưởng ñều có dải biến
thiên là [-1, +1].
Quy hoạch bậc 1
* Ma tr ận thí nghiệm N=nk ứng với phương trình hồi quy tuyến tính dạng
kk xbxbxbby ++++= ...22110
)
Ta sẽ bố trí thí nghiệm theo nguyên tắc như sau: Bố trí thí nghiệm theo thứ tự từ
1 ñến N. Các yếu tố ảnh hưởng lần lượt từ trái qua phải là U1,U2,…Uk.
Khi ñó: ứng với U1 từ trên xuống dưới cứ 20 mức dưới tiếp ñến 20 mức trên
ứng với U2 từ trên xuống dưới cứ 21 mức dưới tiếp ñến 21 mức trên
ứng với Uk từ trên xuống dưới cứ 2k-1 mức dưới tiếp ñến 2k-1 mức trên
Ví dụ: Ma trận thí nghiệm 23
N U1 U2 U3 X0 X1 X2 X3 Y
1 Umin 1 Umin 2 Umin 3 1 -1 -1 -1
2 Umax1 Umin 2 Umin 3 1 1 -1 -1
3 Umin 1 Umax 2 Umin 3 1 -1 1 -1
40
4 Umax1 Umax 2 Umin 3 1 1 1 -1
5 Umin 1 Umin 2 Umax 3 1 -1 -1 1
6 Umax1 Umin 2 Umax 3 1 1 -1 1
7 Umin 1 Umax 2 Umax 3 1 -1 1 1
8 Umax1 Umax 2 Umax 3 1 1 1 1
Các hệ số của phương trình hồi quy ñược tính như sau: j= 0÷k
N
YXb
N
iiij
j
∑== 1
* Ma tr ận thí nghiệm N=nk ứng với phương trình hồi quy tuyến tính dạng
( ) ( ) kkkkkkkk xxbxxbxxbxxbxbxbxbby 11113113211222110 ........ −−++++++++++=)
Ta sẽ bố trí thí nghiệm theo nguyên tắc như sau: Bố trí thí nghiệm theo thứ tự từ
1 ñến N. Các yếu tố ảnh hưởng lần lượt từ trái qua phải là U1,U2,…Uk.
Khi ñó: ứng với U1 từ trên xuống dưới cứ 20 mức dưới tiếp ñến 20 mức trên
ứng với U2 từ trên xuống dưới cứ 21 mức dưới tiếp ñến 21 mức trên
ứng với Uk từ trên xuống dưới cứ 2k-1 mức dưới tiếp ñến 2k-1 mức trên
Ví dụ: Ma trận thí nghiệm 23
N U 1 U2 U3 X0 X1 X2 X3 X1X2 X1X3 X2X3 Y
1 Umin 1 Umin 2 Umin 3 1 -1 -1 -1 1 1 1
2 Umax1 Umin 2 Umin 3 1 1 -1 -1 -1 -1 1
3 Umin 1 Umax 2 Umin 3 1 -1 1 -1 -1 1 -1
4 Umax1 Umax 2 Umin 3 1 1 1 -1 1 -1 -1
5 Umin 1 Umin 2 Umax 3 1 -1 -1 1 1 -1 -1
6 Umax1 Umin 2 Umax 3 1 1 -1 1 -1 1 -1
7 Umin 1 Umax 2 Umax 3 1 -1 1 1 -1 -1 1
8 Umax1 Umax 2 Umax 3 1 1 1 1 1 1 1
Các hệ số của phương trình hồi quy ñược tính như sau: j= 0÷k
N
YXb
N
iiij
j
∑== 1
( )N
YXXb
N
iiij
j
∑== 1
1
1 ( )
N
YXXb
N
iiij
j
∑== 1
2
2
41
Sau khi thiết lập ñược phương trình hồi quy. Chúng ta phải tiến hành kiểm ñịnh ý nghĩa của
các hệ số và kiểm ñịnh sự tương thích của mô hình. ðể kiểm ñịnh người ta có thể lặp lại một
số thí nghiệm ở tâm phương án (N0 ≥ 3) hoặc bố trí các thí nghiệm song song. Các thí nghiệm
này ñược tiến hành ñồng thời với các thí nghiệm chính ñể thu số liệu. Sau khi hoàn tất chúng
ta chỉ việc xử lý các số liệu ñó ñể rút ra kết luận.
* Lặp lại thí nghiệm ở tâm phương án N0 ≥ 3. Thường chỉ làm 3 thí nghiệm
N0 U1 U 2 U 3 Y0
1 U 01 U 02 U 03 Y01
2 U 01 U 02 U 03 Y02
3 U 01 U 02 U 03 Y03
Tính toán:
3
3
1
0
10
0
∑∑== == u
ou
N
u
ou
u
Y
N
YY
( ) ( )131
3
1
200
0
1
200
2
0
−
−=
−
−=
∑∑== u
uu
N
uuu
th
YY
N
YYS
N
SS th
bj
2
=
Ki ểm ñịnh:
- Kiểm ñịnh ý nghĩa của các hệ số (Tiêu chuẩn Student)
Ta ñi tính bj
j
j S
bt = . So sánh tj với t (α/2, N0-1). Thường tra t(0,025; 2) vì N0=3
Nếu tj ≤ t (α/2, N0-1): Kết luận: Hệ số bj bị loại khỏi phương trình hồi quy, yếu tố Xj
ảnh hưởng không ñáng kể tới Y.
Nếu tj > t (α/2, N0-1): Kết luận: Hệ số bj có ý nghĩa, yếu tố Xj ảnh hưởng ñáng kể tới Y.
- Kiểm ñịnh sự tương thích của phương trình (Tiêu chuẩn Fisher)
Trước tiên ta ñi tính
( )
2
2
1
2
2
th
du
N
iii
du
S
SF
lN
YYS
=
−
−=∑
=
)
Sau ñó so sánh F với F(α, N-l, N0-1). Trong ñó l là số hệ số có ý nghĩa sau khi
ñã kiểm ñịnh Student.
Nếu F ≥≥≥≥ F(αααα, N-l, N0-1): Phương trình không tương thích với thực nghiệm hay nói
cách khác mô hình hồi quy không phù hợp. Cần phải chọn mô hình khác phù hợp hơn.
42
Nếu F < F(αααα, N-l, N0-1): Phương trình tương thích với thực nghiệm hay nói cách khác
mô hình hồi quy là phù hợp.
Khi ñó chúng ta sẽ có kết luận và tiến hành bước tiếp theo là tối ưu hóa.
* Bố trí các thí nghiệm song song
Ví dụ: Ma trận thí nghiệm 23
N U 1 U 2 U 3 X0 X1 X2 X3 Y iY 2ˆ
iS
1 U min U min 2 U min 3 1 -1 -1 -1 Y11, Y12, ..Y1m 1Y 2
1S
2 Umax1 U min 2 U min 3 1 1 -1 -1 Y21, Y22, ..Y2m 2Y
22S
3 U min U max 2 U min 3 1 -1 1 -1
4 U max1 U max 2 U min 3 1 1 1 -1
5 U min1 U min 2 U max 3 1 -1 -1 1
6 U max1 U min 2 U max 3 1 1 -1 1
7 U min U max 2 U max 3 1 -1 1 1
8 U max1 U max 2 U max 3 1 1 1 1 Y81, Y82, ..Y8m 8Y 2
8S
Tính toaùn:
( )1
ˆ 1
2
2
1
−
−=
=
∑
∑
=
=
m
YYS
m
YY
m
uiiu
i
m
uiu
i
i=1÷N N
YXb
N
i
iij
j
∑== 1
∑=
=N
iiS
SG
1
2
2max
ˆ
ˆ
N
SS
N
ii
th
∑== 1
2
2
ˆˆ
mN
SS th
bj ∗=
22
ˆˆ
mN
SS th
bj ∗=
2ˆˆ
Sau ñó so sánh giá trị tính ñược với giá trị tra bảng (Tiêu chuẩn Cochran) G (1-α, m-
1,N). Nếu G < G (1-α, m-1,N) phương sai ñồng nhất.
- Kiểm ñịnh ý nghĩa của các hệ số (Tiêu chuẩn Student)
Ta ñi tính bj
j
jS
bt
ˆ= . So sánh tj với t [α/2, N(m-1)].
Nếu tj ≤ t [α/2, N(m-1)]: Kết luận: Hệ số bj bị loại khỏi phương trình hồi quy, yếu tố Xj
ảnh hưởng không ñáng kể tới Y.
43
Nếu tj > t [α/2, N(m-1)].: Kết luận: Hệ số bj có ý nghĩa, yếu tố Xj ảnh hưởng ñáng kể tới Y.
- Kiểm ñịnh sự tương thích của phương trình (Tiêu chuẩn Fisher)
Trước tiên ta ñi tính
( )
2
2
1
2
2
ˆth
tt
N
iii
tt
S
SF
lN
YYmS
=
−
−∗=
∑=
)
Sau ñó so sánh F với F [(α, N-l, N(m-1)]. Trong ñó l là số hệ số có ý nghĩa sau khi ñã
kiểm ñịnh Student.
Nếu F ≥≥≥≥ F[(αααα, N-l, N(m-1)]:Phương trình không tương thích với thực nghiệm hay nói
cách khác mô hình hồi quy không phù hợp. Cần phải chọn mô hình khác phù hợp hơn.
Nếu F < F[(αααα, N-l, N(m-1)]:Phương trình tương thích với thực nghiệm hay nói cách
khác mô hình hồi quy là phù hợp.
Khi ñó chúng ta sẽ có kết luận và tiến hành bước tiếp theo là tối ưu hóa.
* Tối ưu hóa thực nghiệm theo ñường dốc nhất
Sau khi tìm ñược phương trình hồi quy, kiểm ñịnh hệ số và mô hình, nếu mô hình bậc
nhất là phù hợp ta ñi tiến hành tối ưu hóa theo phương pháp ñường dốc nhất.
Chọn bước chuyển ñộng (bước nhảy) cho một yếu tố và bước chuyển ñộng của
các yếu tố còn lại ñược tính theo công thức 11
1 ∆∆
=b
b jjj δδ (giả sử ta chọn bước chuyển
ñộng của yếu tố 1). Việc chọn bước chuyển ñộng tùy thuộc vào kinh nghiệm cũng như
hiểu biết về lĩnh vực mình ñang làm của người nghiên cứu. Vì nếu chọn bước nhảy quá
nhỏ thì sẽ mất nhiều thời gian làm thí nghiệm, còn nếu chọn bước nhảy quá lớn thì sẽ
bỏ sót ñiểm tối ưu.
Bảng kết quả thực nghiệm ở phần tối ưu
Tên U1 U2 U3 Y
Mức cơ sở
Hệ số bj
Khoảng biến thiên
44
∆j
bj∆j
δj
Bước làm tròn
Thí nghiệm thứ N+1
Thí nghiệm thứ N+2
…
Thí nghiệm thứ N+n
Chúng ta sẽ tiến hành thí nghiệm cho tới khi gặp ñiểm uốn. Và ñó sẽ chính là ñiểm tối ưu.
Nếu mô hình bậc nhất không phù hợp chọn quy hoạch bậc 2: có thể chọn các phương án sau:
Quy hoạch bậc 2
Central Composite Designs
Box-Behnken Designs
7.2.2. Thực nghiệm yếu tố từng phần (tài liệu tham khảo 1, trang 36 -39).