CHUYỂN DẠNG DỮ LIỆU TRANSFORMATIONS OF DATA Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các dữ liệu có phân bố chuẩn.. TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT Các
Trang 1Chương 4 KIỂM ĐỊNH GIẢ THUYẾT
I CHUYỂN DẠNG DỮ LIỆU (TRANSFORMATIONS OF DATA)
Trong các thí nghiệm sinh học, không phải lúc nào ta cũng thu thập được các
dữ liệu có phân bố chuẩn Nếu các dữ liệu thu được không có phân bố chuẩn thì trước khi xử lý và phân tích, các dữ liệu này cần phải được chuyển dạng Bộ dữ liệu sau khi chuyển dạng sẽ có phân bố chuẩn, phương sai bền vững hơn nhưng bản chất không đổi Sau khi xử lý thống kê và thu được kết quả từ bộ dữ liệu mới, các kết quả cần phải được chuyển dạng ngược trở lại theo thang đo ban đầu
Có nhiều phương pháp khác nhau để chuyển dạng dữ liệu Trong giáo trình này ta chỉ tập trung vào hai phương pháp chuyển dạng căn bậc hai (square root) và chuyển dạng theo hàm logarit
Các thí dụ dưới đây sẽ cho ta thấy làm cách nào để chọn được cách chuyển dạng tối ưu nhất
Thí dụ 1 Số lượng tế bào máu quan sát được trong 400 ô của buồng đếm hồng cầu
Calc > Make Patterned Data > Arbitrary Set of Numbers
Store patterned data in: C1 Arbitrary set of numbers: 1 (số tế bào máu) Numbers of times to list each value: 20 (tần số) Number of times to list the sequence: 1
Lặp lại
Calc > Make Patterned Data > Arbitrary Set of Numbers
Store patterned data in: C2 Arbitrary set of numbers: 2 (số tế bào máu) Numbers of times to list each value: 43 (tần số) Number of times to list the sequence: 1
Tiến hành tương tự với các giá trị còn lại từ 3 đến 12
Kết quả ta có được 400 giá trị quan sát được lưu trong 12 cột từ C1 đến C12
Nhập toàn bộ các dữ liệu trong 12 cột vào 1 cột (C13)
Đặt tên cột này là Count
Data > Stack >/Column
Stack the following columns: C1 – C12 Store stacked data in:
Column of current worksheet: C13 OK
Data > Display data
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 2
Cách 2 Gõ lệnh vào Session Window
Editor > Enable commands
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: Count
Variable N Mean SE Mean StDev Minimum Q1 Median Count 400 4.680 0.106 2.114 1.000 3.000 4.000 Variable Q3 Maximum
Count 6.000 12.000 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 312.0 9.6
7.2 4.8
2.4
Median Mean
5.0 4.8
4.6 4.4
4.2 4.0
A nderson-D arling N orm ality T est
M aximum 12.0000 95% C onfidence Interv al for M ean 4.4722
4.94
4.8878 95% C onfidence I nterv al for M edian 4.0000 5.0000 95% C onfidence Interv al for S tD ev 1.9769 2.2716
6 3
0
0.999
0.99
0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05
A D 4.938 P-Value
Probability Plot of Counts
Dữ liệu có phân bố lệch dương
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 4Chuyển dạng căn bậc 2
Minitab output
Chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) thành dạng căn bậc 2 nhờ công
cụ Calculator Lưu kết quả chuyển dạng trong cột C2 và đặt tên cho cột này là SqrtCnt
Calc > Calculator
Mô tả dữ liệu trong cột SqrtCnt
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: SqrtCnt
Variable N Mean SE Mean StDev Minimum Q1 SqrtCnt 400 2.1040 0.0252 0.5040 1.0000 1.7321 Variable Median Q3 Maximum
SqrtCnt 2.0000 2.4495 3.4641
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 53.2 2.8
2.4 2.0
1.6 1.2
Median Mean
2.25 2.20
2.15 2.10
2.05 2.00
A nderson-D arling N orm ality T est
M aximum 3.4641 95% C onfidence Interv al for M ean 2.0544
4.50
2.1535 95% C onfidence I nterv al for M edian 2.0000 2.2361 95% C onfidence Interv al for S tD ev 0.4713 0.5415
3.0 2.5
2.0 1.5
1.0 0.5
0.999
0.99
0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05
A D 4.497 P-Value
Probability Plot for Square Root Count
Mặc dù kiểm tra Anderson-Darling cho thấy phân bố này khác biệt có ý nghĩa đối với phân bố chuẩn (P < 0.05) nhưng biểu đồ xác suất có dạng tuyến tính và
histogram có đối xứng Chuyển dạng thành công
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 6Chuyển dạng Log
Dùng công cụ Calculator để chuyển toàn bộ dữ liệu gốc trong cột C1 (‘Counts’) sang dạng Log và lưu kết quả trong cột C3 với tên là LogCount Có thể chọn hàm Natural log trong Functions hoặc gỏ nhập trực tiếp LOGE(‘Counts’) vào ô Expression
Minitab output
Calc > Calculator
Mô tả dữ liệu trong cột LogCnt
Stat > Basic Statistics > Display Descriptive Statistics Descriptive Statistics: LogCount
Variable N Mean SE Mean StDev Minimum Q1 LogCount 400 1.4234 0.0263 0.5269 0.000000000 1.0986 Variable Median Q3 Maximum
LogCount 1.3863 1.7918 2.4849 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 72.4 2.0
1.6 1.2
0.8 0.4
0.0
Median Mean
1.60 1.55
1.50 1.45
M aximum 2.4849 95% C onfidence Interv al for M ean 1.3716
9.39
1.4752 95% C onfidence I nterv al for M edian 1.3863 1.6094 95% C onfidence Interv al for S tD ev 0.4927 0.5662
2.0 1.5
1.0 0.5
0.0
0.999
0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01
0.001
Mean
<0.005
1.423 StDev 0.5269
A D 9.388 P-Value
Probability Plot of LogCount
Chuyển dạng không phù hợp (quá mạnh) Biên trái (Left hand tail) có số lạ (outlier)
Thí dụ 2 Số nang trứng trong các mẫu phân của 100 con dê
Dữ liệu có phân bố lệch dương (trang 30) Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 8Chuyển dạng căn bậc hai
Calc > Calculator
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: SqrtOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3 Maximum SqrtOocy 100 71.17 2.21 22.14 34.64 53.85 67.08 81.70 146.29
140 120
100 80
60 40
Median
Mean
75.0 72.5
70.0 67.5
M aximum 146.287 95% C onfidence Interv al for M ean 66.782
1.30
75.567 95% C onfidence I nterv al for M edian 63.624 73.659 95% C onfidence Interv al for S tD ev 19.436 25.716
60 40 20 0
0.999
0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01
0.001
Mean
<0.005
71.17 StDev 22.14
A D 1.299 P-Value
Probability Plot of SqrtOocy
Chuyển dạng chưa đủ mạnh - dữ liệu vẫn còn phân bố lệch dương
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 9Chuyển dạng Log
Calc > Calculator
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: LogOocy
Variable N Mean SE Mean StDev Minimum Q1 Median Q3 LogOocy 100 8.4385 0.0607 0.6073 7.0901 7.9725 8.4118 8.8061 Variable Maximum
LogOocy 9.9711
9.6 9.0
8.4 7.8
7.2
Median Mean
8.60 8.55
8.50 8.45
8.40 8.35
M aximum 9.9711 95% C onfidence Interv al for M ean 8.3180
0.24
8.5590 95% C onfidence I nterv al for M edian 8.3059 8.5989 95% C onfidence Interv al for S tD ev 0.5332 0.7055
8 7
6
0.999
0.99 0.95 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.05 0.01
0.001
Mean
0.757
8.438 StDev 0.6073
A D 0.244 P-Value
Probability Plot of LogOocy
Normal
Chuyển dạng thành công – Phân bố đối xứng
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 10II TỔNG QUAN VỀ KIỂM ĐỊNH GIẢ THUYẾT
Các đặc trưng của mẫu ngoài việc dùng để ước lượng các đặc trưng của tổng thể còn được dùng để đánh giá xem một giả thuyết nào đó của tổng thể là đúng hay
sai Việc tìm ra kết luận để bác bỏ hay chấp nhận một giả thuyết được gọi là kiểm định giả thuyết (hypothesis testing)
Giả thuyết đưa ra kiểm định được ký hiệu là H0 và được gọi là giả thuyết không (null hypothesis) Đây là giả thuyết mà ta nghi ngờ và muốn bác bỏ Ngoài
ra ta còn phải định rõ một giả thuyết nữa gọi là giả thuyết đối (alternate hypothesis), ký hiệu là H1 H1 sẽ được chấp nhận khi H0 bị bác bỏ
Câu hỏi đặt ra là: Chúng ta bác bỏ hay chấp nhận một giả thuyết bằng cách nào? Các nhà thống kê đều nhất trí nguyên lý sau:
“Nếu một biến cố có xác suất rất nhỏ thì trong một phép thử biến cố đó sẽ
không xảy ra”
Như vậy chúng ta sẽ quyết định bác bỏ giả thuyết H0 nếu xác suất xuất hiện của một sự kiện quan sát được là “nhỏ”
Thí dụ 1: Thời gian mang thai của bò có phân bố chuẩn, x ~ N(285, 102) Ở một giống bò mới người ta xác định được thời gian mang thai là 295 ngày Liệu giá trị quan sát này có phù hợp với trung bình tổng thể (nghĩa là thời gian mang thai của giống bò mới trung bình cũng là 285 ngày) hay hoàn toàn khác?
Cách giải:
Giả sử rằng trung bình tổng thể của giống bò mới là 285 ngày
Chúng ta cần tính xác suất của giá trị trung bình >295 ngày hoặc <275 ngày (nghĩa là m 10 ngày)
Xác suất của biến cố này là:
Trang 11Thí dụ 2: Giả sử rằng thời gian mang thai quan sát được ở giống bò mới là 305
Đây là một xác suất nhỏ (1/20) vì vậy chúng ta bác bỏ giả thuyết trung bình
tổng thể là m = 285 ngày và ta có thể kết luận rằng trung bình tổng thể lớn hơn có ý
nghĩa so với 285 ngày
Khi phải lựa chọn giữa hai giả thuyết H0 và H1, ta có thể phạm một trong hai loại sai lầm:
(1) Bác bỏ H0 khi thực ra H0 là đúng sai lầm loại I (2) Chấp nhận H0 khi thực ra H0 là sai sai lầm loại II
Có 4 khả năng có thể xảy ra thể hiện trong bảng dưới đây:
Kết luận
H0 đúng Kết luận đúng Sai lầm loại I
H0 sai Sai lầm loại II Kết luận đúng
III KIỂM ĐỊNH 1 MẪU (KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH)
1 Kiểm định Z
Thí dụ 1: Tiếp tục với thí dụ về thời gian mang thai của bò (có phân bố chuẩn,
trung bình là 285 ngày, độ lệch chuẩn là 10 ngày), nghĩa là x ~ N(285, 102)
Ở một giống bò mới người ta ghi nhận được thời gian mang thai của 6 con bò:
307 293 293 283 294 297 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 12Giả sử rằng độ lệch chuẩn trong trường hợp này cũng là 10 ngày Như vậy có bằng chứng nào cho thấy trung bình thời gian mang thai của giống bò mới là khác với 285 ngày?
Cách giải:
Giả định = 10 ngày dùng z-test
Giả thuyết không: H0 : m = 285 ngày
Giả thuyết đối: H1 : m 285 ngày
với m = trung bình thời gian mang thai của giống bò mới
z
se x n
Nếu H0 là đúng, chỉ có 2% cơ hội để nhận được giá trị này của x Do đó chúng ta
bác bỏ giả thuyết H 0
Kết luận: Thời gian mang thai của giống bò mới có giá trị trung bình lớn hơn có ý
nghĩa so với 285 ngày
Tổng quát:
P < 0.05 (ít hơn 1/20) bác bỏ H0
P > 0.05 (lớn hơn 1/20) chấp nhận H0Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 13Khi H0 được chấp nhận cũng chưa có nghĩa là H0 hoàn toàn đúng; cỡ mẫu có thể quá nhỏ nên không thể phát hiện sự sai khác Ngay cả khi H0 bị bác bỏ, vẫn có khả
năng xảy ra sai lầm Nếu ta chọn giá trị 5% như trên thì ta vẫn có 5% sai lầm khi
H 0 đúng
Thí dụ 2: Thử nghiệm thuốc gây mê trên chó Người ta muốn kiểm tra xem mức độ
epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới có thay đổi hay không so với khi dùng phương pháp gây mê trước đây Phương pháp gây
mê trước đây đã cho kết quả là mức trung bình = 0.4 ng.ml-1 và độ lệch chuẩn là 0.2 ng.ml-1
Các bước tiến hành
Bước 1 Nhập liệu
Đặt tên cột C1 là ‘Hormone’ Nhập dữ liệu vào cột này:
0.64 0.74 0.48 0.66 0.34 0.70
Bước 2 Mô tả dữ liệu
Stat > Basic Statistics > Descriptive Statistics …/Variable ‘Hormone’ Descriptive Statistics: Hormone
Variable N Mean SE Mean StDev Minimum Median Maximum Hormone 6 0.5933 0.0623 0.1527 0.3400 0.6500 0.7400
Bước 3 Kiểm tra tính phân bố chuẩn
Graph > Boxplot …/Simple
0.8 0.7
0.6 0.5
0.4 0.3
Hormone
Do mẫu quá nhỏ nên khó kiểm tra Chỉ xác định được là không có số liệu lạ (outlier)
Bước 4 Kiểm định
Stat > Basic Statistics > 1-sample Z…/
Samples in Columns: Hormone Standard deviation: 0.2
Test mean: 0.4
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 14
One-Sample Z: Hormone
Test of mu = 0.4 vs not = 0.4
The assumed standard deviation = 0.2
Variable N Mean StDev SE Mean
Chúng ta sẽ viết lại như sau:
Giả thuyết không: H0 : m = 0.4 ng.ml-1Giả thuyết đối : H1 : m ≠ 0.4 ng.ml-1
Trong đó m = trung bình mức epinephrine huyết thanh trong máu sau khi dùng phương pháp gây mê mới
Bước 5 Kết luận
Mức epinephrine huyết thanh trong máu tăng có ý nghĩa sau khi dùng phương pháp
gây mê mới
2 Kiểm định t
Thí dụ 1 Cũng dùng thí dụ 1 trong phần kiểm định Z nhưng bây giờ ta giả định
rằng sự biến thiên của thời gian mang thai của giống bò mới rất khác so với giống
cũ Kết quả phân tích sẽ thay đổi như thế nào?
Cách giải
Không thể giả định = 10 ngày dùng t-test
Giả thuyết không: H0 : m = 285 ngày
Giả thuyết đối: H1 : m 285 ngày
nếu giả thuyết H0 là đúng thì t = 3.01 thuộc phân bố t với độ tự do = 5
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 157.5 5.0
2.5 0.0
-2.5 -5.0
tự do tăng lên, t phân bố chuẩn
Giá trị P của t-test là:
Stat > Basic Statistics > 1-sample t…/
Samples in Columns: Hormone Test mean: 0.4
One-Sample T: Hormone
Test of mu = 0.4 vs not = 0.4 Variable N Mean StDev SE Mean Hormone 6 0.593333 0.152665 0.062325 Variable 95% CI T P Hormone (0.433121, 0.753546) 3.10 0.027
3 Khoảng tin cậy của trung bình tổng thể (m)
Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một giá trị trung bình xác định mCâu hỏi tiếp theo là khoảng giá trị nào của m phù hợp với trung bình mẫu x?
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 16Công thức tính khoảng tin cậy 95% (95% CI = 95% confidence interval)
Thời gian mang thai của bò được dùng làm thí dụ minh hoạ Nhắc lại chúng có phân
bố chuẩn N(285, 102) Sáu giá trị quan sát (n = 6) thu được trên một giống bò mới, giá trị trung bình mẫu là x = 294.5 ngày
Trường hợp 1 Nếu ta gỉả sử phương sai mẫu không khác so với phương sai
tổng thể, ta sẽ có = 10 ngày và xác định khoảng tin cậy cho kiểm định z
Trường hợp 2 Nếu ta không thể giả sử rằngphương sai mẫu không đổi so với
phương sai tổng thể, ta sẽ phải ước lượng bằng độ lệch chuẩn mẫu s và dùng khoảng tin cậy cho kiểm định t
- khoảng tin cậy trong kiểm định t thường lớn hơn trong kiểm định z
- ta cũng có thể tính khoảng tin cậy 99% và 99.9%
- Khi dùng Minitab để kiểm định z hoặc t, kết quả xuất bao gồm cả 95% CI
IV KIỂM ĐỊNH 2 MẪU (SO SÁNH TRUNG BÌNH HAI MẪU)
Trong các thí nghiệm sinh học nói chung, khi có từ hai nhân tố hoặc hai nhóm mẫu trở lên thì sau khi xác định được giá trị trung bình và kiểm tra được độ tin cậy của chúng, người ta cần phải khẳng định sự sai khác của tất cả các nhân tố thông qua các phương pháp kiểm tra thống kê sinh học Mục đích nhằm khẳng định giữa các
số trung bình mẫu đó có sự sai khác nhau hay không và nếu có thì sự sai khác đó có
ý nghĩa thống kê ở mức độ bao nhiêu
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 171 Hai mẫu độc lập, phương sai bằng nhau
Thí dụ: So sánh trọng lượng của hai giống bò Giống 1 khảo sát 12 con, giống 2
khảo sát 15 con Kế quả ghi nhận được như trong bảng 4.1
Bảng 4.1 Trọng lượng (kg) của hai giống bò (Peter, 2001)
Giống thứ nhất: 187.6 180.3 198.6 190.7 196.3 203.8
190.2 201.0 194.7 221.1 186.7 203.1
Giống thứ hai: 148.1 146.2 152.8 135.3 151.2 146.3
163.5 146.6 162.4 140.2 159.4 181.8165.1 165.0 141.6
Dữ liệu thống kê mô tả cho thấy:
Giống 1 Giống 2 Trung bình mẫu (kg)
Độ lệch chuẩn mẫu (kg)
196.2 10.62
153.7 12.3 Liệu có sự sai khác về trọng lượng giữa hai giống bò nầy hay không?
Số liệu thu thập được có dạng:
trong trường hợp trên n1 = 12 và n2 = 15
Các số liệu có thể được mô hình hóa dưới dạng:
[ Dữ liệu quan sát ] = [ Trung bình mẫu ] + [ Sai số ngẫu nhiên ]
xij = mi + ij
i = 1, 2 (nhóm mẫu) j = 1, 2, , ni (số lần lặp lại của mỗi mẫu)
Ở thí dụ trên:
m1 = trung bình trọng lượng của bò (kg) thuộc Giống 1
m2 = trung bình trọng lượng của bò (kg) thuộc Giống 2 Trong trường hợp này người ta thường dùng phương pháp kiểm tra t gộp để so sánh hai trung bình mẫu Phương pháp này đòi hỏi bộ số liệu thu được từ quần thể phải thỏa các yêu cầu:
(1) Phương sai hai mẫu phải hoàn toàn độc lập, không ràng buộc lẫn nhau (2) Dữ liệu có phân bố chuẩn, xij ~N(m,2), cở mẫu nhỏ (n < 30)
(3) Phương sai của hai nhóm mẫu và tổng thể phải bằng hoặc gần bằng nhau
Có thể so sánh hai phương sai mẫu bằng hai cách:
Cách 1: Dựa vào chênh lệch giữa hai độ lệch chuẩn
độ lệch chuẩn lớn nhất
độ lệch chuẩn nhỏ nhất <1.5 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 18trong thí dụ trên: s2/s1 = 12.3/10.62 = 1.16 cho thấy phương sai của hai mẫu gần bằng nhau
Cách 2: Tiến hành kiểm tra F (F test)
Stat > Basic Statistic >/ 2 Variances
Tuỳ chọn:
Samples in one column
Samples in different column
Sumarized Data OK Kết quả:
2
1
22 20 18 16 14 12
10 8
6
Test Statistic 0.74
F-Test
Test for Equal Variances
Vì P > 0.05 nên có thể xem như phương sai của hai mẫu bằng nhau
Giả định trên về sự phân bố của hai mẫu được thể hiện trong đồ thị dưới đây: hai phân bố chỉ khác nhau về vị trí (do trung bình mẫu qui định), còn lại đều giống hệt nhau
X
Giả thiết:
H0 : m1 = m2 H1 : m1 m2 Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 192 1
2 2 2 2 1 1
s n s n
s p sp là độ lệch chuẩn gộp (p = pool)
2 )
1 ( ) 1 ( 1 2 1 2
x x t
Nhận xét: Kết quả cho thấy
P (hai đuôi) < 0.05 giả thiết H0 bị bác bỏ sự sai khác của hai trung bình mẫu là
có ý nghĩa về mặt thống kê với độ tin cậy 95% giống thứ nhất có trọng lượng lớn hơn giống thứ hai
Khoảng tin cậy (Confidence Interval) cho sự sai khác giữa hai trung bình mẫu
Ước lượng tốt nhất cho hai trung bình tổng thể m1và m2 là hai trung bình mẫu x1 và
Trang 20Trong thí dụ trên hiệu giữa hai trung bình mẫu là x1x2 42 5kgcho thấy nếu tính trung bình thì giống 1 nặng hơn giống 2 là 42.5 kg
Khoảng tin cậy 95% (95% confidence interval = CI) được xác định như sau:
1 (
* 33
134 = 4.489 kg nên:
95% CI = 42.5 kg 2.06 x 4.498 = (33.2 , 51.7) kg
Như vậy có đến 95% cơ hội đúng khi cho rằng sự khác biệt giữa hai trung bình mẫu nằm trong khoảng từ 33.2 kg đến 51.7 kg
Cách tính bằng Minitab: Worksheet: Cattle weights
Bước 1 Kiểm tra sự giống nhau giữa hai độ lệch chuẩn
Stat > Basic Statistics > Display Descriptive Statistics
Descriptive Statistics: Group A, Group B
Variable N Mean StDev Minimum Q1 Median Q3 Maximum Group A 12 196.18 10.62 180.30 188.25 195.50 202.57 221.10 Group B 15 153.70 12.30 135.30 146.20 151.20 163.50 181.80
Độ lệch chuẩn của hai mẫu tương đối giống nhau => có thể giả định 1 = 2 Như vậy có thể dùng phương pháp kiểm tra t gộp
Bước 2 Kiểm tra sự phân bố chuẩn
Graph > Boxplot / Multiple Y’s/Simple
Group B Group A
230 220 210 200 190 180 170 160 150 140
Trọng lượng (kg)
Đồ thị cho thấy cả hai nhóm mẫu A và B đều có phân bố chuẩn
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 21Bước 3 Kiểm định t gộp (pooled t-test)
Stat > Basic Statistics > 2-Sample t /
Sample in different columns Assume equal variances
Two-Sample T-Test and CI: Group A, Group B
Two-sample T for Group A vs Group B
N Mean StDev SE Mean Group A 12 196.2 10.6 3.1
Group B 15 153.7 12.3 3.2 Difference = mu (Group A) - mu (Group B) Estimate for difference: 42.4750
95% CI for difference: (33.2301, 51.7199) T-Test of difference = 0(vs not =):T-Value = 9.46 P-Value = 0.000 DF = 25
Both use Pooled StDev = 11.5901
Bước 4 Nhận xét và kết luận (giống như trên)
2 Hai mẫu độc lập, phương sai không bằng nhau
Trong trường hợp hai mẫu có phương sai không bằng nhau (tỉ lệ giữa hai độ lệch chuẩn > 1.5 hoặc giá trị P của F-test <0.05) thì có hai cách để tiến hành so sánh và kiểm định (1) dùng phương pháp kiểm định t-Satterthwaite, (2) chuyển dạng số liệu
để các phương sai bằng nhau
Thí dụ (Peter, 2001)
Một thí nghiệm về sinh lý động vật được tiến hành nhằm nghiên cứu sự thu nhận nước của hai loài lưỡng thê Cóc và ếch được nhúng chìm trong nước hai giờ Tỉ lệ phần trăm tăng trọng của chúng chúng được ghi nhận trong bảng 4.2
Bảng 4.2 % tăng trọng của cóc và ếch sau 2 giờ nhúng ngập nước
Cóc hay ếch có khả năng thu nhận nước nhiều hơn?
Vì hai nhóm có độ lệch chuẩn rất khác nhau (ếch: 6.10 ; cóc: 9.84): 9.84/6.10 = 1.61
> 1.50 nên không thể dùng phương pháp kiểm tra t gộp
Giả thiết:
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 22( 12 1 22 2
2 1
n s n s
x x t
) / (
) / ( ) / (
2
2 2 2 2 1
2 1 2 1
2 2 2 2 1 2 1
n s
n s n s
17.68
Toad Toad Toad Toad Toad Toad
Frog Frog Frog Frog Frog Frog Frog Frog
Bước 2 Mô tả dữ liệu
Stat > Basic Statistics > Display Descriptive Statistics…/
Variables: %Change
By Variable: Species Descriptive Statistics: %Change
Variable Species N Mean SE Mean StDev Minimum
Categorical variables for grouping: Species
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 23Toad Frog
30 25
20 15
10 5
Two-Sample T-Test and CI: %Change, Species
Two-sample T for %Change
Species N Mean StDev SE Mean
Frog 8 6.46 6.10 2.2
Toad 7 20.58 9.84 3.7
Difference = mu (Frog) - mu (Toad)
Estimate for difference: -14.1191
95% CI for difference: (-23.8430, -4.3952)
T-Test of difference = 0 (vs not =): T-Value = -3.28
P-Value = 0.009 DF = 9
Bước 4 Nhận xét & Kết luận
Qua kết quả phân tích ta thấy P = 0.009 < 0.05 chứng tỏ cóc thu nhận nhiều nước hơn ếch
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 24Cách 2 Chuyển dạng số liệu (chuyển dạng log)
Bước 1 Đặt nhãn cho cột C3 là ‘log cha’ Chuyển toàn bộ số liệu trong cột C1 sang
log cơ số e
Calc > Calculator…/
Store result in variable: ‘log cha’
Functions: Natural log Expression: LOGE( ‘%Change’ )
Row log cha Species Row log cha Species
Toad Toad Toad Toad Toad Toad Toad
Frog Frog Frog Frog Frog Frog Frog Frog
Bước 2 Mô tả dữ liệu
Stat > Basic Statistics > Display Descriptive Statistics…/
Variables: log cha
By Variable: Species
Descriptive Statistics: log cha
Variable Species N Mean SE Mean StDev Minimum log cha Frog 8 1.461 0.351 0.994 -0.163
Toad 7 2.801 0.343 0.907 0.837 Variable Species Q1 Median Q3 Maximum log cha Frog 0.941 1.202 2.463 2.875 Toad 2.650 3.228 3.345 3.346
Phương sai hai mẫu đã xấp xỉ nhau có thể dùng phương pháp kiểm định t gộp
Graph > Boxplot…/ One Y/With Groups Graph Variables: log cha
Categorical variables for grouping: Species
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 25Toad Frog
Two-Sample T-Test and CI: log cha, Species
Two-sample T for log cha Species N Mean StDev SE Mean Frog 8 1.461 0.994 0.35 Toad 7 2.801 0.907 0.34 Difference = mu (Frog) - mu (Toad) Estimate for difference: -1.34023 95% CI for difference: (-2.40782, -0.27264) T-Test of difference = 0 (vs not =):
T-Value = -2.71 P-Value = 0.018 DF = 13 Both use Pooled StDev = 0.9548
Bước 4 Nhận xét & Kết luận
Cũng giống như trên, cóc thu nhận nhiều nước hơn ếch (P = 0.018) Ở thang log sự khác biệt là 2.80 - 1.46 = 1.34 Chuyển dạng ngược lại (chọn Calc > Calculator > Function Exponentiate) e1.34 = 3.81, nghĩa là trung bình cóc tăng trọng gấp 3.81 lần
so với ếch
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 263 Hai mẫu liên hệ – so sánh cặp
Thí dụ (Peter, 2001)
Thí nghiệm được tiến hành ở 15 nông trại nhằm so sánh 2 khẩu phần vỗ béo cho heo: một khẩu phần bình thường (ration A) và một khẩu phần có bổ sung khoáng vi lượng Cu (ration B) Mỗi nông trại bố trí hai chuồng heo giống nhau, hai khẩu phần ăn được phân bố ngẫu nhiên và đồng đều vào hai chuồng Tăng trọng trung bình (lb/ngày) của heo ở mỗi chuồng được ghi nhận trong bảng 4.3 Sự bổ sung Cu trong khẩu phần ăn có ảnh hưởng đến tăng trọng trung bình của lợn hay không?
Bảng 4.3 Tăng trọng trung bình của lợn nuôi bằng hai khẩu phần khác nhau
1.17 1.03 1.23 1.29 1.04
1.15 0.96 1.02 0.95 1.25
1.13 1.20 1.11 1.10 1.30
Trong trường hợp này có một vấn đề quan trọng về việc bố trí thí nghiệm cần được làm rõ Ở mỗi nông trại có hai giá trị trung bình được ghi nhận từ cùng một chuồng Như vậy, thí nghiệm và số liệu ghi nhận được sắp xếp thành cặp Nếu thí nghiệm được bố trí ngẫu nhiên ở 30 nông trại: lợn ở 15 trại được cho ăn khẩu phần
A, ở 15 trại còn lại cho ăn khẩu phần B thì chúng sẽ là các mẫu độc lập như đã xét ở các trường hợp trước
Trong nghiên cứu sinh học, có nhiều thí nghiệm được bố trí theo cặp tương tự như trên Chẳng hạn dữ liệu được thu thập từ hai cá thể con của cùng một lứa đẻ, hai lô đất có các đặc tính giống nhau trong cùng một nông trại, mẫu lá trên cùng một cây được thu thập vào ban ngày và ban đêm
Ở thí dụ trên, nếu tiến hành theo phương pháp so sánh hai mẫu độc lập, chúng
ta sẽ bỏ sót một nguồn biến động quan trọng là nông trại Trong trường hợp này
phương pháp tốt nhất là so sánh cặp, còn gọi là kiểm định t cặp (pair t-test)
Sự sai khác giữa hai khẩu phần ăn là: d = ration B - ration A
Nông trại Sai khác d
Trang 27Công thức tính t :
n s
d t
d t
s n
dfn1111
P = 2*P(T14 > 3.25) = 0.006 Khoảng tin cậy 95% là:
95%CI d t n .sed t .se 0.09 2.145* 0.107 /15 (0.0306, 0.1494)
kết luận rằng sự bổ sung Cu (ration B) làm tăng trọng có ý nghĩa ở mức trung bình
là 0.09 lb/ngày
Cách 2 Kiểm định t cặp bằng Minitab
Bước 1 Nhập dữ liệu vào bảng tính ở hai cột: cột C1 ‘Ration A’, cột C2
‘Ration B’
Bước 2 Stat > Basic Statistics > Paired t…
Bước 3 Khai báo:
Samples in Columns:
First sample: ‘Ration B’
Second sample: ‘Ration A’
Graphs…: check Boxplot of differences => OK Kết quả xuất:
Paired T-Test and CI: Ration B, Ration A
Paired T for Ration B - Ration A
N Mean StDev SE Mean
Ration B 15 1.12867 0.11294 0.02916
Ration A 15 1.03867 0.13352 0.03447
Difference 15 0.090000 0.107238 0.027689
95% CI for mean difference: (0.030614, 0.149386)
T-Test of mean difference = 0 (vs not = 0): T-Value = 3.25 P-Value = 0.006
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 280.3 0.2
0.1 0.0
-0.1
X _
Ho
Boxplot of Differences
(with Ho and 95% t-confidence interval for the mean)
*Lưu ý: khoảng tin cậy 95% cho sự khác biệt nằm giữa 0.03 và 0,15 lb.ngày (tập
trung quanh 0.09 lb/ngày Vì khoảng tin cậy 95% không có chứa giá trị 0 (không
khác biệt) nên ta bác bỏ giả thiết H 0
Cách 3 Kiểm định 1-sample t bằng Minitab
Bước 1 Đặt nhãn cho C3 = ‘Diff’
Bước 2 Tính ‘Diff’ = ‘Ration B’ – ‘Ration A’
Calc > Calculator…/
Store result in variable: ‘Diff’
Expression: ‘Ration B’ – ‘Ration A’
Bước 3 Kiểm định Stat > Basic Statistics > 1-sample t…
Sample in column: Diff Test of mean: 0 (vì ta giả định không có sự khác biệt)
Trang 29V KIỂM ĐỊNH SỰ PHÙ HỢP GIỮA LÝ THUYẾT VÀ THỰC NGHIỆM (TEST FOR GOODNESS OF FIT)
Trong nghiên cứu sinh học, đặc biệt là trong lãnh vực di truyền và chọn giống, việc kiểm tra so sánh sự phù hợp giữa tần suất thực nghiệm thu được từ kết quả thí nghiệm và tần suất lý thuyết tính được từ các qui luật sinh học là rất cần thiết Chẳng hạn tỉ lệ phân ly giới tính có đúng là 1 ♂ : 1 ♀ hay không? Tỉ lệ phân ly kiểu hình thu được trong thí nghiệm có phù hợp với tỉ lệ lý thuyết theo một định luật di truyền (3:1 trong lai một tính hoặc 9:3:3:1 trong lai hai tính) hay không?
Trong số nhiều phương pháp kiểm định cơ bản thì phương pháp thông dụng nhất thường dùng để so sánh sự phù hợp giữa tần suất thực nghiệm và lý thuyết là
phương pháp kiểm định "khi bình phương 2" (Chi-square test)
Muốn thực hiện phương pháp kiểm định 2 đạt hiệu quả, cần nắm rõ các khái niệm
và nội dung cơ bản sau:
Tần suất lý thuyết (Expected frequency) Ký hiệu là E
Là giá trị tính toán dựa theo một qui luật lý thuyết đã được khẳng định, chẳng hạn tỉ
lệ phân ly trong di truyền giới tính là 1 ♂ : 1 ♀, tỉ lệ phân ly kiểu hình ở F2 trong trường hợp hai cặp tính trạng phân ly độc lập là 9:3:3:1 Tần suất lý thuyết được
xác định bằng tần số xảy ra (trong lý thuyết) nhân với cở mẫu: E = p.n
Tần suất thực nghiệm (Observed frequency) Ký hiệu là O
Là số liệu thu được trong thực tế, có thể rút ra từ một quần thể hoặc kết quả thu được từ một thí nghiệm
Giả thuyết không (H 0 ) : tần suất lý thuyết và thực nghiệm không khác nhau
Kiểm tra và kết luận
Nếu 2
TN
> χ2b¶ng ở một mức xác suất nhất định, chẳng hạn P = 0.05, có nghĩa là P( 2
TN
)> 0.05 thì giả thuyết H0 bị bác bỏ Ta có thể kết luận rằng tần suất lý thuyết
và tần suất thực nghiệm khác biệt có ý nghĩa với độ tin cậy 95%
Trang 30Các thí dụ
Thí dụ 1 (Sokal &Rohfl, 1995)
Một nhà di truyền học tiến hành phép lai giữa hai cá thể ruồi giấm F1 và thu được
176 cá thể F2 gồm 130 có kiểu hình hoang dại và 46 có kiểu hình đột biến Nhà di truyền học muốn kiểm tra xem liệu kết quả thu được có phù hợp với tỉ lệ 3 trội : 1 lặn theo định luật phân ly của Mendel hay không
Nhập giá trị của tần suất thực nghiệm vào ô C1
Nhập tần số lý thuyết vào ô C2 ( 0.75 và 0.25)
Stat >Tables > Chi-Square Goodness-of-Fit Test (One Variable)
Observed counts: C1 Proportions specified by Historical counts: C2 (Input column) > OK
Kết quả hiển thị trong cửa sổ Session
Chi-Square Goodness-of-Fit Test for Observed Counts in Variable: O
Historical Test Contribution Category Observed Counts Proportion Expected to Chi-Sq
b¶ng= 3.84 (hoặc P-value > 0.05) nên ta không đủ cơ sở để bác
bỏ giả thuyết H0 Nói cách khác ta có thể kết luận rằng kết quả thu được phù hợp với tỉ lệ phân ly 3:1 theo định luật Mendel
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 31Thí dụ 2 (Sokal & Rohfl, 1995)
Theo dõi sự di truyền của hai tính trạng chiều cao và dạng lá ở cà chua, người ta thực hiện một phép lai và thu được kết quả ở F2 như sau:
F2 Thân cao, lá chẻ 926
Thân cao, lá nguyên 288 Thân thấp, lá chẻ 293 Thân thấp, lá nguyên 104 Liệu kết quả thu được có phù hợp với tỉ lệ phân ly 9 : 3 : 3 : 1 theo định luật phân ly độc lập của Mendel hay không?
Giả thuyết H 0 : tỉ lệ thực nghiệm phù hợp với tỉ lệ lý thuyết 9 : 3 : 3 : 1
4.5), được gọi là bảng tiếp liên (contingency table) 2 x 2
Bảng 4.5 Bảng tiếp liên 2 x 2
Chết Sống
Có kháng huyết thanh Không có
Trang 32Từ bảng dữ liệu trên ta có thể thấy mặc dù số chuột được tiêm kháng huyết thanh có
tỉ lệ sống sót cao hơn nhưng vẫn có 13 con bị chết ! Như vậy liệu có phải việc tiêm kháng huyết thanh đã làm giảm tỉ lệ chết của chuột? Hay đó chỉ là ngẫu nhiên?
Giả thiết
H 0 : khả năng sống của chuột không phụ thuộc vào việc tiêm kháng huyết thanh
H 1 : khả năng sống của chuột nhờ vào việc tiêm kháng huyết thanh
Bảng tiếp liên 2 x 2 có thể khái quát dưới dạng sau:
38.000 73.000 111.000 Tính 2
796.673
385457
111)]
2544()2913[(
))(
x x x
d b c a d c b a
n bc ad
Cách 2 Áp dụng Minitab
Bước 1 Nhập các dữ liệu trong bảng 4.5 vào bảng tính:
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 33Bước 2 Tính 2
Stat > Tables > Chi-square test (Table in Worksheet)…
Kết quả xuất:
Chi-Square Test: Chết, Sống
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Để nghiên cứu tác dụng của 3 loại vaccine (ký hiệu là A, B, C), 788 con chuột được
bố trí ngẫu nhiên thành 4 nhóm: 1 nhóm đối chứng (không có tiêm vaccine) và 3 nhóm thí nghiệm (được tiêm vaccine A, B, C) Sau 24 tháng, số lượng chuột không bệnh, bệnh nhẹ và bệnh nặng được ghi nhận Kết quả thí nghiệm được trình bày trong bảng tiếp liên 4 x 3 (bảng 4.6)
Bảng 4.6 Bảng tiếp liên 4 x 3 về hiệu quả của việc tiêm vaccine so với không tiêm
Tình trạng bệnh Vaccine
Trang 34Dữ liệu trong bảng (trình bày O (E)) cho thấy số chuột được tiêm phòng không bệnh cũng như mắc bệnh đều ít hơn số chuột đối chứng Nhưng liệu có phải việc tiêm vaccine đã có hiệu quả làm giảm tỉ lệ mắc bệnh hay không?
Giả thuyết H 0: không có quan hệ gì giữa tình trạng bệnh và việc tiêm vaccine Giả sử H0 là đúng thì tần suất lý thuyết được tính như sau:
Kiểm định 2 bằng chương trình Minitab
Bước 1 Nhập dữ liệu vào bảng tính
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Trang 35Câu hỏi tiếp theo được đặt ra là có gì sai khác gì về hiệu quả giữa ba loại vaccine hay không?
Data > Delete Row…
Delete rows: 1 From columns: C1 C2 C3 C4 OK
Stat > Tables > Chi-square test (Table in Worksheet)…
Kết quả xuất
Chi-Square Test
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Trang 36Kết quả kiểm tra 2 cho thấy rõ ràng là không có sai khác gì về hiệu quả giữa 3 loại vaccine ( P = 0.878 > 0.05)
Phân bố Chi bình phương (df = 4)
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 37Chương 5 BỐ TRÍ THÍ NGHIỆM & PHÂN TÍCH PHƯƠNG SAI
Phương pháp phân tích phương sai (ANOVA = analysis of variance) do tiến sĩ R.A Fissher đưa ra từ năm 1925 Từ đó đến nay nó là một trong những phương pháp phân tích thống kê quan trọng thường được ứng dụng rộng rãi trong Y học, Sinh học, Nông nghiệp Nội dung chủ yếu là xác định ảnh hưởng của các nhân tố đến kết quả của các thí nghiệm Chẳng hạn, nghiên cứu ảnh hưởng của lượng phân bón, mật độ đến năng suất cây trồng
Phương pháp phân tích phương sai phụ thuộc vào các đặc điểm cơ bản của từng nhân tố thí nghiệm như số nhân tố, tính chất và loại hình thí nghiệm Do đó trước khi tiến hành phân tích chúng ta cần tìm hiểu về bố trí thí nghiệm để ứng dụng phương pháp phân tích phương sai thích hợp
I ĐẠI CƯƠNG VỀ BỐ TRÍ THÍ NGHIỆM
1 Mục đích
Bố trí thí nghiệm (experimental design) là lập kế hoạch về các bước cần tiến
hành để thu thập số liệu cho vấn đề đang nghiên cứu Mục đích để có nhiều kết luận chính xác với chi phí thấp nhất
2 Một số khái niệm thường dùng
Đơn vị thí nghiệm (Experimental Unit)
Một đơn vị thí nghiệm là một đơn vị nghiên cứu trong thí nghiệm, hoặc cụ thể hơn
đó là đơn vị nhỏ nhất mà một nghiệm thức được ứng dụng
Thí dụ: đơn vị thí nghiệm có thể là 1 con gà, một đàn heo, một ruộng lúa…
3 Hai nguyên tắc cơ bản về bố trí thí nghiệm
Lặp lại (Replication)
Một nghiệm thức phải được lặp lại nhiều hơn 1 eu Điều này cho phép so sánh ảnh hưởng của nghiệm thức với các mức biến thiên sinh học của các eu Số nghiệm thức càng tăng thì sai số chuẩn càng nhỏ và độ chính xác của thí nghiệm càng cao Số lần lặp lại không có giới hạn nhưng cần phải cân bằng giữa độ chính xác và chi phí thí nghiệm
Ngẫu nhiên hoá (Randomisation)
Mẫu phải được chọn sao cho tất cả các đơn vị thí nghiệm được bố trí ngẫu nhiên vào các nghiệm thức Điều này giúp tránh được các thành kiến của người làm thí nghiệm cũng như các biến động sinh học, môi trường…
4 Kỹ thuật ngẫu nhiên hoá
Để thực hiện việc ngẫu nhiên hoá, tránh những sai sót chủ quan của người thí nghiệm ta có thể dùng một trong các cách:
– thảy đồng xu (sấp, ngửa) – dùng bảng số ngẫu nhiên – tạo các số ngẫu nhiên bằng máy tính
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 38Thí dụ: Một thí nghiệm gồm hai nghiệm thức (A, B), mỗi nghiệm thức có 5 đơn vị
II CÁC KIỂU BỐ TRÍ THÍ NGHIỆM PHỔ BIẾN
1 Bố trí ngẫu nhiên hoàn toàn (Completely Randomised Design = CRD)
Đây là kiểu bố trí thí nghiệm đơn giản nhất, trong đó tất cả các đơn vị thí nghiệm được bố trí vào các nghiệm thức Đây chính là cách ngẫu nhiên hoá vừa được đề cập Kiểu bố trí này được dùng khi các đơn vị thí nghiệm không có những sai khác mang tính hệ thống Chẳng hạn tất cả các động vật thí nghiệm có cùng độ tuổi, tất
cả các nông trại đều có kỹ thuật canh tác giống nhau…
Thí dụ: CRD cho thí nghiệm 1 có nhân tố
– Các mức nhân tố A, B, C – 15 lô (plot) đất không có sự khác biệt – Bố trí 5 lô vào mỗi nghiệm thức
Sample 15 rows from column(s): UNIT a Store samples in: RANDOM a
– Calc > Make Patterned Data > Arbitrary Set of Numbers…
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 39Store pattern data in: GROUP .
Arbitrary set of numbers: 1:3 List each value: 5 times
Nếu dữ liệu có phân bố chuẩn, phương sai đồng nhất:
– thí nghiệm 1 nhân tố, 2 mức: 2-sample t-test – thí nghiệm 1 nhân tố, > 2 mức: 1-way ANOVA
Những hạn chế của CRD
CRD đòi hỏi tất cả các đơn vị thí nghiệm phải tương tự nhau trước khi được bố trí vào nghiệm thức Thông thường trong các thí nghiệm ngoài thực địa sẽ không có đủ các đơn vị thí nghiệm bảo đảm cho điều này Do đó nếu có sự biến động giữa các đơn vị thí nghiệm và chúng ta bỏ qua nó thì sẽ dẫn đến hai kết quả:
1) Mất độ chính xác 2) Kết luận sai: giả sử một CRD được dùng trong một thí nghiệm ngoài ruộng với 3 nghiệm thức A, B, C và một phần của các lô thí nghiệm có độ ẩm cao hơn do chúng nằm gần một nhánh sông
Simpo PDF Merge and Split Unregistered Version - http://www.simpopdf.com
Trang 40B C B A A
C B A C B
B C C A A
độ ẩm tăng
Trong sơ đồ trên ta thấy các lô chứa nghiệm thức A có độ ẩm cao hơn Do đó khó phân biệt được kết quả thí nghiệm chịu sự chi phối của nghiệm thức A hay do
độ ẩm Thí nghiệm này không thích hợp với kiểu bố trí ngẫu nhiên hoàn toàn
2 Bố trí khối hoàn toàn ngẫu nhiên (Randomised Complete Block Design = RCBD)
Là kiểu bố trí trong đó các đơn vị thí nghiệm được tập hợp thành từng khối (block) sao cho mỗi khối có đầy đủ tất cả các nghiệm thức, trong mỗi khối các đơn vị thí nghiệm có tính chất đồng đều
Như vậy số đơn vị thí nghiệm trong mỗi khối = số nghiệm thức, số khối = số lần lặp lại
Trong thí dụ trên, nếu bố trí theo kiểu RCBD như sơ đồ dưới đây:
Sample 3 rows from column(s): UNIT a Store samples in: C2 a
lặp lại, lần lượt store sample in C3, C4, C5, C6 – Đặt tên các cột từ C2 – C6 là ‘BLOCK 1’ – ‘BLOCK 5’
Kết quả như sau: