Giới thiệu về phương pháp khảo sát mẫu Để nghiên cứu về một chỉ số nào đó trên các cá thể của một tổng thể với rất nhiều cá thể, có thể tiến hành theo hai cách.. Cách 2: Điều tra một m
Trang 1PGS TS Nguyễn Hải Thanh
XỬ LÝ DỮ LIỆU THỐNG KÊ NÔNG NGHIỆP
với phần mềm Excel
(Bài giảng cho dự án CNTT 2008)
HÀ NỘI, THÁNG 10 NĂM 2008
Trang 2Xử lý dữ liệu thống kê nông nghiệp với phần mềm Excel
Phần mềm Excel cho phép phân tích dữ liệu nói chung, dữ liệu sinh học và nông
nghiệp nói riêng, một cách khá hiệu quả thông qua việc sử dụng menu Tools> Data
Analysis (nếu không có mục này thì chọn Tools> Add-in > Analysis ToolPak để cài đặt
thêm) Bài giảng này giới thiệu về phương pháp khảo sát mẫu và một số công cụ xử lý số liệu thống kê mà Excel cung cấp Phần quan trọng nhất của bài giảng được dành cho việc phân tích các ảnh hưởng của các nhân tố khác nhau lên kết quả đầu ra của thí nghiệm, thường được gọi là phân tích nhân tố
I Giới thiệu về phương pháp khảo sát mẫu và thống kê mô tả
1.1 Giới thiệu về phương pháp khảo sát mẫu
Để nghiên cứu về một chỉ số nào đó trên các cá thể của một tổng thể với rất nhiều
cá thể, có thể tiến hành theo hai cách Cách 1: Điều tra chỉ số đó trên tất cả các cá thể của tổng thể; cách này đòi hỏi chi phí cao, tốn kém thời gian, nhiều khi không khả thi Cách 2:
Điều tra một mẫu ngẫu nhiên các cá thể của tổng thể; dựa trên kết quả của mẫu điều tra được và các định lý của lý thuyết xác suất cần xử lý số liệu mẫu để đưa ra một suy đoán thống kê về chỉ số đó cho toàn bộ tổng thể Cách 2 có thể được gọi là phương pháp thống
kê toán học, hay đơn giản hơn là phương pháp khảo sát mẫu
Một cách tổng quát, phương pháp khảo sát mẫu được áp dụng khi cần nghiên cứu một số chỉ số nào đó cũng như các mối liên quan của chúng trên các cá thể của tổng thể
Ký hiệu X là chỉ số ngẫu nhiên mà chúng ta cần khảo sát trên các cá thể của một tổng thể Xét một mẫu ngẫu nhiên dung lượng n của X là (X1, X2, , Xn) trong đó Xi, i =
1, 2, …, n, là các biến ngẫu nhiên độc lập thu được từ X Để đơn giản chúng ta gọi mẫu này là mẫu lý thuyết Tương ứng với mẫu lý thuyết trên là mẫu thực nghiệm (x1, x2, ., xn) trong đó xi là giá trị đo được của Xi thu được từ kết quả của thực nghiệm
n
1
X= (X1+X2 +
hống kê Đại lượng t + Xn) được gọi là trung bình mẫu lý thuyết và được lấy làm ước lượng cho kỳ vọng E(X) của X, E(X) được coi là số đặc trưng
cho trung bình chung của chỉ số X Đây là một ước lượng rất tốt với các tính chất: không
chệch, vững và hiệu quả Lúc đó, (x1+ x2+ + xn) được gọi là trung bình mẫu thực nghiệm, chính là giá trị trung bình của chỉ số X trên mẫu thực nghiệm Nhờ có tính chất
vững của ước lượng, khi dung lượng mẫu khá lớn, độ lệch giữa trung bình chung và trung
bình thực nghiệm là khá nhỏ trong hầu hết các lần tiến hành thực nghiệm
1xn
i X)X(
∑
=
−
1n
1
n
1 i
i X)X(
∑
=
− gọi là phương sai mẫu đã
Trang 31 n
2 i
chỉnh, còn s2 =
1n
1
n
1 i
i x)x(
∑
=
− là phương sai mẫu thực nghiệm đã hiệu chỉnh tương ứng
với mẫu thực nghiêm đã có và được Sˆ sˆ gọi là các độ lệch chuẩn mẫu lý thuyết và thực
nghiệm chưa hiệu chỉnh, còn S và s gọi là độ lệch chuẩn mẫu lý thuyết và thực nghiệm đã
hiệu chỉnh
1.2 Thống kê mô tả
Sau khi có số liệu mẫu thực nghiệm, có thể sử dụng chức năng thống kê mô tả trong phân tích số liệu của Excel để tính các số đặc trưng mẫu của mẫu thực nghiệm như trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode Số liệu tính toán được bố trí theo cột hoặc theo hàng
a Các bước thực hiện trong Excel
Chọn Tools>Data Analysis>Descriptive Statistics, và khai báo các mục sau
trong hộp thoại:
- Input range: miền dữ liệu kể cả nhãn
- Grouped by: Columns (số liệu theo cột)
- Labels in first row: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu
- Confidence level for mean: 95% ( độ tin cậy 95%)
- K-th largest: 1 (1 số lớn nhất, 2 số lớn nhì )
- K-th smallest: 1 (1 số nhỏ nhất, 2 số nhỏ nhì )
- Output range: miền ra
- Summary Statistics: đánh dấu √ nếu muốn hiện các thống kê cơ bản
Ví dụ 1: Khảo sát về các đặc tính của lúa ta thu được bốn cột số liệu: dài bông
(cm), P1000 (trọng lượng 1000 hạt), số bông/một cây, năng suất Số liệu được bố trí như trong hình 1
Chọn Tools>Data Analysis>Descriptive Statistics, sau đó khai báo hộp thoại
Trang 4Hình 1 Bảng số liệu khảo sát về lúa và khai báo hộp thoại
Kết quả thu được cho trong hình 2
Hình 2 Kết quả thống kê mô tả về các đặc tính của lúa
b Phân tích các kết quả thu được
Một số nhận xét sơ bộ trên các thống kê thu được như sau:
- Mean cho ta giá trị trung bình của dãy số
Trang 5- Standard error cho ta biết tỷ số độ lệch chuẩn mẫu /căn bậc hai của n
- Median cho giá trị điểm giữa của dãy số
Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân đối Trong ví dụ 1 các cột số liệu là cân đối trừ cột “số bông” hơi bị lệch
- Mode cho biết giá trị xảy ra nhiều nhất trên mẫu
- Phương sai mẫu hay độ lệch chuẩn mẫu (đã hiệu chỉnh) cho ta biết độ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung
- Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay
tù hơn đường mật độ chuẩn tắc Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu xấp
xỉ chuẩn
- Skewness đánh giá đường phân phối lệch trái hay lệch phải Nếu trong khoảng
từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc
- Confidence Level được hiểu là nửa độ dài khoảng tin cậy Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m) Trong ví
dụ 1, hình 2, ta có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4 + 0.55), tức
là (25.85 , 26.95)
Trong trường hợp mẫu có dung lượng n không lớn lắm và phương sai lý thuyết σ2 = V(X) chưa biết, ta có công thức tìm khoảng tin cậy với độ tin cậy p = 1−α như sau: [x- ;
1 ,
2 n−
tα
n
s+ ], trong đó
1 ,
2 n−
tα là phân vị mức 1 − α/2 của phân phối Student với bậc tự do n −1
II Tổ chức đồ
Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác hoạ biểu đồ tần số, còn gọi là tổ chức đồ Để vẽ tổ chức đồ cần phải tiến hành phân tổ / nhóm
số liệu
2.1 Tạo miền phân tổ
Để tiến hành phân tổ số liệu (tạo Bin), cần thực hiện các bước sau:
- Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và giá trị lớn nhất
- Định ra giá trị cận dưới và giá trị cận trên của miền phân tổ
- Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi đen toàn miền này
- Chọn Edit > Fill > Series để khai báo các mục:
Trang 6+ Trong mục Series in chọn Columns (dữ liệu theo cột),
+ Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng),
+ Trong Step value: nhập giá trị bước tăng,
+ Trong Stop value: nhập giá trị cận trên,
+ OK
Ví dụ 2: Dựa trên 30 số liệu về chiều dài cá ta tạo miền phân tổ (Bin) như trên hình 3 với miền phân tổ từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là 10, cận trên là
55, giá trị bước tăng 5
Hình 3 Tạo miền Bin cho các số liệu về chiều dài cá 2.2 Vẽ tổ chức đồ
a Các bước thực hiện
Chọn Tools> Data Analysis> Histogram để khai báo các mục:
- Input range: miền dữ liệu
- Input Bin: miền phân tổ
- Labels : nhãn ở hàng đầu nếu có
- Output range: miền kết quả
- Pareto: tần số sắp xếp giảm dần
- Cumulative Percentage: tần suất cộng dồn %
- Chart output: biểu đồ
Trang 8- Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất Ngoài ra, hình dạng của tổ chức đồ còn cho biết: dãy số liệu khảo sát được về chiều dài của
cá có thể coi là tuân theo luật chuẩn
III Tính hệ số tương quan và tìm phương trình hồi qui
3.1 Tính hệ số tương quan
Excel cho phép tính hệ số tương quan đơn giữa các biến với các số liệu mẫu thu thập được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu mẫu của một biến)
a. Các bước thực hiện
Chọn Tools>Data Analysis>Correlation và khai báo các mục:
- Input range: miền dữ liệu kể cả nhãn
- Grouped by: Column (số liệu theo cột)
- Labels in first row : đánh dấu √ vào ô này nếu có nhãn ở hàng đầu
- Output range: miền xuất kết quả ra
- OK
Ví dụ 3: Để nghiên cứu mối tương quan giữa các đặc tính dài bông, số hạt, số bông với năng suất lúa, cần thực hiện các bước sau:
- Chọn Tools>Data analysis>Correlation
- Khai báo các mục (xem hình 6)
Hình 6 Các bước khai báo khi tính hệ số tương quan
Trang 9- Kết quả thu được trên bảng 1
Bảng 1 Kết quả tính hệ số tương quan
Dài bông P1000 Số bông Năng suất
- Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột
- Hệ số tương quan âm ( < 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa “dài bông” và “số bông” là nghịch biến)
- Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất” và “P1000” có thể tạm coi là tương quan tuyến tính mạnh)
3.2 Tìm phương trình hồi quy
Excel cho phép tìm phương trình hồi quy tuyến tính đơn y = a + bx và hồi quy tuyến tính bội y = a0 + a1x1 + a2x2 + + anxn Các biến độc lập chứa trong n cột, biến phụ thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng
a Các bước thực hiện
Chọn Tools>Data Analysis>Regression và khai báo các mục:
- Input y range: miền dữ liệu biến y
- Input x range: miền dữ liệu các biến x
- Label: đánh dấu √ vào ô này nếu có nhãn ở hàng đầu
- Confidence level : 95% ( độ tin cậy 95%)
- Constant in zero: đánh dấu √ nếu hệ số tự do a0 = 0
- Output range: miền xuất kết quả
- Residuals: đánh dấu √ vào ô này để hiện phần dư hay sai lệch giữa y thực nghiệm
và y theo hồi quy
- Standardized residuals: đánh dấu √ để hiện phần dư đã chuẩn hoá
- Residuals plot: đánh dấu √ để hiện đồ thị phần dư
- Line fit plots: đánh dấu √ để hiện đồ thị các đường dự báo
Trang 10- Normal probability plot: đánh dấu √ để hiện đồ thị phần dư đã chuẩn hoá
- OK
Ví dụ 4: Tìm phương trình hồi qui y = a0 + a1x1 + a2x2 + a3x3 của năng suất lúa y phụ thuộc tuyến tính vào độ dài bông (x1), trọng lượng 1000 hạt (x2) và số bông / một cây (x3) với các số liệu cho trong hình 7
Chọn Tools>Data Analysis>Regression và khai báo các mục như trên hình 7 để
thu được kết quả như trên hình 8
b Phân tích kết quả
- Nếu hệ số tương quan bội xấp xỉ 0.75 hoặc lớn hơn thì mô hình hồi quy tuyến tính là thích hợp (ngược lại nên tìm mô hình khác) Trong ví dụ 4 hệ số tương quan bội là 0.8375 nên mô hình tuyến tính được coi là thích hợp
- Hệ số tương quan R square trong ví dụ 4 là 0.7014 cho biết 70.14% sự biến động của y là do các yếu tố x1, x2, x3 gây nên Hệ số Adjusted R square là 62.00% không sát gần với R square chứng tỏ không phải tất cả các biến đưa vào là thực sự cần thiết
- F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất ý nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận
- Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo Trong ví dụ
4 phương trình hồi quy là: y = − 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3 Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là không đáng tin cậy, vì xác suất tương ứng > 0.05 (mức ý nghĩa đã chọn) Trong trường hợp này, cần tiến hành lọc bớt biến x1 để được đường hồi quy với các hệ số đều có ý nghĩa
Hình 7 Khai báo để tìm phương trình hồi quy
Trang 11Hình 8 Kết quả tìm phương trình hồi quy
IV So sánh hai mẫu
Bàitoán ở đây là cần so sánh hai mẫu thông qua việc kiểm định giả thuyết H0: m1 =
m2 (kỳ vọng của biến X bằng kỳ vọng của biến Y) với đối thuyết H1: m1 ≠ m2 ở mức ý nghĩa α trong trường hợp kiểm định hai phía Nếu kiểm định một phía thì đối thuyết H1 là
m1 > m2 (khi x > y ) hoặc m1 < m2 (khi x < y )
4.1 So sánh hai mẫu độc lập khi biết phương sai σ1 2 và σ2 2
Rút mẫu độc lập từ hai tổng thể phân phối chuẩn, trong một số tình huống nào đó
chúng ta có thể ước lượng được các phương sai σ12và σ22 Chẳng hạn, nếu điều tra lại hai tổng thể sau một thời gian chưa lâu thì các phương sai được coi là chưa thay đổi, do đó lấy phương sai của lần điều tra trước làm ước lượng cho σ12và σ22(như khi xem xét các kết quả phân tích của hai phòng thí nghiệm mà độ chính xác đã ổn định, từ đó có ước lượng về các phương sai)
a Các bước thực hiện
Chọn Tools >Data Analysis > z-Test: Two Sample for Means, sau đó lần lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát
- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát
- Labels: Nếu cần thêm hàng đầu về tên biến thì chọn mục này
Trang 12- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0 Nếu lấy giả thuyết H1: m1 = m2+d (d là 1 số nào đó) thì ghi d
- Variable 1 variance: phương sai của biến 1(nhập σ12)
- Variable 2 variance: phương sai của biến 2 (nhập σ22)
- Output Range: chọn miền trống để đưa ra kết quả
Ví dụ 5: Thực hiện thí nghiệm với mẫu 1 có 10 số liệu quan sát được, mẫu 2 có 12 quan sát ta có bảng số liệu sau, biết phương sai của biến 1 là 1.7, của biến 2 là 2.6
x 3.4 3.4 3.5 3.5 3.5 3.7 3.7 3.7 3.7 3.9
y 3.2 3.2 3.4 3.4 3.6 3.6 3.6 3.6 3.6 3.6 3.6 3.6 Kết quả so sánh hai mẫu cho ở bảng 2
Bảng 2 Kết quả so sánh hai mẫu độc lập
z-Test: Two Sample for Means
Mẫu 1 Mẫu 2
Observations 10 12 Hypothesized
Z 0.14335 P(Z<=z) one-tail 0.44301
z Critical one-tail 1.64485 P(Z<=z) two-tail 0.88602
z Critical two-tail 1.95996
b Phân tích kết quả
Bảng kết quả 2 có hai cột, một cột cho mẫu quan sát 1, cột kia cho mẫu 2 (tính tới hàng thứ ba) Bảng này gồm có:
- Trung bình của mẫu a1và a2
- Phương sai đã cho (σ12, σ22)
- Số quan sát n1và n2
- Giá trị z thực nghiệm: z = (a1 − a2) / Sqrt(σ12/n1 + σ22/n2 )
- Giá trị P một phía và giá trị P hai phía
Trang 13- Giá trị z lý thuyết (tới hạn) một phía và hai phía
Chú ý rằng, có thể dùng một số hàm trong Excel để tính một số kết quả:
- Giá trị P một phía tính bằng hàm (1 −Normsdist(z))
- Giá trị P hai phía tính bằng hàm (1− Normsdist(z))×2
- Giá trị tới hạn của hàm phân phối chuẩn tắc z một phía tính bằng hàm Normsinv(0.95)
- Giá trị z tới hạn hai phía tính bằng hàm Normsinv(0.975)
Trong ví dụ 5 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ hơn z lý thuyết (tới hạn) một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05) Kết luận: kỳ vọng của hai biến không khác nhau
4.2 So sánh hai mẫu kiểu cặp đôi
Xét thí dụ: với mỗi một ổ chim cân trọng lượng chim cái, trọng lượng chim đực, lúc
đó với n ổ chim ta được hai mẫu quan sát kiểu cặp đôi của hai tổng thể chim cái và chim đực Nếu lấy một số chim đực ngẫu nhiên trong nhiều chim đực từ nhiều ổ và lấy một số chim cái ngẫu nhiên trong nhiều chim cái từ nhiều ổ thì có hai mẫu quan sát độc lập
Trường hợp khác, nếu ta đem 10 mẫu đất, mỗi mẫu chia đôi, một nửa giao cho phòng phân tích A thực hiện, nửa kia giao cho phòng phân tích B thì thu được số liệu cặp đôi để so sánh kết quả của hai phòng phân tích Nếu ta đem hai giống lúa cấy trên một số ruộng, mỗi ruộng chia đôi, một nửa cấy giống A, một nửa cấy giống B thì cũng có hai mẫu cặp đôi để so sánh Tương tự, nếu đo một chỉ số sinh lý hoặc sinh hoá của một bệnh nhân khi mới nhập viện và đo lại chỉ số đó sau một thời gian điều trị thì có hai mẫu quan sát cặp đôi để đánh giá hiệu quả điều trị
Chú ý rằng, khi rút hai mẫu cặp đôi ta có hai mẫu cùng số quan sát n, các số liệu sắp xếp thành cặp đứng ở hai cột cạnh nhau
a Các bước thực hiện
Chọn Tools >Data Analysis > t-Test: Paired Two Sample for Means, sau đó lần
lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu của biến 1,
kể cả tên hàng đầu của mẫu quan sát
- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát
- Labels: nếu cần thêm hàng đầu về tên biến thì chọn mục này
Trang 14- Hypothesized means difference: giả thiết về hiệu hai trung bình của hai tổng thể Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0 Nếu lấy giả thuyết H0: m1 = m2 + d (d là một số nào đó) thì ghi d
- Output Range: Chọn miền trống để đặt ra kết quả
Ví dụ 6: Có 8 cặp số liệu của hai mẫu cặp đôi x và y cho trong bảng sau:
x 39.6 32.4 33.1 27 36 32 25.9 32.4
y 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2
Thực hiện phân tích trong Excel ta được kết quả như trên bảng 3
Bảng 3 Kết quả so sánh hai mẫu cặp đôi
Variance 19.54 23.451 Phương sai mẫu
t Stat 3.31055 Giá trị t thực nghiệm
P(T<=t) one-tail 0.00647 Giá trị P một phía
t Critical one-tail 1.89458 Giá trị t lý thuyết khi
kiểm định một phía P(T<=t) two-tail 0.01293 Giá trị P hai phía
t Critical two-tail 2.36462 Giá trị t lý thuyết khi
kiểm định hai phía
b Phân tích kết quả
Bảng kết quả có hai cột cho hai mẫu quan sát Bảng này có các hàng:
- Trung bình mẫu a1, a2
- Phương sai mẫu s12, s22
- Số quan sát n1 và n2 (bằng nhau và bằng số cặp số liệu n)
- Hệ số tương quan r của 2 mẫu (coi như 2 biến)
- Bậc tự do df để kiểm định giả thuyết H0, df bằng số cặp (n − 1)
- Giá trị t thực nghiệm: 3.31055
- Giá trị P một phía: 0.00647
Trang 15- Giá trị t một phía: 1.894577508
- Giá trị P hai phía: 0.01293
- Giá trị t hai phía: 2.36462256
Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai phía (giá trị P một phía và hai phía đều nhỏ hơn mức ý nghĩa α = 0.05), nên trong ví dụ trên ta chấp nhận giả thuyết H1
4.3 So sánh hai mẫu độc lập với giả thiết hai phương sai bằng nhau
Trường hợp mẫu lớn: Khi việc rút hai mẫu quan sát từ hai tổng thể được tiến hành một cách độc lập thì chúng ta có hai mẫu độc lập Nếu dung lượng của cả hai mẫu đều lớn (thường quy ước là n1 ≥ 30, n2 ≥ 30) ta có thể tiến hành z-test nhưng thay hai phương sai của tổng thể σ12và σ22bằng phương sai mẫu s12 và s22 Trường hợp mẫu bé (n1,n2 nhỏ hơn 30) thì ta gặp bài toán khó, gọi tên là bài toán Berens – Fisher Trong trường hợp này, nếu
coi hai phương sai của hai tổng thể bằng nhau (cần kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai) thì có thể tiếp tục tính toán như sau:
a Các bước thực hiện:
Chọn Tools >Data Analysis > t-Test: Two-Sample Assuming Equal Variances,
sau đó lần lượt trả lời:
- Input Variable 1 Range: miền vào của biến 1 tức là miền chứa số liệu, kể cả tên hàng đầu của mẫu quan sát
- Input Variable 2 Range: miền vào của mẫu quan sát thứ hai kể cả tên hàng đầu của mẫu quan sát
- Labels: nếu đưa thêm hàng đầu về tên biến thì chọn mục này
- Hypothesized means difference: giả thuyết về hiệu hai trung bình của hai tổng thể Nếu lấy giả thuyết H0: m1=m2 thì ghi 0 Nếu lấy giả thuyết H0: m1 = m2 + d (d là 1 số nào đó) thì ghi d
- Output Range: chọn miền trống để đưa kết quả ra
Ví dụ 7: Tiến hành thí nghiệm hai mẫu có tên x và y, mẫu x có 5 số liệu, mẫu y có
8 số liệu như sau:
x 27.5 27 27.3 27.6 27.8
y 27.9 27.2 26.5 26.3 27 27.4 27.3 26.8
Để kiểm định giả thuyết phụ về sự bằng nhau của hai phương sai, có thể chọn
Tools > Data Analysis > F-Test Two-Sample for Varariances. và thực hiện các bước: nhập (trong mục Input) miền biến x và y, chọn mục Labels nếu có nhãn ở hàng dầu, chọn mức ý nghĩa α (ngầm định 0.05) Kết quả cho giá trị xác suất P một phía là là 0.164 (P hai phía là 0.328) lớn hơn 0.05 Vậy giả thuyết hai phương sai tổng thể bằng nhau được chấp nhận
Trang 16Bảng 4 Kết quả so sánh hai mẫu độc lập với phương sai bằng nhau
t-Test: Two-Sample Assuming Equal Variances
Observations 5 8 Pooled Variance 0.20291
Hypothesized Mean Difference
t Critical two-tail 2.20099 Hình 9 minh hoạ các bước thực hiện so sánh hai mẫu trong Excel khi hai phương sai bằng nhau Kết quả so sánh hai mẫu cho ở bảng 4
Hình 9 Các bước thực hiện trong Excel so sánh hai mẫu cùng phương sai
Trang 17b Phân tích kết quả
Bảng kết quả thu được có hai cột cho hai mẫu quan sát, và lần lựơt có các hàng sau:
- Trung bình (Mean) của mẫu a1, a2
- Phương sai (Variance) của mẫu s12, s22
- Bậc tự do df để kiểm định giả thuyết H0, df bằng (n1+ n2 −2)
- Giá trị t thực nghiệm tính theo công thức:
t = (a1 − a2)/Sqrt(s2×(1/n1 + 1/n2))
- Giá trị P một phía và hai phía
- Các giá trị t lý thuyết một phía và hai phía
Chý ý rằng có thể tìm được:
- Giá trị P một phía và hai phía qua hàm Tdist(z, df,1) và Tdist(z, df, 2)
- Giá trị t lý thuyết một phía qua hàm TINV(0.10, df)
- Giá trị t lý thuyết hai phía qua hàm TINV(0.05, df)
Trong ví dụ 7, ta có: phương sai của mẫu 1: 0.093; phương sai của mẫu 2: 0.26571; giá trị t thực nghiệm: 1.5187; giá trị t lý thuyết một phía: 1.79588; giá trị t lý thuyết hai phía: 2.20099; giá trị P một phía: 0.07852 và giá trị hai phía: 0.15704 Kết luận: chấp nhận giả thuyết H0 ở mức ý nghĩa 0.05
Cần lưu ý rằng, trước khi dùng mô hình phương sai bằng nhau phải kiểm định giả thuyết phụ H0: σ12 = σ22 với đối thuyết H1: σ12 > σ22 Người sử dụng có thể tự thực hiện tính toán bằng kiểm định Fisher như sau:
- Bước 1: Tính F thực nghiệm bằng tỷ số giữa hai phương sai mẫu (lấy phương sai lớn chia cho phương sai bé)
- Bước 2: So F thực nghiệm với F lý thuyết ở mức alpha, với số bậc tự do df1 của phương sai tử số và bậc tự do df2 của phương sai mẫu số, bằng hàm FINV(alpha, df1, df2))