Hà Nội - 2014.. Bài giảng Thiết kế thí nghiệm và Xử lý dữ liệu với phần mềm SAS được biên soạn nhằm phân tích dữ liệu từ các mô hình thiết kế thí thường gặp trong nghiên cứu nông nghiệp[r]
Trang 1TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP HÀ NỘI
KHOA CHĂN NUÔI & NUÔI TRỒNG THUỶ SẢN
THIẾT KẾ THÍ NGHIỆM
VÀ XỬ LÝ DỮ LIỆU VỚI PHẦN MỀM SAS
(Dùng cho giảng dạy cao học các ngành Thú y, Chăn nuôi – Thú y,
Chăn nuôi và Nuôi trồng thuỷ sản)
Đỗ Đức Lực
Bộ môn Di truyền - Giống, Khoa Chăn nuôi & Nuôi trồng thuỷ sản
Hà Nội - 2014
Trang 2Bài giảng Thiết kế thí nghiệm và Xử lý dữ liệu với phần mềm SAS được biên soạn nhằm phân
tích dữ liệu từ các mô hình thiết kế thí thường gặp trong nghiên cứu nông nghiệp bằng phần mềm SAS
Tài liệu này bao gồm 3 phần: 1) Giới thiệu phần mềm SAS và tính các tham số thống kê mô
tả, 2) Ước lượng và kiểm định giả thiết với phần mềm SAS và 3) Tương quan và Hồi quy với phần mềm SAS Trong tất cả các phần đều có các ví dụ, các hình ảnh minh hoạ sử dụng phần mềm và giải thích kết quả đối với từng bài tập
Đối tượng sử dụng giáo trình này là cao học viên các ngành Chăn nuôi, Chăn nuôi thú y và Thú y; đồng thời là tài liệu tham khảo cho các đối tượng là cán bộ nghiên cứu trong ngành chăn nuôi, thú y
Để có thêm kiến thức bổ trợ cho môn học này, bạn đọc có thể tham khảo thêm một số tài liệu
về thiết kế thí nghiệm, toán xác suất thống kê, về tin học và các sách chuyên ngành của chăn nuôi thú y
Mặc dù có rất nhiều cố gắng trong quá trình biên soạn, xong không thể tránh được những thiếu sót Tác giả rất mong sự góp ý của bạn đọc Mọi ý kiến góp ý xin gửi theo địa chỉ sau:
Đỗ Đức Lực
Bộ môn Di truyền - Giống, Khoa Chăn nuôi & Nuôi trồng thuỷ sản
Đại học Nông nghiệp Hà Nội, Trâu Quỳ, Gia Lâm
E-mail: ddluc@hua.edu.vn
Trang 3MỤC LỤC
Phần 2 Giới thiệu phần mềm SAS và tính các tham số thống kê mô tả 1
Phần 2 Ước lượng và kiểm định giả thiết với phần mềm SAS 7
Phần 4 Tương quan và Hồi quy với phần mềm SAS 47
TÀI LIỆU THAM KHẢO 51
Trang 4Phần 1
Giới thiệu phần mềm SAS và tính các tham số thống kê mô tả
1.1 Khởi động phần mềm
Từ menu Start của Windows XP chọn:
Programs The SAS System The SAS System for Windows V8
Các cửa sổ (windows) chính của phần mềm:
Editor
Cho phép tạo ra các dòng lệnh của một file mới, thay đổi và sửa chữa các file đã có sẵn Toàn
bộ số liệu được quản lý và thao tác thông qua cửa sổ này Mọi thay đổi câu lệnh trong cửa sổ này có thể làm thay đổi cơ sở dữ liệu ban đầu hoặc/và kết quả xử lý
Output
Hiển thị kết quả xử lý dữ liệu thông các câu lệnh ở cửa sổ Editor Kết quả xử lý có thể lưu lại
trên máy tính hoặc có thể in trực tiếp ra giấy Tuy nhiên việc in trực tiếp kết quả từ cửa sổ Editor không được khuyến cáo vì có thể gây lãng phí và khó theo dõi vì có rất nhiều khoảng trống
Log
Hiển thị các sự kiện liên quan đến quá trình xử lý dữ liệu, bao gồm các câu lệnh thực hiện, thời gian thực hiện, các lưu ý, các cảnh báo, các thông báo về lỗi và vị trí lỗi (nếu có)
1.2 Tính các tham số thống kê mô tả bằng phần mềm SAS
Ví dụ 1: Khối lượng (gram) của 16 chuột cái tại thời điểm cai sữa như sau:
54,1 49,8 24,0 46,0 44,1 34,0 52,6 54,4
56,1 52,0 51,9 54,0 58,0 39,0 32,7 58,5
1.2.1 Nhập dữ liệu vào SAS:
Có 2 cách để nhập dữ liệu vào phần mềm SAS 1) nhập trực tiếp thông qua cửa sổ Editor hoặc
2) nhập gián tiếp thông qua menu Import từ phần mềm SAS Trong bài 1, học viên sẽ học
cách nhập dữ liệu trực tiếp thông qua cửa sổ Editor và nắm được chức năng của từng câu
lệnh
Nhập dữ liệu trực tiếp thông qua cửa sổ Editor là lập cơ sở dữ liệu (tên cơ sở dữ liệu, tên biến,
số liệu thô…) và khai báo các câu lệnh trực tiếp lên cửa Editor Cách nhập này giúp người sử dụng có thể trực tiếp tạo được bộ số liệu một cáhc trực quan Bên cạnh những ưu điểm thì hạn chế lớn nhất của cách nhập này là mất nhiều thời gian thao tác để nhập dữ liệu, khó kiểm soát, hiệu chỉnh dữ liệu và không sử dụng được các bộ dữ liệu có sẵn dưới dạng cơ sở dữ liệu Trong khi đó nhập dữ liệu gián tiếp thông qua menu Import lại có các ưu điểm và nhược điểm hoàn toàn ngược lại
Trang 51.2.1.1 Nhập dữ liệu gián tiếp bằng cửa sổ EDITOR
OPTIONS PAGESIZE = 60 LINESIZE = 80; ( 6 )
DATA SAS1; ( 1 )
INPUT KL; ( 2 )
CARDS; ( 3 )
54.1 ( 4 )
49.8 58.5 ; TITLE 'BAI 1 THONG KE MO TA'; ( 5 )
TITLE2 'HO VA TEN'; PROC MEANS MEAN STD STDERR CV; ( 7 ) VAR KL; RUN; ( 8 )
Tạo bộ số liệu trong SAS
(1) DATA yêu cầu SAS tạo bộ số liệu trong bộ nhớ đệm của SAS và tên của bộ số
liệu được tạo ra là SAS1
(2) INPUT yêu cầu SAS tạo ra một biến (một cột dữ liệu) có tên là KL
(3) CARDS thông báo cho SAS các số liệu sẽ xuất hiện sau câu lệnh này Dùng
phím Enter để xuống hàng nhằm phân biệt kết thúc một số liệu
(4) Các số liệu thô cần đưa vào SAS để phân tích Kết thúc việc nhập số liệu thô
bằng dấu (;)
Các câu lệnh bỗ trợ
(5) Câu lệnh này dùng để tạo tiêu đề trong phần kết quả (Output) Câu lệnh này
không làm ảnh hưởng đến quá trình xử lý số liệu nhưng có thể là thông tin trợ giúp để phân biệt các kết quả xử lý nếu như có nhiều kết quả được thể hiện đồng thời
(6) PAGESIZE Xác định số số dòng tối đa in trên một trang giấy của phần kết quả
và LINESIZE xác định số ký tự tối đa trên một dòng in
Thủ tục (Procedure) của để tóm tắt dữ liệu
(7) PROC MEANS tính các tham số thống kê mô tả đối với một hay nhiều biến
trong bộ số liệu Các từ đi sau câu lệnh này thể hiện các tham số cụ thể cần
tính toán Ngay phía dưới câu lệnh PROC MEANS là câu lệnh VAR chỉ định
biến cụ thể cần tính toán
(8) RUN thông báo cho SAS biết không còn câu lệnh nào nữa và thực hiện để
hoàn chỉnh việc tính toán
Trang 61.2.1.2 Nhập dữ liệu gián tiếp qua menu IMPORT
Để nhập dữ liệu gián tiếp thông qua menu Import cần phải có file dữ liệu ở dưới dạng Excel
Để có thể hoàn tất việc nhập dữ gián tiếp liệu thành công cần lưu ý:
- Tên của biến (tên cột) không dài quá 7 ký tự, không có khoảng trống giữa các ký tự
và không dùng các ký tự đặc biệt
- Các ô không có dữ không được để trống mà phải thay thế bằng dấu chấm (.)
- Trong quá trình nhập dữ liệu, lỗi thao tác được thể hiện ở cửa sổ LOG Cửa sổ LOG
sẽ thông báo vị trí và nguyên nhân mắc lỗi để bạn đọc có thể dễ dàng khắc phục
Các bước để nhập dữ liệu gián tiếp:
Bước 4:
Kiểm tra các thông báo ở cửa sổ LOG để biết thêm thông tin về việc nhập số liệu Nếu nhâp
số liệu thanh công sẽ có thông báo như sau trong cửa sổ LOG:
NOTE: WORK.BAI1 was successfully created
* DESC: Generated SAS Datastep Code
* TEMPLATE SOURCE: (None Specified.)
***********************************************************************/ data WORK.SAS1B ;
%let _EFIERR_ = 0; /* set the ERROR detection macro variable */
infile 'D:\DocLuc\LUC\CAO HOC\SAS PROC\VIDUI1.txt' delimiter= '09'x
MISSOVER DSD lrecl = 32767 firstobs = 2 ;
Trang 7* DESC: Generated SAS Datastep Code
* TEMPLATE SOURCE: (None Specified.)
***********************************************************************/ data WORK.VIDU1B ;
%let _EFIERR_ = 0; /* set the ERROR detection macro variable */
infile 'D:\DocLuc\LUC\CAO HOC\SAS PROC\SAS1B.txt' delimiter= '09'x
MISSOVER DSD lrecl = 32767 firstobs = 2 ;
TITLE 'BAI 1 THONG KE MO TA';
TITLE2 'HO VA TEN';
PROC MEANS MEAN STD STDERR CV;
VAR KL;
RUN;
1.2.2 Thực hiện chương trình (RUN)
Để chạy chương trình vừa lập ra ta có thể
1) Thông qua menu của SAS Run Submit
2) Click vào biểu tượng người chạy trên thanh menu công cụ
1.2.3 Kết quả từ phần mềm SAS
Kết quả xử lý từ cửa sổ Output của SAS
BAI 1 THONG KE MO TA 41
HO VA TEN 21:02 Wednesday, June 14, 2000
The MEANS Procedure
Trang 8Xét ví dụ 1.1, giả sử rằng 16 chuột này thuộc 2 giống khác nhau (A và B) và số liệu thu được như sau:
54,1 49,8 24,0 46,0 44,1 34,0 52,6 54,4
56,1 52,0 51,9 54,0 58,0 39,0 32,7 58,5
Sử dụng procedure PROC SORT ta có thể sắp xếp lại cấu trúc số liệu và sau đó có thể tính các thống kê mô tả đối với từng giống (A và B) bằng lệnh BY Câu lệnh sử dụng như sau:
OPTIONS PAGESIZE = 60 LINESIZE = 80;
DATA SAS1C;
INPUT GIONG $1 KL;
CARDS;
A 54.1
A 49.8 B 24.0 A 58.5 ; TITLE 'BAI 1 THONG KE MO TA'; TITLE2 'HO VA TEN'; PROC SORT; BY GIONG; RUN; PROC MEANS MEAN STD STDERR CV; VAR KL; BY GIONG; RUN; Kết quả từ SAS
BAI 1 THONG KE MO TA 09:32 Saturday, June 24, 2000 1 HO VA TEN The MEANS Procedure Analysis Variable : KL N Coeff of GIONG Obs Mean Std Dev Std Error Variation ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ A 10 50.9200000 8.4607328 2.6755186 16.6157361 B 6 42.0000000 11.0129015 4.4959982 26.2211941 ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Lưu ý: Procedure PROC SORT được sử dụng trước PROC MEANS nếu muốn tính theo giống bằng lệnh BY
1 dấu $ được sử dụng khi muốn định dạng cột số liệu ở dạng ký tự không bằng số (dạng text)
Trang 9Dòng lệnh BY có thể thay thế bằng dòng lệnh CLASS trong procedure PROC MEANS
Trong trường hợp này không cần sử dụng procedure PROC SORT
PROC MEANS MEAN STD STDERR CV;
VAR KL; CLASS GIONG;
RUN ; 1.2.4 Chuyển kết quả từ phần mềm SAS qua một định dạng khác Kết quả xử lý từ phần mềm SAS có thể đổi qua một số định dạng khác như: Excel (.xls), Văn bản Word (.doc, ), Trình duyệt web (.html) Có 2 mục đích chính của chuyển đổi định dạng kết quả từ SAS qua các định dạng khác là 1) Người sử dụng không có phần mềm SAS vẫn có thể đọc kết quả một cách dễ dàng và 2) Tóm tắt và trình bày các kết quả xử lý nhanh và chính xác nhất có thể Chuyển định dạng trực tiếp từ cửa sổ OUTPUT đang kích hoạt File Save as… chọn tên file (file name:) chọn định dạng (RTF File) Chuyển định dạng qua câu lệnh ODS Với câu lệnh ODS ta có thể tạo định dạng mong muốn (XLS, DOC, RTF, HTML…) và lưu file kết quả đó và vị trí mong muốn trên máy tính ODS HTML FILE = "D:\SAS\KETQUA.XLS" ; PROC MEANS MEAN STD STDERR CV;
VAR KL; CLASS GIONG;
ODS HTML CLOSE; Với câu lệnh ODS HTML FILE = "D:\SAS\KETQUA.XLS" ; file KETQUA ở định dạng Excel (.XLS) sẽ được tạo ra tại thư mục SAS trên ổ D ( D:\SAS) Câu lệnh ODS HTML CLOSE; kết thúc lệnh ODS Kết quả thu được trên file excel như sau: BAI 1 THONG KE MO TA
HO VA TEN
The MEANS Procedure
Analysis Variable : KL GIONG N Obs Mean Std Dev Std Error Coeff of Variation
Trang 10Phần 2
Ước lượng và kiểm định giả thiết với phần mềm SAS
2.1 Giả thiết và đối thiết
Khi khảo sát một tổng thể (hoặc nhiều tổng thể) và xem xét một (hoặc nhiều) biến ngẫu nhiên có thể đưa ra một giả thiết nào đó liên quan đến phân phối của biến ngẫu nhiên hoặc nếu biết phân phối rồi thì đưa ra giả thiết về tham số của tổng thể Để có thể đưa ra một kết luận thống kê nào đó đối với giả thiết thì phải chọn mẫu ngẫu nhiên, tính tham số mẫu, chọn mức ý nghĩa sau đó đưa ra kết luận
Bài toán kiểm định tham số của phân phối có dạng H0 : = o với o là một số đã cho nào
đó Kết luận thống kê có dạng: “chấp nhận H0” hay “bác bỏ H0” Nhưng nếu đặt vấn đề như vậy thì cách giải quyết hết sức khó, vì nếu không chấp nhận H0: = o thì điều đó có nghĩa
là có thể chấp nhận một trong vô số khác o, do đó thường đưa ra bài toán dưới dạng cụ thể hơn nữa: cho giả thiết H0 và đối thiết H1, khi kết luận thì hoặc chấp nhận H0 hoặc bác bỏ
H0, và trong trường hợp này, tuy không hoàn toàn tương đương, nhưng coi như chấp nhận đối thiết H1
Nếu chấp nhận H0 trong lúc giả thiết đúng là H1 thì mắc sai lầm loại II và xác suất mắc sai
lầm này được gọi là rủi ro loại hai Ngược lại nếu bác bỏ H0 trong lúc giả thiết đúng chính
là H0 thì mắc sai lầm loại I và xác suất mắc sai lầm đó gọi là rủi ro loại một
Quyết định
Như vậy trong bài toán kiểm định giả thiết luôn luôn có hai loại rủi ro, loại I và loại II, tuỳ
vấn đề mà nhấn mạnh loại rủi ro nào Thông thường người ta hay tập trung chú ý vào sai lầm loại I và khi kiểm định phải khống chế sao cho rủi ro loại I không vượt quá một mức gọi là
mức ý nghĩa
Trước hết xem xét cụ thể bài toán kiểm định giả thiết H0: = o, đối thiết H1: = 1 với 1
là một giá trị khác o Đây là bài toán kiểm định giả thiết đơn Quy tắc kiểm định căn cứ vào hai giá trị cụ thể 1 và o, vào mức ý nghĩa và còn căn cứ vào cả sai lầm loại hai Việc này
về lý thuyết thống kê không gặp khó khăn gì
Sau đó mở rộng quy tắc sang cho bài toán kiểm định giả thiết kép H1: o; > o hoặc
< o, việc mở rộng này có khó khăn nhưng các nhà nghiên cứu lý thuyết xác suất thống kê
đã giải quyết được, do đó về sau khi kiểm định giả thiết H0 : = o có thể chọn một trong 3 đối thiết H1 sau:
Trang 11H1 : o gọi là đối thiết hai phía
H1 : > o gọi là đối thiết phải
H1 : < o gọi là đối thiết trái
Hai đối thiết sau gọi là đối thiết một phía Việc chọn đối thiết nào tuỳ thuộc vấn đề khảo sát
cụ thể
Nếu P , chấp nhận giả thiết H0
Nếu P < , Bác bỏ giả thiết H0 chấp nhận đối thiết H1
2.2 Kiểm định phân phối chuẩn
Đối với tất cả các phép thử đối với biến định lượng, đều giả thiết rằng số liệu thu thập được (số liệu thô) đều tuân theo phân phối chuẩn Nếu số liệu không tuân theo phân phối chuẩn thì các phép thử dưới đây sẽ không có hiệu lực Trong trường hợp này cần biến đổi số liệu về phân phối chuẩn hoặc sử dụng kiểm định phi tham số Giả thiết của phép thử:
H0: Số liệu có phân bố chuẩn và H1: Số liệu không có phân bố chuẩn
Ví dụ 2: Tăng trọng trung bình (gram/ngày) của 36 lợn nuôi vỗ béo giống Landrace được rút
ngẫu nhiên từ một trại chăn nuôi Số liệu thu được như sau:
577 596 594 612 600 584 618 627 588 601 606 559 615 607 608 591 565 586
621 623 598 602 581 631 570 595 603 605 616 574 578 600 596 619 636 589 Cán bộ kỹ thuật trại cho rằng tăng trọng trung bình của toàn đàn lợn trong trại là 607 gram/ngày Theo anh chị kết luận đó đúng hay sai, vì sao?
Trang 12Basic Statistical Measures
NOTE: The mode displayed is the smallest of 2 modes with a count of 2
Tests for Location: Mu0=0
Test -Statistic- -p Value -
Student's t t 192.7082 Pr > |t| <.0001
Sign M 18 Pr >= |M| <.0001
Signed Rank S 333 Pr >= |S| <.0001
Tests for Normality
Test Statistic - -p Value -
Trang 13BAI 1 THONG KE MO TA 09:32 Saturday, June 24, 2000 28
HO VA TEN
The UNIVARIATE Procedure
Variable: KL
Quantiles (Definition 5)
Quantile Estimate
1% 559.0
0% Min 559.0
Extreme Observations
Lowest Highest -
Value Obs Value Obs 559 12 621 19
565 17 623 20
570 25 627 8
574 30 631 24
577 1 636 35
Stem Leaf # Boxplot 63 6 1 |
63 1 1 |
62 7 1 |
62 13 2 |
61 5689 4 |
61 2 1 + -+
60 5678 4 | |
60 00123 5 * -*
59 5668 4 | + |
59 14 2 | |
58 689 3 + -+
58 14 2 |
57 78 2 |
57 04 2 |
56 5 1 |
56 |
55 9 1 |
+ + + +
Multiply Stem.Leaf by 10**+1
Trang 14BAI 1 THONG KE MO TA 09:32 Saturday, June 24, 2000 29
HO VA TEN
The UNIVARIATE Procedure
Variable: KL
Normal Probability Plot
637.5+ +*
| *++
| +*+
| *+*
| ****+
| *++
| ***
| ***+
597.5+ ***+
| **+
| ***
| +**
| +**
| *+*
| +*+
| +++
557.5+ ++* + + + + + + + + + + +
-2 -1 0 +1 +2
Giá trị P-Value = 0,9918 lớn hơn 0,05 (), như vậy H0 được chấp nhận Kết luận số liệu tuân
theo phân phối chuẩn
2.3 Kiểm định một giá trị trung bình bằng phép thử T
Trong thực tế ta không có thông tin về độ lệch chuẩn của quần thể (), phép thử T được sử
dụng để kiểm định giá trị trung bình và độ lệch chuẩn của mẫu (s) được sử dụng thay thế độ
lệch chuẩn quần thể Giả thiết của phép thử là số liệu tuân theo phân bố chuẩn
SAS CODE
DATA SAS2;
INPUT KL;
CARDS ;
577
596
594
589
;
PROC TTEST H0 = 607 ALPHA = .05 ;
VAR KL;
RUN ;
Trang 15Kết quả từ SAS
The TTEST Procedure
Statistics
Lower CL Upper CL Lower CL Upper CL
Variable N Mean Mean Mean Std Dev Std Dev Std Dev Std Err
2.4 Kiểm định 2 giá trị trung bình
Khi tiến hành thí nghiệm để so sánh 2 sự khác nhau giữa 2 công thức thí nghiệm, có 2 trường hợp chọn mẫu có thể xảy ra: 1) Chọn mẫu độc lập và 2) chọn mẫu theo cặp (xem 2.4, tr.23, Giáo trình Thiết kế thí nghiệm 2007) Tuỳ thuộc vào cách chọn mẫu bố trí thí nghiệm mà ta
có thể sử dụng phép thử T hay T cặp đôi cho phù hợp
2.4.1 Phép thử T cặp đôi
Đối với các thí nghiệm chọn mẫu theo cặp, điều kiện duy nhất của bài toán là kiểm tra phân
bố chuẩn của phần chênh lệch (d) số liệu giữa 2 công thức thí nghiệm
Với kiểm định 2 phía ta có giả thiết H0: d = 0 đối thiết H1: d 0 (d là trung bình của sự chênh lệch giữa 2 trung bình µ1 và µ2)
Ví dụ 3: Tăng trọng (pound) của 10 cặp bê sinh đôi giống hệt nhau dưới hai chế độ chăm sóc
khác nhau (A và B) Bê trong từng cặp được bắt thăm ngẫu nhiên về một trong hai cách chăm sóc
Hãy kiểm định giả thiết H0: Tăng trọng trung bình ở hai cách chăm sóc như nhau, đối thiết H1: Tăng trọng trung bình khác nhau ở hai cách chăm sóc với mức ý nghĩa = 0,05 Số liệu thu được như sau:
Trang 16Thay vì kiểm định hai mẫu bằng phép thử T cặp đôi, bài toán sẽ tiến hành kiểm định phần
chênh lệch giữa các cặp (D) với giá trị 0
Để tạo biến mới trong cơ sở dữ liệu của SAS ta có thể sử dụng câu lệnh logic Ví dụ ta tao ra
cột hiệu số của từng cặp theo lệnh D = A – B
TITLE 'BAI 3 SO SANH CAP DOI' ;
title2 'HO VA TEN' ;
PROC TTEST H0 = 0 ALPHA = .05 ;
VAR D;
RUN ;
Kết quả từ SAS:
BAI 3 SO SANH CAP DOI 5
HO VA TEN 20:38 Friday, June 23, 2000
The TTEST Procedure
Statistics
Lower CL Upper CL Lower CL Upper CL
Variable N Mean Mean Mean Std Dev Std Dev Std Dev
Xác suất P < 0,0001 vì vậy H0 bị bác bỏ và H1 được chấp nhận Kết luận rằng Tăng trọng
trung bình ở hai cách chăm sóc có sự sai khác
Trang 172.4.2 Kiểm định sự đồng nhất của phương sai
Đối với kiểm định 2 giá trị trung bình, ngoài giả thiết là số liệu tuân theo phân phối chuẩn
cong một vấn đề thứ 2 đặt ra là Hai phương sai có đồng nhất hay không?
Đối với kiểm định hai phía ta có giả thiết H0: Hai phương sai đồng nhất (²1 = ²2) và H1: Hai phương sai không đồng nhất (²1 ²2) Khi chấp nhận giả thiết H0, phương sai chung ()sẽ
được sử dụng để tiến hành kiểm định trong phép thử T; ngược lại (bác bỏ H0) thì phép thử T gần chính xác sẽ được thực hiện
Ví dụ 3: Để so sánh khối lượng của 2 giống bò, tiến hành chọn ngẫu nhiên và cân 12 con đối
với giống thứ nhất và 15 con đối với giống thứ 2 Khối lượng (kg) thu được như sau:
Giống bò thứ nhất 187,6 180,3 198,6 190,7 196,3 203,8 190,2 201,0
194,7 221,1 186,7 203,1 Giống bò thứ hai 148,1 146,2 152,8 135,3 151,2 146,3 163,5 146,6
162,4 140,2 159,4 181,8 165,1 165,0 141,6 Theo anh (chị), khối lượng của 2 giống bò có sự sai khác không?
2.4.3 Phép thử T
Sử dụng phép thử T để kiểm định 2 giá trị trung bình khi không biết độ lệch chuẩn của quần
thể () Minitab sẽ tính khoảng tin cậy (CI 95%) sự chênh lệch giữa 2 giá trị trung bình quần thể và thực hiện phép kiểm định Đối với kiểm định 2 phía ta có giả thiết: H0: µ1 = µ2 với đối thiết H1: µ1 µ2; trong đó µ1 và µ2 là giá trị trung bình của quần thể thứ nhất và thứ 2
TITLE 'SO SANH 2 GIA TRI TRUNG BINH MAU DOC LAP' ;
TITLE2 'HO VA TEN' ;
PROC TTEST ;
CLASS GIONG;
VAR P;
RUN ;
SO SANH 2 GIA TRI TRUNG BINH MAU DOC LAP 2
HO VA TEN 16:48 Sunday, June 25, 2000 The TTEST Procedure
Trang 18Xác suất p-value = 0,000 < 0,05 () vì vậy H0 bị bác bỏ và H1 được chấp nhận Kết luận rằng
Khối lượng của hai giống bò có sự sai khác (P < 0,001)
Trang 192.5 Phân tích phương sai
Phân tích phương sai (Analysis of Variance - ANOVA) là công cụ hữu ích để so sánh nhiều
giá trị trung bình Điều kiện của bài toán phân tích phương sai là 1) số liệu tuân theo phân bố chuẩn và 2) phương sai đồng nhất Trong khuôn khổ giáo trình này chúng tôi chỉ đề cập đến việc kiểm tra điều kiện của bài toán đối với các mô hình thiết kế thí nghiệm đơn giản (Thí nghiệm một yếu tố hoàn toàn ngẫu nhiên)
Với kiểm định 2 phía ta có giả thiết H0: 1 = 2 = = a đối thiết H1: 1 2 a ( là trung bình của quần thể ở công thức thí nghiệm thứ 1, 2, a)
2.5.1 Thí nghiệm một yếu tố hoàn toàn ngẫu nhiên
Xét trường hợp đơn giản nhất đối với bài toán phân tích phương sai Chỉ có một yếu tố duy nhất trong thí nghiệm, các yếu tố phi thí nghiệm còn lại được coi là có tác động như nhau đến đối tượng thí nghiệm
Ví dụ 4: Theo dõi tăng trọng của cá (kg)
trong thí nghiệm với 5 công thức nuôi (A,
B, C, D và E) Hãy cho biết tăng trọng của
cá ở các công thức nuôi Nếu có sự khác
nhau, tiến hành so sánh sự sai khác của
từng cặp giá trị trung bình có thể bằng các
chữ cái
0,95 0,43 0,70 1,00 0,90 0,85 0,45 0,90 0,95 1,00 0,85 0,40 0,75 0,90 0,95 0,90 0,42 0,70 0,90 0,95
Mô hình phân tích
yi j = + ai + i j
yij = quan sát thứ j ở công thức i,
ai = ảnh hưởng của công thức i và
ij = sai số ngẫu nhiên; các ij độc lập, phân phối chuẩn N(0,2
TITLE 'PHAN TICH PHUONG SAI 1 YEU TO' ;
TITLE2 'HO VA TEN' ;
PROC ANOVA ;
CLASS KP;
MODEL KL = KP;
RUN ;
Trang 20The ANOVA Procedure
Xác suất p-value = 0,000 < 0,05 () vì vậy H0 bị bác bỏ và H1 được chấp nhận Kết luận rằng
Tăng trọng trung bình của cá ở các công thức thức ăn có sự sai khác (P < 0,001)
So sánh cặp khi bác bỏ giả thiết H0 chấp nhận giả thiết H1
The ANOVA Procedure
Duncan's Multiple Range Test for KL
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate Alpha 0.05
Error Degrees of Freedom 15
Error Mean Square 0.003128
Number of Means 2 3 4 5
Critical Range .08430 08837 09090 09262
Means with the same letter are not significantly different
Duncan Grouping Mean N KP
Trang 212.5.2 Thí nghiệm một yếu tố khối ngẫu nhiên đầy đủ
Xem xét một thí nghiệm mà đối tượng thí nghiệm chịu tác động đồng thời của một yếu tố chính (yếu tố thí nghịêm) và yếu tố phụ (khối)
Ví dụ 5: Nghiên cứu số lượng tế bào lymphô ở chuột ( 1000 tế bào mm-3
i = ảnh hưởng của mức i của nhân tố,
j = ảnh hưởng của khối j ,
ij là sai số ngẫu nhiên; các ij độc lập, phân phối chuẩn N(0,2
TITLE 'KHOI NGAU NHIEN DAY DU' ;
TITLE2 'HO VA TEN' ;
PROC ANOVA ;
CLASS THUOC LUA;
MODEL TEBAO = THUOC LUA;
MEANS THUOC / DUNCAN ;
RUN ;
Kết quả từ SAS
KHOI NGAU NHIEN DAY DU 10:29 Monday, June 26, 2000 4
HO VA TEN
The ANOVA Procedure
Class Level Information
Class Levels Values
THUOC 4 A B C D
LUA 5 1 2 3 4 5
Number of observations 20
Trang 22The ANOVA Procedure
Dependent Variable: TEBAO
Sum of
Source DF Squares Mean Square F Value Pr > F Model 7 8.24850000 1.17835714 22.20 <.0001 Error 12 0.63700000 0.05308333
KHOI NGAU NHIEN DAY DU 10:29 Monday, June 26, 2000 6
HO VA TEN
The ANOVA Procedure
Duncan's Multiple Range Test for TEBAO
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 0.053083
Number of Means 2 3 4
Critical Range .3175 3323 3413
Means with the same letter are not significantly different
Duncan Grouping Mean N THUOC
Xác suất của phép thử đối với Thuốc P < 0,0001 , bác bỏ giả thiết H0 và chấp nhận đối thiết
H1 Kết luận thuốc có ảnh hưởng khác nhau lên tế bào lymphô của chuột (P < 0,001)
Trang 23Ví dụ 6: Một thí nghiệm được tiến hành để xác
định ảnh hưởng của 3 công thức thức ăn (A1,
A2 và A3) đến tăng trọng trung bình trên ngày
(gram / ngày) của bê đực Bê đực được cân và
chia thành 4 khối dựa theo khối lượng bắt đầu
thí nghiệm Trong mỗi khối có 6 động vật thí
nghiệm được chọn ra và được phân ngẫu nhiên
về với các nghiệm thức Số liệu thu thập sau
khi kết thúc thí nghiệm như sau:
yi jk = + i + j + ij + i j
yi jk là quan sát thứ k của khối thứ j và nghiệm thức thứ i,
i chênh lệch do ảnh hưởng của mức i của nhân tố,
j chênh lệch do ảnh hưởng của khối j,
ij chênh lệch do tương tác giữa nghiệm thức và khối,
ijk sai số ngẫu nhiên; các ijk độc lập, phân phối chuẩn N(0,2
TITLE 'KHOI NGAU NHIEN DAY DU TUONG TAC' ;
TITLE2 'HO VA TEN' ;
The ANOVA Procedure
Class Level Information
Class Levels Values
CT 3 A1 A2 A3
KHOI 4 I II III IV
Number of observations 24
Trang 24KHOI NGAU NHIEN DAY DU TUONG TAC 11
HO VA TEN 10:29 Monday, June 26, 2000 The ANOVA Procedure
Dependent Variable: KL
Sum of
Source DF Squares Mean Square F Value Pr > F Model 11 49929.83333 4539.07576 25.81 <.0001 Error 12 2110.00000 175.83333
KHOI NGAU NHIEN DAY DU TUONG TAC 12
HO VA TEN 10:29 Monday, June 26, 2000 The ANOVA Procedure
Duncan's Multiple Range Test for KL
NOTE: This test controls the Type I comparisonwise error rate, not the experimentwise error rate
Alpha 0.05
Error Degrees of Freedom 12
Error Mean Square 175.8333
Number of Means 2 3
Critical Range 14.45 15.12
Means with the same letter are not significantly different
Duncan Grouping Mean N CT
A 828.750 8 A1
A
A 814.625 8 A2
B 784.875 8 A3
Xác suất của phép thử đối với yếu tố Thức ăn P = 0,000 và tương tác (CT*KHOI) P = 0,001 <
0,05 (), bác bỏ giả thiết H0 và chấp nhận đối thiết H1 Kết luận công thức ăn có ảnh đến tăng trọng của bê và có tương tác giữa công thức thức ăn và khối lượng bê vỗ béo (P < 0,05)
Trang 252.5.3 Hoán vị (cross over)
Trong thiết kế thí nghiệm kiểu hoán vị, có 2 hay nhiều công thức thí nghiệm được thực hiện trên cùng một động vật nhưng ở các giai đoạn khác nhau Số liệu được thu thập trên đối tượng thí nghiệm nhiều lần tương ứng với các công thức thí nghiệm khác nhau Việc bố trí các nghiệm thức trên một động vật thí nghiệm là ngẫu nhiên và từng động vật được xem như một khối Trường hợp đặc biệt có 2 công thức thí nghiệm sẽ có một nhóm động vật tham gia thí nghiệm với công thức thí nghiệm thứ nhất, nhóm còn lại sẽ tham gia công thức 2 Sau một thời gian các công thức được thay đổi ngược lại
Ví dụ 7: Một thí nghiệm được tiến hành nhằm nghiên cứu ảnh hưởng của 2 khẩu phần thức
ăn đến sản lượng sữa Từng bò được thử nghiệm trên 2 công thức theo từng giai đoạn khác nhau Số liệu thu thập trình bày ở bảng sau:
kpi = chênh lệch do ảnh hưởng của khẩu phần i,
nhomj = chênh lệch do ảnh hưởng của nhóm bò j,
boijk = ảnh hưởng ngẫu nhiên của bò k,
ei j k = sai số ngẫu nhiên; giả sử các ei j k độc lập, phân phối chuẩn N(0, ²)
Trang 26Class Level Information
Class Levels Values
CT 2 1 2
BO 10 1 2 3 4 5 6 7 8 9 10
NHOM 2 1 2
Number of Observations Read 20
Number of Observations Used 20
The SAS System 14:01 Friday, October 29, 2009 93
Trang 27kpi = chênh lệch do ảnh hưởng của khẩu phần i,
nhomj = chênh lệch do ảnh hưởng của nhóm bò j,
gdk = chênh lệch do ảnh hưởng của giai đoạn k,
boijk = ảnh hưởng ngẫu nhiên của bò l trong nhom k,
ei j kl = sai số ngẫu nhiên; giả sử các ei j kl độc lập, phân phối chuẩn N(0, ²)
The SAS System 14:01 Friday, October 29, 2009 99
The Mixed Procedure
Model Information
Data Set WORK.CROSS
Dependent Variable SLS
Covariance Structure Variance Components
Estimation Method REML
Residual Variance Method Profile
Fixed Effects SE Method Model-Based
Degrees of Freedom Method Containment
Class Level Information
Class Levels Values
Number of Observations Read 20
Number of Observations Used 20
Number of Observations Not Used 0