Tiêu chuẩn kiểm định giả thuyết thống kê Miền bác bỏ W được xây dựng từ thống kê T của mẫu gọi là tiêu chuẩn kiểm định và được xác định như sau: Từ biến ngẫu nhiên gốc X của tổng thể l
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
Trang 3LỜI CẢM ƠN
Trước tiên em xin bày tỏ lòng biết ơn sâu sắc tới PGS TS Trần Trọng Nguyên đã tận tình hướng dẫn, giúp đỡ em trong suốt quá trình thực hiện đề tài
Em cũng xin trân trọng cảm ơn các thầy cô giáo trong tổ toán ứng dụng
đã giảng dạy và ban chủ nhiệm khoa Toán đã tạo điều kiện cho em hoàn thành tốt khóa luận này
Em xin trân trọng cảm ơn!
Hà Nội, tháng 5 năm 2017
Sinh viên
Trần Thị Ngọc Mai
Trang 4LỜI CAM ĐOAN
Khóa luận tốt nghiệp này là quá trình học tập, nghiên cứu và nỗ lực của bản thân em dưới sự chỉ bảo của các thầy, cô giáo, đặc biệt là sự chỉ bảo, hướng dẫn tận tình của thầy giáo Trần Trọng Nguyên
Khóa luận tốt nghiệp với đề tài: “Phân tích phương sai với SPSS và ứng dụng” không có sự trùng lặp với các khóa luận khác và kết quả thu được trong để tài này là hoàn toàn xác thực, có sự kế thừa của một số tài liệu khác
Hà Nội, tháng 5 năm 2017
Sinh viên
Trần Thị Ngọc Mai
Trang 5MỤC LỤC
Trang
MỞ ĐẦU 1
1 Lí do chọn đề tài 1
2 Mục đích nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 2
5 Cấu trúc khóa luận 2
NỘI DUNG 3
CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ 3
1.1 Biến ngẫu nhiên 3
1.1.1 Khái niệm 3
1.1.2 Phân loại 3
1.1.2.1 Biến ngẫu nhiên rời rạc 3
1.1.2.2 Biến ngẫu nhiên liên tục 4
1.1.3 Đặc trưng của biến ngẫu nhiên 4
1.1.3.1 Kỳ vọng 4
1.1.3.2 Phương sai 5
1.1.3.3 Phân vị, trung vị 6
1.2 Hàm phân phối 7
1.2.1 Khái niệm 7
1.2.2 Tính chất 7
1.2.3 Một số hàm phân phối thường gặp 7
1.2.3.1 Phân phối chuẩn 7
1.2.3.2 Phân phối 2 8
1.2.3.3 Phân phối Student 8
1.2.3.4 Phân phối Fisher 9
Trang 61.3 Mẫu ngẫu nhiên 9
1.3.1 Khái niệm 9
1.3.2 Đặc trưng mẫu 10
1.3.2.1 Trung bình mẫu 10
1.3.2.2 Phương sai mẫu 10
1.4 Bài toán kiểm định giả thuyết 11
1.4.1 Khái niệm 11
1.4.2 Tiêu chuẩn kiểm định 11
1.4.3 Miền bác bỏ giả thuyết 12
1.4.4 Giá trị quan sát của tiêu chuẩn kiểm định 12
1.4.5 Sai lầm trong bài toán kiểm định 12
1.5 Mô hình hồi quy 13
1.5.1 Hàm hồi quy 13
1.5.2 Hồi quy tổng thể và hồi quy mẫu 13
1.5.3 Hồi quy tuyến tính 14
1.5.4 Hồi quy đơn và hồi quy bội 14
1.5.5 Mô hình hồi quy với biến giả 15
1.6 Phương pháp bình phương cực tiểu 15
KẾT LUẬN CHƯƠNG 1 17
CHƯƠNG 2 PHÂN TÍCH PHƯƠNG SAI 18
2.1 Bài toán phân tích phương sai 18
2.1.1 Bài toán phân tích phương sai cổ điển 18
2.1.2 Bài toán phân tích phương sai 19
2.2 Phương pháp chung 20
2.3 Phân loại phân tích phương sai 21
2.3.1 Phân tích phương sai một nhân tố 21
2.3.1.1 Phân tích phương sai một nhân tố hiệu quả xác định 21
Trang 72.3.1.2 Phân tích phương sai một nhân tố hiệu quả ngẫu nhiên 38
2.3.2 Phân tích phương sai hai nhân tố hiệu quả xác định 39
2.3.2.1 Mô hình phân tích phương sai hai nhân tố tác động riêng rẽ 39
2.3.2.2 Kĩ thuật phân tích và các kiểm định 40
2.3.2.3 Mô hình phân tích phương sai hai nhân tố tác động đồng thời 42 KẾT LUẬN CHƯƠNG 2 45
CHƯƠNG 3 SPSS VỚI PHÂN TÍCH PHƯƠNG SAI 46
KẾT LUẬN CHƯƠNG 3 52
KẾT LUẬN 53
TÀI LIỆU THAM KHẢO 54
Trang 8MỞ ĐẦU
1 Lí do chọn đề tài
Xác suất thống kê là một môn học được đưa vào giảng dạy ở hầu hết các trường đại học, cao đẳng hay trung cấp Nó là một ngành khoa học nghiên cứu các hiện tượng ngẫu nhiên và đã có những phát triển vượt bậc trong thế kỉ
XX Đầu tiên xác suất xuất hiện trong các trò chơi giải trí cách đây vài thế kỉ, dần dần ngày càng có nhiều nhà toán học nghiên cứu về lĩnh vực này hơn như Blaise Pascal, James Bernoulli, Pierre Simon Laplace, Ngày nay ngành khoa học này được mọi người biết đến không chỉ là một ngành toán học chặt chẽ về lí thuyết mà nó còn có ứng dụng rộng rãi trong nhiều ngành khác nhau như kinh tế, kĩ thuật, quản lí xã hội, khoa học tự nhiên…
Ở nước ta hiện nay, trong quá trình công nghiệp hóa, hiện đại hóa, nền kinh tế có nhiều biến động thì các khái niệm liên quan đến xác suất thống kê như: dự báo, chuẩn đoán, kiểm định sự tăng giảm của giá cả thị trường,… ngày càng trở nên quen thuộc Chính vì vậy xác suất thống kê trở thành một công cụ hữu ích để giải quyết nhiều vấn đề trong cuộc sống
Phân tích phương sai là một trong những nội dung quan trọng của thống kê phân tích Nội dung cơ bản của nó về mặt kĩ thuật là tìm cách phân
chia tổng sai số bình phương của một biến ngẫu nhiên X thành những bộ phận khác nhau mà mỗi bộ phận này phản ánh tổng bình phương sai số của X theo
một đặc trưng nào đó Đặc trưng được xác định tùy thuộc mục đích nghiên cứu thống kê Vì vậy với mong muốn tìm hiểu sâu hơn về phân tích phương sai, dưới sự hướng dẫn của thầy giáo Trần Trọng Nguyên em đã chọn đề tài:
"Phân tích phương sai với SPSS và ứng dụng" để hoàn thành khóa luận tốt
nghiệp của mình
Trang 92 Mục đích nghiên cứu
- Nghiên cứu bài toán phân tích phương sai
- Nghiên cứu cách sử dụng phần mềm SPSS trong phân tích phương sai
3 Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các kiến thức về phân tích phương sai, phần mềm SPSS
- Phạm vi nghiên cứu: Phân tích phương sai trong thống kê phân tích
4 Phương pháp nghiên cứu
- Đọc hiểu tài liệu
- Đánh giá, phân tích và tổng hợp
5 Cấu trúc khóa luận
Ngoài phần mở đầu, kết luận và tài liệu tham khảo, khóa luận gồm 3 chương:
Chương 1 Một số kiến thức cơ sở
Chương 2 Phân tích phương sai
Chương 3 SPSS với phân tích phương sai
Trang 10NỘI DUNG Chương 1 MỘT SỐ KIẾN THỨC CƠ SỞ
Trong chương 1, khóa luận sẽ trình bày một số kiến thức cơ sở về biến ngẫu nhiên, mẫu ngẫu nhiên, hàm phân phối,… để làm nền tảng kiến thức cho các chương sau
1.1 Biến ngẫu nhiên
1.1.1 Khái niệm
Một đại lượng (hay một biến) nhận các giá trị của nó với xác suất tương ứng nào đấy gọi là đại lượng ngẫu nhiên hay biến ngẫu nhiên
Ta thường ký hiệu biến ngẫu nhiên bởi các chữ X, Y, Z,… hoặc , , ,
Các giá trị mà biến ngẫu nhiên nhận thường viết bằng chữ nhỏ x, y, z,…
1.1.2 Phân loại
Căn cứ vào giá trị mà biến ngẫu nhiên nhận ta phân các biến ngẫu nhiên ra làm 2 loại chính: biến ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục
1.1.2.1 Biến ngẫu nhiên rời rạc
Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu hạn điểm hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến ngẫu nhiên rời rạc
Giả sử biến ngẫu nhiên X nhận các giá trị x x1, 2, ,x n, và
Trang 111.1.2.2 Biến ngẫu nhiên liên tục
Nếu tập các giá trị biến ngẫu nhiên nhận lấp đầy một khoảng nào đó, khi đó biến ngẫu nhiên được gọi là biến ngẫu nhiên liên tục
- Để mô tả (hoặc xác định) biến ngẫu nhiên liên tục ta dùng khái niệm hàm mật độ
Hàm p(x) được gọi là hàm mật độ của biến ngẫu nhiên nào đấy nếu
thỏa mãn 2 điều kiện sau:
Trong trường hợp này xác suất để biến ngẫu nhiên X thuộc vào khoảng
0
x x
Trang 12Nếu chuỗi (1.1) hội tụ tuyệt đối (trường hợp X rời rạc) hay tích phân (1.2) hội tụ tuyệt đối (trường hợp X liên tục) thì ta gọi EX là kỳ vọng của biến
ngẫu nhiên X, trường hợp ngược lại ta nói X không tồn tại kỳ vọng
Kỳ vọng mang ý nghĩa là giá trị trung bình của biến ngẫu nhiên X
1.1.3.2 Phương sai
Khái niệm
Phương sai hay độ lệch bình phương trung bình của biến ngẫu nhiên X
là đại lượng đo sự phân tán bình phương trung bình của X xung quanh giá trị trung bình EX Nói cách khác phương sai của X là kỳ vọng của 2
Trang 13Phân vị mức là giá trị tới hạn mức 1
Giá trị tới hạn mức 1 của biến ngẫu nhiên X được ký hiệu là x1 và xác định như sau: P X x1 1
Trường hợp biến ngẫu nhiên X rời rạc có miền gia trị R và hàm X
khối lượng xác suất p X x P X x
Phân vị mức ½ được gọi là median hay trung vị của X, ký hiệu Med
X Như vậy trung vị là điểm phân chia phân bố xác suất thành hai phần
bằng nhau
nếu F X x i nếu F X x i F X x i1
Trang 141.2.3 Một số hàm phân phối thường gặp
1.2.3.1 Phân phối chuẩn 2
Đường cong mật độ này đối xứng qua đường x , nhận trục 0x làm
tiệm cận ngang và có giá trị cực đại tại x với tung độ cực đại là 1
2
Trường hợp đặc biệt: X có phân phối chuẩn N(0, 1) Khi đó hàm mật độ
được kí hiệu là x
Trang 15là hàm đối xứng qua trục tung
Hàm phân phối N(0, 1) được kí hiệu x
1.2.3.2 Phân phối 2
Biến ngẫu nhiên liên tục X có phân phối 2 với n bậc tự do (nN* )
nếu X có hàm mật độ f được xác định trên R bởi:
1
2 2 2
1
220
P X n
X n thì EXn V X, ar 2n
1.2.3.3 Phân phối Student
Biến ngẫu nhiên liên tục X có phân phối Student (hay phân phối t) với n bậc tự do khi X có hàm mật độ f được xác định bởi:
nếu x0
nếu x0
Trang 16
1
2 2
12
Ký hiệu: X student n hay X t n
Giả sử T t n , nếu P T c thì c được gọi là bách phân vị mức
của phân phối t n , ký hiệu t n
Vậy n
1.2.3.4 Phân phối Fisher
Biến ngẫu nhiên liên tục X có phân phối Fisher với n1 và n2 bậc tự do
khi X có hàm mật độ f được xác định bởi:
Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó Ta gọi X i là
việc quan sát lần thứ i về biến ngẫu nhiên X Khi đó X X1, 2, ,X n được gọi
là mẫu ngẫu nhiên, n được gọi là cỡ mẫu hay số lần quan sát Như vậy mẫu ngẫu nhiên cỡ n thực chất là n biến ngẫu nhiên độc lập, cùng phân phối như
biến ngẫu nhiên X
Từ nay về sau khi nói rằng ta có một mẫu ngẫu nhiên cỡ n được rút ra
từ biến ngẫu nhiên X, ta sẽ hiểu đó là n biến ngẫu nhiên độc lập cùng phân
phối nếu ta không quan tâm đến kết quả cụ thể quan sát được
Trang 171.3.2 Đặc trưng mẫu
1.3.2.1 Trung bình mẫu
Cho biến ngẫu nhiên X và mẫu ngẫu nhiên từ X là X X1, 2, ,X n
Người ta gọi trung bình mẫu là biến ngẫu nhiên có dạng:
1
1 n
i i
Do X X1, 2, ,X n là các biến ngẫu nhiên độc lập cùng phân phối như X,
nên trung bình mẫu là một biến ngẫu nhiên Do đó ta lại tìm kỳ vọng và
phương sai của X :
1
n i i
1.3.2.2 Phương sai mẫu
Cho biến ngẫu nhiên X và mẫu ngẫu nhiên từ X là X X1, 2, ,X n Người ta gọi phương sai mẫu là biến ngẫu nhiên có dạng:
n i i
Trang 181.4.2 Tiêu chuẩn kiểm định giả thuyết thống kê
Miền bác bỏ W được xây dựng từ thống kê T của mẫu gọi là tiêu
chuẩn kiểm định và được xác định như sau:
Từ biến ngẫu nhiên gốc X của tổng thể lập mẫu ngẫu nhiên kích thước n:
Trang 19Nếu H0 đúng thì thống kê T có quy luật phân bố xác suất xác định, từ
đó có thể xây dựng miền bác bỏ W
1.4.3 Miền bác bỏ giả thuyết
Sau khi đã chọn tiêu chuẩn kiểm dịnh T , với bé cho trước (thường
được lấy bằng 0,05 hoặc 0,01) và với điều kiện H0 đúng ta có thể tìm được miền W sao cho T nhận giá trị trong miền W với xác suất bằng :
Giá trị được gọi là mức ý nghĩa của kiểm định và miền W gọi là miền bác bỏ giả thuyết H với mức ý nghĩa 0
1.4.4 Giá trị quan sát của tiêu chuẩn kiểm định
Thực hiện phép thử với mẫu ngẫu nhiên X X X1, 2, ,X n thu được mẫu cụ thể xx x1, 2, ,x n, thay giá trị này vào thống kê
1.4.5 Sai lầm trong bài toán kiểm định
Sai lầm loại I: Bác bỏ giả thuyết H0 trong khi H0 đúng
Xác suất mắc sai lầm loại I đúng bằng mức ý nghĩa Thật vậy, xác suất ta bác bỏ H0 bằng xác suất biến cố TW, do đó khi H0 đúng thì xác suất này là xác suất có điều kiện P T W / H0
Sai lầm loại I sinh ra do kích thước mẫu quá nhỏ, do phương pháp lấy mẫu
Sai lầm loại II: Thừa nhận giả thuyết H0 trong khi H0 sai
Điều này xảy ra khi giá trị quan sát T không thuộc miền bác bỏ W qs
trong khi H1 đúng
Vậy xác suất sai lầm loại II là và được xác định như sau:
Trang 201.5 Mô hình hồi quy
1.5.1 Hàm hồi quy
Mô hình hồi quy là sự phân tích mối quan hệ giữa các biến, là phân tích
sự phụ thuộc của biến phụ thuộc vào một hay nhiều biến độc lập
Giả sử có cơ sở cho rằng sự biến động của Y (chẳng hạn) phụ thuộc vào
tình trạng của các biến còn lại X X2, 3, ,X k Như vậy chúng ta đã coi như các biến X X2, 3, ,X k là phi ngẫu nhiên Trong trường hợp này với mỗi trạng thái của X X2, 3, ,X k biến ngẫu nhiên Y có một phân phối có điều kiện tương ứng
/ 2, , k
Khi X2, ,X k x21, ,x k1 xác định duy nhất 1
2/ , , k
Khi X2, ,X k x2i, ,x ki xác định duy nhất E Y i / X2, ,X k
Quan hệ trên xác định một hàm số biểu thị quan hệ phụ thuộc của giá
trị trung bình có điều kiện của Y theo các biến được coi là phi ngẫu nhiên
2 3
(X X, , ,X k)
Định nghĩa1.1: Hàm hồi quy của Y theo X X2, 3, ,X k là trung bình có
điều kiện của Y theo X X2, 3, ,X k
Ta có thể viết: E Y X / 2, ,X k f X 2, ,X k (1.5)
Và gọi f là hàm hồi quy của Y theo (X X2, 3, ,X k) Y gọi là biến phụ
thuộc và (X X2, 3, ,X k) gọi là các biến độc lập
Trường hợp đơn giản nhất: E Y X / f X ta có một hồi quy đơn Hồi quy với hơn một biến độc lập ta gọi là một hồi quy bội
1.5.2 Hồi quy tổng thể và hồi quy mẫu
Trong thống kê các biến Y vàX2, ,X k phải được đặt trên một tổng thể với tư cách là một tập các đối tượng mà trên đó các biến này có thể biểu hiện trạng thái của mình
Trang 21Định nghĩa1.2: Giả sử tổng thể đang xét có số đông cá thể, với cá thể i biến
Y và X2, ,X knhận bộ giá trị Y i và X2i, ,X ki ta có quan hệ sau nhận được
từ (1.1) và gọi là hồi quy tổng thể: Y i E Y X / 2i, ,X kiU i (1.6)
Trong (1.6) U gọi là nhiễu hay sai số ngẫu nhiên, nó thể hiện sự sai i
lệch của cá thể so với trung bình khi sử dụng (1.5)
Để ước lượng E Y X / 2i, ,X ki người ta sử dụng phương pháp mẫu Giả sử có mẫu ngẫu nhiên kích thước n: WY X, 2, ,X k, từ mẫu này người ta ước lượng E Y X / 2i, ,X ki bằng một phương pháp nào đó và nhận được Y i g Y X i, 2i, ,X ki ta gọi đây là ước lượng của Y i
Quan hệ của Y i và ước lượng của nó có thể mô tả như sau: Y i Y i e i (1.7)
(1.7) gọi là hồi quy mẫu và e i gọi là phần dư của Y i trong hồi quy mẫu
1.5.3 Hồi quy tuyến tính
Trong (1.5) khi xem xét cấu trúc của f, người ta có thể quan tâm đến hai
hai vấn đề:
- Thứ nhất là các biến độc lập: với bậc của các biến độc lập ta có các hàm tuyến tính hay phi tuyến tính theo nghĩa giải tích
- Thứ hai là các tham số cấu trúc của hàm hồi quy f : với bậc của các
tham số người ta chia hàm hồi quy thành các dạng hồi quy tuyến tính hay phi tuyến tính
Do yêu cầu của các kĩ thuật ước lượng cũng như ý nghĩa các tham số cấu trúc trong phân tích hồi quy, người ta quan niệm một hồi quy tuyến tính là
hồi quy có f tuyến tính theo các tham số
1.5.4 Hồi quy đơn và hồi quy bội
Mô hình hồi quy đơn là mô hình hồi quy với 1 biến độc lập duy nhất, biến này giải thích cho biến phụ thuộc với một ý nghĩa duy nhất
Trang 22Trong trường hợp hồi quy tuyến tính, hồi quy đơn luôn có dạng:
Hồi quy mẫu tương ứng được mô tả như sau: Y 1 2X2 k X k
1.5.5 Mô hình hồi quy với biến giả
Trong phân tích hồi quy, biến phụ thuộc thường bị tác động không chỉ bởi các biến có thể lượng hóa được ngay theo tỷ lệ đã xác định (ví dụ như thu nhập, sản lượng, giá cả,…), mà còn bởi các biến có bản chất định tính (như giới tính, chủng tộc, màu da, tôn giáo,…)
Do các biến định tính như vậy thường mô tả sự xuất hiện hay thiếu vắng một tính chất hay đặc điểm, như nam hay nữ, đen hay trắng, theo tôn giáo hay không theo tôn giáo,…, phương pháp lượng hóa các thuộc tính như vậy là thiết lập các biến nhân tạo với giá trị 1 biểu thị xuất hiện thuộc tính đó,
và giá trị 0 biểu thị không xuất hiện thuộc tính đó Các biến nhận giá trị 0 và 1
được gọi là các biến giả
Các biến giả có thể được sử dụng trong mô hình hồi quy một cách dễ dàng như các biến định lượng
1.6 Phương pháp bình phương cực tiểu
Cho các biến độc lập X và biến phụ thuộc Y, giả sử ta có hàm hồi quy
tổng thể dạng tuyến tính: Y i E Y X / i u i 1 2X iu i (1.8)
Với mẫu quan sát (X 1 , Y 1 ), (X 2 , Y 2 ), …, (X n , Y n )
Ta có hàm hồi quy mẫu: Y i 1 2X i (1.9)
Và Y i 1 2X i u i Y i u i (1.10)
Trang 23Vấn đề đặt ra là sử dụng các dữ liệu của X và Y để tìm ước lượng tốt nhất
cho 1, 2 thỏa mãn tổng bình phương các phần tử dư đạt giá trị nhỏ nhất
Tức là ta cần phải xác định 1, 2 sao cho
1 2
1 2
Trang 24KẾT LUẬN CHƯƠNG 1
Trong chương này, khóa luận đã đưa ra được một số cơ sở lý thuyết: khái niệm, phân loại và đặc trưng của biến ngẫu nhiên, mẫu ngẫu nhiên; khái niệm, tính chất của hàm phân phối và một số loại phân phối; khái niệm về bài toán kiểm định giả thuyết và mô hình hồi quy; phương pháp bình phương cực tiểu Đây là các tiền đề lý luận để xây dựng kiến thức trong các chương sau
Trang 25Chương 2 PHÂN TÍCH PHƯƠNG SAI
Phân tích phương sai là một trong những nội dung của thống kê phân tích Nội dung cơ bản của phân tích phương sai về mặt kĩ thuật là tìm cách phân chia tổng sai số bình phương của một biến ngẫu nhiên X thành những
bộ phận khác nhau mà mỗi bộ phận này phản ánh tổng bình phương sai số của X theo một đặc trưng nào đó Đặc trưng được xác định tùy thuộc mục đích nghiên cứu thống kê Trong giới hạn chương 2, phân tích phương sai sẽ được đề cập như một ứng dụng thống kê trong phân tích số liệu
2.1 Bài toán phân tích phương sai
2.1.1 Bài toán phân tích phương sai cổ điển
Cho X là một biến ngẫu nhiên có trung bình E(X), biến F định tính hay
được định tính hóa nhờ các dấu hiệu F F1, 2, ,F k Giả sử có căn cứ nào đó cho rằng các giá trị trung bình E X F không bằng nhau / i
Khi đó bài toán phân tích phương sai là bài toán kiểm định giả thuyết
H0: E X F / im (đồng nhất bằng m) và giả thuyết đối H1: E X F / im
(không đồng nhất bằng m)
F được gọi là nhân tố phân tích phương sai
Mô hình phân tích phương sai một nhân tố (F) đối với biến ngẫu nhiên
X có thể mô tả như sau:
Với cá thể thứ i có dấu hiệu F ta có: j Xij m a j uij (2.1) Trong đó: a là trung bình của các cá thể nhóm j (dấu hiệu j F ) j
j
U : i.d.d N(0, 𝜎2)
Kiểm định giả thuyết H0:a j 0 với giả thuyết đối H a1: j 0
Có thể mở rộng mô hình (2.1) cho hai hay nhiều nhân tố, chẳng hạn mô hình phân tích phương sai hai nhân tố có thể mô tả như sau:
Trang 26ijk j k jk ijk
X m a b c u (2.2) Tùy thuộc vào tính chất của mẫu từ tổng thể, người ta chia mô hình này thành hai loại: mô hình phân tích phương sai hiệu quả xác định (a b là các j, k
số thực xác định) và mô hình phân tích phương sai hiệu quả ngẫu nhiên (, ,
j k jk
a b c là biến ngẫu nhiên)
Trong ứng dụng thực tế, một mô hình phương sai mà có các nhân tố là xác định trước khi nghiên cứu, thì ta nói đó là mô hình hiệu quả xác định, được sử dụng khi nghiên cứu một tổng thể theo các dấu hiệu Còn ngược lại,
ta sẽ có mô hình hiệu quả ngẫu nhiên, được sử dụng khi nghiên cứu nhiều tổng thể tương tự mà mỗi tổng thể ta có một mẫu
Thông thường “nhân tố” phân tích F được coi là nhân tố hiệu quả xác
định nếu mọi dấu hiệu của nó có trong dữ liệu mẫu; còn nếu vắng mặt một hay một số dấu hiệu của nó trong dữ liệu mẫu thì được coi là nhân tố tác động ngẫu nhiên
Sự khác nhau cơ bản giữa hai loại mô hình trên chính là việc ước lượng các tham số trong phân tích
2.1.2 Bài toán phân tích phương sai
Từ bài toán phân tích phương sai cổ điển được trình bày ở trên, chúng
ta có thể tổng quát hóa để nhận được bài toán phân tích phương sai tổng quát
Chúng ta bắt đầu với hai vấn đề:
- Bản chất của phân tích phương sai trong mô hình cổ điển là gì?
- Nếu nhân tố F nói ở trên không phải là một biến thì mô hình trên có
thể có ý nghĩa khác hay không?
Chúng ta thấy rằng bản chất chung nhất của phân tích phương sai là phân tích sự vận động của một biến ngẫu nhiên, trong những môi trường bộ phận khác nhau Vậy sự vận động của một biến ngẫu nhiên được thể hiện
Trang 27bằng tiêu thức nào? Đó chính là: sự sai lệch so với giá trị trung bình của biến
ngẫu nhiên này Vậy sự khác nhau về giá trị trung bình nếu có ở trên của X theo F hoàn toàn có thể phân chia theo những cách khác nhau Hãy so sánh
hai cách thức phân biệt cho một biến cụ thể, chẳng hạn tỉ lệ tiết kiệm của một
công chức Theo mô hình trên ta có thể chọn F là giới tính, khu vực, học
vấn,… các biểu hiện này là các biến định tính và chúng ta có mô hình cổ điển
đã nói ở trên Một cách tiếp cận khác, chúng ta cho rằng có một tỉ lệ trung bình nào đó của thu nhập được để dành (tiết kiệm) Cách tiếp cận này dẫn đến
việc xác định F là “Tiết kiệm bị ảnh hưởng bởi thu nhập và các yếu tố khác
không đo được” như vậy một mô hình phân tích phương sai sẽ hình thành, nhằm xem xét tính hợp lí của chính cách đặt vấn đề này Nó cần trả lời câu hỏi thu nhập ảnh hưởng đến tiết kiệm hay không, nếu có thì ở mức nào? Các yếu tố khác ảnh hưởng đến tiết kiệm ở mức nào? Cách tiếp cận này dẫn đến một mô hình hồi quy
Mô hình hồi quy được kiểm tra tính phù hợp nhờ bài toán phân tích phương sai theo cách tiếp cận này Trong kiểm định sự phù hợp của mô hình hồi quy chúng ta đã dựa trên việc phân tích TSS thành RSS và ESS (Với TSS
là tổng các sai số bình phương của biến ngẫu nhiên X so với trung bình, ESS
là tổng các sai số của các ước lượng so với trung bình, RSS là tổng bình phương các phần dư) Mô hình phân tích tương quan đặc biệt là bài toán kiểm định tương quan nhờ các hệ số Êta, Spearman, Kendall,… Trong các trường hợp này nhân tố phân tích phương sai không phải là một biến mà là một nhân
tố theo nghĩa chung nhất, có thể không quan sát được
2.2 Phương pháp chung
Phương pháp chung giải quyết bài toán này là xây dựng mô hình, nhờ
đó mà kiểm định được sự biến động khác nhau nếu có của một biến ngẫu
nhiên theo các phạm trù khác nhau của nhân tố F Trong các phần sau chúng
Trang 28ta xem xét các bài toán cụ thể, nhân tố F có thể đã xác định (tất định) hay
ngẫu nhiên Tuy vậy về mặt phương pháp cách tiếp cận đối với các bài toán khác nhau là hoàn toàn thống nhất
2.3 Phân loại phân tích phương sai
2.3.1 Phân tích phương sai một nhân tố
Phân tích phương sai một nhân tố là phân tích ảnh hưởng của một nhân
tố nguyên nhân đến một nhân tố kết quả đang nghiên cứu
2.3.1.1 Phân tích phương sai một nhân tố hiệu quả xác định
Xét mô hình (2.1) trong đó F xác định với một mẫu ngẫu nhiên kích thước n Giả sử F có k dấu hiệu và số cá thể mẫu phân thành k nhóm kích
thước n n1, 2, ,n k
Mô hình lí thuyết
Gọi X là trung bình chung,X j là trung bình mẫu nhóm j
Trung bình mẫu được tính theo công thức: ij
1
1 n j
i j
n
Trung bình chung được tính theo công thức:
Trang 29n k
Tổng thứ nhất ở vế phải là tổng bình phương sai số giữa các trung bình
nhóm với trung bình chung đây là phần TSS được giải thích bởi nhân tố F, kí
hiệu là GSS
Tổng thứ hai ở vế phải là tổng bình phương sai số của giá trị cá biệt với
trung bình nhóm, là phần TSS không được giải thích bởi F, kí hiệu là WSS
Từ đó ta có thể viết các tổng trên dưới dạng: TSS = GSS + WSS
Với giả thiết các sai số ngẫu nhiên U j phân phối chuẩn có phương sai bằng nhau, các tổng GSS, WSS là các thống kê phân phối khi bình phương với các bậc tự do tương ứng là (k – 1), (n – 1)
Trang 30Kiểm định giả thuyết H0: mọi a bằng không (trung bình nhóm không j
khác nhau), với giả thuyết đối H1: Có ít nhất một a khác không (trung bình j
Miền bác bỏ mức ý nghĩ 𝛼 cho trước đối với giả thuyết H0 là:
Có thể tóm tắt quá trình phân tích phương sai nhờ bảng dưới đây:
Bảng phân tích phương sai 1 nhân tố