Về cơ bản, ANOVA được sử dụng để đánh giá cách thức và mức độ thay đổi của giá trị trung bình của một số biến định lượng, được gọi là biến phụ thuộc hoặc biến mô tả, trên một tập hợp cá
Trang 1PHÂN TÍCH THỐNG KÊ HIỆU QUẢ ĐÀO TẠO CAO ĐẲNG TẠI TRƯỜNG ĐẠI HỌC SAO ĐỎ
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – Năm 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
PHAN VĂN TÁC
Trang 2PHÂN TÍCH THỐNG KÊ HIỆU QUẢ ĐÀO TẠO CAO ĐẲNG TẠI TRƯỜNG ĐẠI HỌC SAO ĐỎ
Chuyên ngành: Lí thuyết Xác suất và Thống kê toán học
Mã số: 60 46 15
LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội – Năm 2013
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
PHAN VĂN TÁC
Trang 3MỤC LỤC
LỜI MỞ ĐẦU 3
Chương 1: CÁCMÔ HÌNH TUYẾN TÍNH TRONG PHÂN TÍCH THỐNG KÊ 7
1.1 Mô hình Hồi quy tuyến tính cổ điển 7
1.1.1 Hồi quy tuyến tính đơn 7
1.1.2 Hồi quy tuyến tính bội 16
1.2 Mô hình Phân tích phương sai 22
1.2.1 Mô hình Phân tích phương sai một nhân tố 23
1.2.2 Mô hình Phân tích phương sai hai nhân tố 28
1.2.3 Mô hình ba nhân tố 31
1.2.4 Mô hình bốn nhân tố 32
1.2.5 Cơ sở lý thuyết của các phép kiểm định trong phân tích phương sai 33
1.3 Mô hình tuyến tính tổng quát 35
1.3.1 Ký hiệu 38
1.3.2 Mô hình 38
1.3.3 Phân bố mẫu của các tổng bình phương 40
1.3.4 Kiểm tra tham số trên tập hợp con 40
1.3.5 Phép kiểm định phù hợp 42
1.3.6 Trường hợp độ biến động không thuần nhất 45
1.3.7 Phân bố không chuẩn và mô hình tuyến tính suy rộng 46
Chương 2: PHÂN TÍCH SỐ LIỆU 49
2.1 Khái quát về trường Đại học Sao Đỏ 49
2.2 Dữ liệu dùng trong nghiên cứu 50
2.3 Phân tích số liệu 51
2.3.1 Phân tích tác động riêng rẽ các nhân tố lên kết quả học tập 51
2.3.2 Phân tích tác động đồng thời của nhiều nhân tố lên kết quả học tập 65
2.3.3 Phân tích tác động của nhiều nhân tố lên mức độ tiến bộ của sinh viên 78
KẾT LUẬN 90
TÀI LIỆU THAM KHẢO 93
PHỤ LỤC 94
Trang 4LỜI MỞ ĐẦU
Trong suốt cuộc đời cách mạng của mình, Chủ tịch Hồ Chí Minh đã dành những tâm tư và tình cảm đặc biệt đối với sự nghiệp giáo dục của nước nhà Trong di sản tư tưởng của Người để lại, có tới hơn 592 lần nhắc đến “giáo dục”, 159 lần nhắc đến “đào tạo”, trên 190 lần nhắc đến “trường học”, gần
100 lần nhắc đến “đại học”, 92 lần nhắc đến “trường học, giáo sư”, 81 lần nhắc đến “giáo viên”, 80 lần nhắc đến “thầy giáo”, khoảng 145 lần nhắc đến
“sinh viên” và đến 225 lần nhắc đến “học sinh” Người coi “con người” là vốn quý nhất, là yếu tố quyết định của sự nghiệp cách mạng Người cũng thường xuyên nhắc nhở rằng: “Vì lợi ích mười năm thì phải trồng cây, vì lợi ích trăm năm thì phải trồng người”
Tư tưởng phát triển con người toàn diện của Chủ tịch Hồ Chí Minh đã góp phần to lớn vào việc đào tạo những người con ưu tú, làm thay đổi căn bản vị thế của nước ta trên trường quốc tế Theo người, con người toàn diện phải được tự do, được hạnh phúc, con người phải được giải phóng, được giáo dục – đào tạo và được sống trong xã hội hòa bình ổn định
Đại hội Đảng lần thứ X đã khẳng định “Phát triển giáo dục và đào tạo là một trong những động lực quan trọng thúc đẩy sự nghiệp công nghiệp hóa, hiện đại hóa, là điều kiện để phát huy nguồn lực con người – yếu tố cơ bản để phát triển xã hội, tăng trưởng kinh tế nhanh và bền vững” [6] Nhiệm vụ trọng
yếu, nền tảng của chương trình giáo dục Đại học là xây dựng và đào tạo cho đất nước một đội ngũ trí thức có nhân cách, có đạo đức, có chuyên môn nghiệp vụ tốt, với thể chất mạnh khỏe để đáp ứng tốt yêu cầu của sự nghiệp công nghiệp hóa, hiện đại hóa
Trang 5Trong những năm qua, giáo dục và đào tạo có những đóng góp nhất định trong giải quyết các vấn đề kinh tế, khai thác nội lực và phát huy tiềm năng, lợi thế của đất nước, tạo ra vị thế trên trường quốc tế Tuy nhiên, thực tế công tác giáo dục còn nhiều tồn tại , điều kiện giáo dục còn trong tình trạng lạc hậu, trì trệ, chất lượng thấp Có không ít sinh viên ra trường không đáp ứng được với thực tế xã hội
Đã có rất nhiều bài báo, bài tham luận xuất hiện và phân tích thực trạng dạy
và học ở các trường một cách định tính, nhưng rất ít nghiên cứu với cách tiếp cận định lượng để có được những kết luận thực sự mang tính thuyết phục Việc nghiên cứu và dự đoán những nhân tố ảnh hưởng đến chất lượng học tập của sinh viên từ đó tạo đầu ra tốt nhất cho xã hội cũng đang là một trong những yêu cầu cơ bản và cấp thiết hiện nay
Bản luận văn này là một thử nghiệm nghiên cứu định lượng về tình trạng dạy
và học tại trường Đại học Sao Đỏ Với số liệu thu thập được từ ba khoa: khoa Điện, khoa Điện tử -Tin học và khoa Kinh tế của trường Đại học Sao Đỏ, bằng các phương pháp thống kê thích hợp, luận văn này mong muốn chỉ ra được các nhân tố ảnh hưởng đến kết quả học tập của sinh viên nhằm đưa ra những đề xuất giúp nâng cao chất lượng học tập của sinh viên trường Đại học Sao Đỏ
Sau Lời mở đầu, luận văn này sẽ có hai chương, Kết luận, Danh mục tài liệu tham khảo và phần phụ lục chứa các câu hỏi điều tra Chương 1 sẽ trình bày các phương pháp phân tích thống kê được dùng chủ yếu trong nghiên cứu cụ thể ở đây Phương pháp phân tích bằng mô hình hồi quy tuyến tính được mô
tả súc tích, cô đọng, đảm bảo chính xác về mặt toán học Mô hình phân tích phương sai sẽ được trình bày dựa trên cơ sở phân tích phương sai một nhân
tố, hai nhân tố rồi mở rộng ba nhan tố và bốn nhân tố Sau cùng là mô hình tuyến tính tổng quát mở rộng của hai mô hình trên
Trang 6Chương 2 gồm ba mục lớn Mục một và hai được dành riêng cho việc mô tả đối tượng nghiên cứu, phương pháp lấy mẫu, thu thập và tổ chức giữ liệu Mục ba sử dụng phần mềm SPSS tiến hành tất cả các tính toán và phân tích
Để đánh giá các nhân tố ảnh hưởng thực sự đến kết quả học tập của từng học
kỳ và tác động lên sự tiến bộ của học kỳ sau so với kỳ trước
Cuối cùng là phần Kết luận để bàn luận về các kết quả thu được Các nhân tố ảnh hưởng thực sự đến kết quả học tập của sinh viên đưa ra một số đề suất nhằm nâng cao chất lượng học tập của sinh viên
Luận văn này được hoàn thành dưới sự hướng dẫn của PGS.TS Hồ Đăng Phúc, chuyên gia của Viện toán học, Viện KHCN Việt Nam Tôi xin bày tỏ biết tỏ lòng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn đầy nhiệt huyết của thầy
Tôi xin chân thành cám ơn các thầy giáo của khoa Toán -Cơ -Tin trường Đại học tự nhiên –ĐHQG Hà Nội đã tham gia giảng dạy lớp cao học khóa 2009-
2011, cùng các thầy cô trong phòng đào tạo sau đại học của trường ĐHQGHN
đã nhiệt tình giúp đỡ tôi trong suốt thời gian học tập Tôi xin gửi lời cảm ơn tới anh chị em khóa học 2009-2011, nhóm Semina Xác suất Thống kê –Viện toán học cùng các bạn đồng nghiệp và gia đình đã đóng góp ý kiến nhiệt tình, động viên, giúp đỡ tôi trong suốt quá trình học tập và hoàn thiện luận văn Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới các em sinh viên cùng gia đình, tập thể giáo viên, phòng Đào tạo và phòng Công tác học sinh- sinh viên trường Đại học Sao đỏ đã nhiệt tình cung cấp thông tin chính xác và quý báu mà nếu thiếu nguồn số liệu này thì nghiên cứu của tôi không thực hiện được
Tôi xin chân thành cảm ơn các thầy cô trong khoa Khoa học cơ bản, Ban giám hiệu trường Đại học Sao Đỏ đã tạo điều kiện thuận lợi cho tôi hoàn thành kế hoạch học tập và nghiên cứu
Trang 7Tuy đã có nhiều cố gắng nhưng bản luận văn cũng không tránh khỏi những thiếu sót Tác giả rất mong có được sự tham gia đóng góp ý kiến các thầy cô giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu Giáo dục và các độc giả quan tâm đến luận văn này
Hà nội, ngày 28/1/2013
Phan Văn Tác
Trang 8Chương 1: CÁC MÔ HÌNH TUYẾN TÍNH TRONG PHÂN TÍCH THỐNG
KÊ
1.1 Mô hình Hồi quy tuyến tính cổ điển
1.1.1 Hồi quy tuyến tính đơn
Mô hình hồi quy tuyến tính giữa 2 biến Y và X có dạng sau:
Y= b 0 + b 1 X + e (1.1)
trong đó e là sai số ngẫu nhiên của mô hình Y được gọi biến phụ thuộc hay biến được giải thích hay đáp ứng X được gọi biến độc lập hay biến giải thích Với (X,Y), giả sử ta đã biết n cặp giá trị quan sát {(X1, Y1),…(Xn,Yn)} tạo thành một “đám mây điểm” trên mặt phẳng (X,Y) Hãy tìm một đường thẳng
Trang 90 1 1
nên H là ma trận xác đinh dương và điểm dừng chính là điểm cực tiểu của S
Các giả thiết của mô hình hồi quy tuyến tính đơn
Trang 101) Các giá trị của biến độc lập X là không ngẫu nhiên (tất định) và
được xác định từ trước
2) Sai số ngẫu nhiên có kỳ vọng bằng 0:
( ) 0
E e 3) Sai số ngẫu nhiên có phương sai cố định:
2 ar(e)=
Các tính chất của ước lượng
a) Trung bình của các sai lệch bằng 0 :
1
1
n i i
n
b) Đường thẳng hồi quy luôn đi qua điểm trung bình mẫu
e) Sai lệch không tương quan với biến độc lập:
ˆ cov( ,e X) 0
Định lý Gaus-Markov
Với các giả thiết từ 1 đến 5 của mô hình HQTT đơn, ước lượng BPBN của các
hệ số hồi quy là các ước lượng
- Tuyến tính
Trang 11 = SSE thể hiện sự biến động không được giải thích bằng hồi
quy Đây chính là độ biến động ngẫu nhiên của sai số Khi đó (1.5) trở thành
SST=SSR+SSE
Từ những khái niệm trên, ta có thể định nghĩa hệ số xác định 2
R như sau: 2
R = Biến động được giải thích bằng hồi quy/ Biến động tổng cộng
Trang 12R càng gần 1 càng tốt vì khi đó mô hình hồi quy tuyến tính sẽ phù hợp (có ý nghĩa) vì nó giải thích hầu hết các biến động của Y; phần biến động không được giải thích bởi hồi quy (SSE) sẽ nhỏ
Các tổng bình phương trên đều gắn với một số gọi là bậc tự do (viết tắt là df)
Ví dụ để tính SST, chỉ cần biết n-1 quan sát độc lập, lúc đó bậc tự do của SST
b X X chỉ cần 1 số hạng, bậc tự do của SSR là 1 Bằng phép trừ, ta suy ra để tính biến động không được giải thích bằng hồi quy, cần (n-1) –1 = n-2 số hạng độc lập, bậc tự do của sai số ngẫu nhiên là n-
2 Với các khái niệm như trên, ta có thể thiết lập bảng phân tích phương sai đối với hồi quy tuyến tính đơn như sau:
[1- ;1;n-2]
SRS
M
Khoảng tin cậy và kiểm định giả thuyết và trong phân tích hồi quy
a) Ta muốn kiểm định giả thuyết H0: b1 0 (đường hồi quy song song với trục X) so với đối thuyết H1: b1 0 dựa trên giá trị ˆb1 và phân phối của nó Độ lệch chuẩn của ˆb1 được ký hiệu là S(ˆb1) và được cho bởi
Trang 13Ta cũng có thể kiểm định H0 bằng cách tính thống kê
1 1
ˆ ˆ
c
b t
S b
rồi sot c với t(1/ 2;n2) là giá trị thu được bằng cách tra bảng.Nếut c t(1/2;n2)
thì chấp nhận giả thuyết H0: b 1= 0 Nếu ngược lại, ta bác bỏ giả thuyết H0 b) Tương tự, ta tìm khoảng tin cậy của b0và kiểm định giả thuyết H0:b0=0 so với đối thuyết: H b1: 0 0 Độ lệch chuẩn của ˆb0 được ký hiệu là S(ˆb0) và được cho bởi
Trang 14Ta cũng có thể kiểm định giả thuyếtH0 : "b0 0" so với đối thuyếtH1: "b0 0", bằng cách tính giá trị của thống kê
ˆ 0
ˆ 0
b t
c S brồi so sánht c với giá trị tới hạn t(1/ 2;n2)có được qua tra bảng Lúc đó, nếut c t(1/2;n2) thì chấp nhận giả thuyết H0: b 0= 0 Nếu ngược lại, ta bác bỏ giả thuyết H0
c) Xác định độ lệch chuẩn của Yˆp Ta đã chứng minh Yˆ Y b Xˆ 1 X Với một giá trị mớiX X p, ta có ˆ ˆ 1
2 1
Giá trị trên đạt cực tiểu khi X p X và tăng dần khi X pdịch chuyển xa dần
X theo cả 2 hướng Như vậy, khi khoảng cách giữa X pvà X càng lớn, sai số ước lượng càng lớn (xem Hình 1.2)
Các bước cần thực hiện khi dùng mô hình hồi quy tuyến tính đơn
Trang 154 Tính hệ số xác định:
2 2
e n
7 Tính độ lệch chuẩn của các tham số:
1/ 2 2
Trang 16Ví dụ 1: Số lần vào/ ra đĩa và thời gian sử dụng CPU của 7 chương trình máy
tính được thống kê như sau: (14,2) (16,5), (27,7), (42,9) (39,10), (50,13), (83,20) Hãy lập một mô hình tuyến tính để dự đoán thời gian sử dụng CPU theo số lần vào/ra đĩa
Mô hình hồi quy tuyến tính dự báo thời gian sử dụng CPU có dạng:
Thời gian sử dụng CPU = -0,0083 + 0,2438( số lần vào/ ra đĩa)
Hình 1 cho ta đồ thị của dữ liệu và đường thẳng hồi quy với độ dốc 0,2438 và
hệ số chặn -0.0083 Hệ số xác định R2 0, 9715 chứng tỏ mô hình hồi quy
tuyến tính đơn là tốt và có ý nghĩa
Hình 1.1: Hồi quy tuyến tính đơn Hình 1.2: Khoảng tin cậy của dự báo
Trang 17-1,4043 1,1082 0,4269 -1,2295 0,5018 0,8205 -0,2235
1,9721 1,2281 0,1822 0,1516 0,2518 0,6732 0,0500
1.1.2 Hồi quy tuyến tính bội
Mô hình và ước luợng BPBN
Mô hình hồi quy tuyến tính bội cho phép ta dự báo một biến đáp ứng Y nhờ một hàm tuyến tính của k biến dự báo X X1, 2, ,X k:
Trang 18Y=Xb + e, (1.6)
trong đó
Y là véc tơ cột gồm n giá trị quan sát được của Y =Y Y1 , 2 , ,Y n;
X là ma trận n hàng k+1 cột, với các giá trị của cột 1 luôn bằng 1;
b là véc tơ cột gồm k+1 phần tử b b0 , , 1 b k
e là véc tơ cột gồm n số hạng sai số e e1 , 2 , ,e n
Ta có thể giả thiết
E( )e =0 và D( )e = I 2 (1.7) trong đó I là ma trận đơn vị cấp n với n phần tử trên đường chéo bằng 1, các phần tử còn lại bằng 0
Với giả thiết (1.7), mô hình (1.6) có thể viết lại như sau:
( )
E Y Xb (1.8) Đặt véc tơ Yˆ Xb Phần tử thứ i của phương trình véc tơ ˆe Y Y Y Xb ˆ có
e e e e là véc tơ các sai số Véc tơ b được chọn sao cho tổng
bình phương các sai lệch sau đạt cực tiểu,
e e YXb YXb Y Y b X YY Xbb X XbY Y b X Yb X Xb(1.9) (điều này suy ra từ việc '
'
b X Ylà ma trận 11 tức là hằng số nên ma trận chuyển vị của nó chính bằng nó, ( ' ' ' '
(b X Y) Y Xb)
Ước lượng bình phương bé nhất ˆb của bđược tính bằng cách đạo hàm (1.9)
theo b rồi gán bằng 0 và được phương trình sau:
(X X b) X Y (1.10) Nếu '
X X không suy biến, nghiệm của phương trình (1.10) là
Trang 191) Các giá trị của các biến độc lập X X1, 2, ,X k là không ngẫu nhiên (tất định)
và được xác định từ trước
2) Sai số ngẫu nhiên có kỳ vọng bằng 0 :
( ) 0
E e 3) Sai số ngẫu nhiên có phương sai cố định:
2 ar(e)=
Các tính chất của ước lượng
a) Ước lượng của các hệ số hồi quy là ước lượng không chệch:
là ước lượng không chệch của 2 tức là: E ˆ 2 2
d) Các giá trị dự báo của các tham số và sai lệch không tương quan với nhau:
Trang 203 Phân tách các nguồn biến động:
MSR/MSE F1; ,k n k 1
8 Tínhđộ lệch chuẩn của sai số: S e MSE
9 Tínhđộ lệch chuẩn của ước lượng:
j
S S C trong đó C jj là phần tử
Trang 21thứ j trên đường chéo của ma trận ' 1
Ví dụ2 Số liệu trong Bảng 1.1 cho biết thời gian sử dụng CPU (mili giây),
dung lượng bộ nhớ (tính bằng kilobyte) và số lần vào/ ra đĩa của7 chương trình máy tính.Ta muốn tìm một hàm tuyến tính để ước lượng thời gian sử dụng CPU dạng
Thời gian sử dụng CPU = b0b1số lần vào/ ra đĩa + b2dung lượng bộ nhớ
Bảng 1.1 Số liệu thông số kỹ thuật của chương trình máy tính
Thời gian sử dụng CPU
i
Y
Số lần vào/ra đĩa
1i X
Dung lượng bộ nhớ
2i X
Trang 22Như vậy, ta có phương trình
Thời gian sd CPU = - 0,1614 +0,1182 lần vào ra đĩa +0,0265 dung lượng bộ nhớ
Bảng các 1.2 trình bàycác giá trị dự báo theo phương trình hồi quy trên đây cùng các sai số dự báo tương ứng
Bảng 1.2 Giá trị dự báo thời gian sử dụng CPU
-1,3490 1,2820 0,1528 -0,8400 -0,0151 1,0217 -0,2529
1,8198 1,6436 0,0233 0,7053 0,0002 1,0439 0,0639
Dựa vào Bảng 1.2, ta tính được
SST= SSY-SS0 = 828-622,20 =205,71 SSR= SST-SSE = 205,71-5,3= 200,41
Do đó, hệ số xác định của phương trình hồi quy sẽ là
0,97
205, 71
SSR R
SST
Ngoài ra, ta còn có hệ số tương quan bội R 0,97 0,99; độ lệch chuẩn của sai số
Trang 231.2 Mô hình Phân tích phương sai
Phân tích phương sai (ANOVA) là phương pháp phân tích thống kê rất tổng quát, được sử dụng hữu ích một cách rất rộng rãi cho các bài toán kể từ các thiết kế thí nghiệm đơn giản đến các mô hình thực sự phức tạp Về cơ bản, ANOVA được sử dụng để đánh giá cách thức và mức độ thay đổi của giá trị
trung bình của một số biến định lượng, được gọi là biến phụ thuộc hoặc biến
mô tả, trên một tập hợp các điều kiện khác nhau trong cùng một thí nghiệm
Các điều kiện khác nhau được so sánh trong thí nghiệm được xác định qua
một hay nhiều biến định tính gọi là biến độc lập Nói một cách ngắn gọn,
ANOVA được sử dụng để đánh giá mối quan hệ giữa giá trị trung bình của
một biến phụ thuộc định lượng và giá trị của một hay nhiều biến độc lập định tính
Ta có thể biểu diễn tóm tắt cấu trúc của mô hình ANOVA qua phương trình sau:
Giá trị biến PT = TB chung + Ảnh hưởng của nhân tố + Tương tác + Sai số
Sử dụng ký hiệu tương ứng trong Bảng 1.2, phương trình trên được viết lại thành
Y = µ + A + B + C + … + AB + AC + BC +…+S(nhóm)
Trang 24trong đó,
Y là giá trị thực nghiệm đo được của đại lượng cần nghiên cứu;
µ là phần trung bình chung cho tất cả các quan sát, đại diện cho hiệu
quả chung của thí nghiệm;
A, B, C,…, là các phần tác động chính của các nhân tố trong mô hình,
ảnh hưởng lên giá trị của đại lượng cần nghiên cứu
AB, BC, CA, … là tương tác giữa các nhân tố, AB, BC, CA là tương tác hai chiều, trong mô hình còn có thể có các tương tác ba chiều ABC; ABD; ACD; BCD và tương tác bốn chiều ABCD
S(nhóm) là sai số ngẫu nhiên trong mô hình, được tính bằng độ sai lệch
giữa giá trị của đại lượng cần nghiên cứu tại mỗi quan sát so với giá trị trung bình tính riêng cho nhóm chứa quan sát đó
Bảng 1.3 Các thành phần của dữ liệu thực nghiệm trong phân tích phương sai
Khía cạnh của thí nghiệm Thành phần của mô hình Ký hiệu
Biến phụ thuộc định lượng Giá trị đo được của biến Y
Ảnh hưởng chung của thí
Hiệu ứng tương tác giữa các
1.2.1 Mô hình Phân tích phương sai một nhân tố
Giả sử để nghiên cứu chất lượng học tập của sinh viên, ta chọn ngẫu nhiên ra
ba nhóm sinh viên được giảng dạy bằng ba phương pháp khác nhau, sau đó cho làm bài kiểm tra chung để thu được điểm số phản ánh chất lượng học tập Gọi µ1, µ2, µ3 là trung bình thật sự của điểm kiểm tra ứng với ba phương pháp giảng dạy Chúng ta có thể sử dụng phương pháp Phân tích phương sai một
Trang 25nhân tố để giải quyết bài toán này Bài toán kiểm định giả thuyết trong mô hình Phân tích phương sai một nhân tố được phát biểu như sau:
Bài toán kiểm định: Thành lập giả thuyết và đối thuyết
Dữ liệu của mô hình thiết kế ngẫu nhiên có dạng trong Bảng 1.1
1n K Y
Nếu biến ngẫu nhiên của thiết kế thỏa mãn điều kiện của Định lý 1 và giả thuyết H0 được xem là đúng, thì theo các Định lý 1 và Định lý 2,các thống kê
2 ij
N
i j Y
Y Y S
có phân phối Khi - bình phương với bậc tự do tương ứng là N-1và K-1 Phần
biến động do sai số gây ra,
( )
Trang 26có phân phối Khi – bình phương với bậc tự do N-K.Từ đó, đại lượng
( )
S 1 S
A
S A
S K F S
a) Phương pháp xác suất ý nghĩa X là biến ngẫu nhiên có phân phối Fisher
có bậc tự do (K-1, N-K) ta tính xác suất p= P(X ≥F) với mức ý nghĩa α cho trước, nếu α ≤ p thì ta bác bỏ giả thuyết Ho ; còn nếu α>p thì ta chấp nhận giả
thuyết đó
b) Phương pháp giá trị tới hạn Với mức ý nghĩa α cho trước, tra bảng để xác định giá trị tới hạn F(α;K−1,N−K) , là phân vị 1−α của phân phối Fisher với bậc tự do (K-1, N-K) Khi ấy, ta bác bỏ giả thuyết Ho nếu F ≥F(α;K−1,N −K)
và chấp nhận giả thuyết nếu F <F(α;K−1,N −K)
Chú ý So sánh các tham số của Bài toán kiểm định 1 với công thức của mô
hình một nhân tố, ta thấy µ i =µ+ A i Như vậy giả thuyết H0 tương đương với giả thuyết H0’: A 1 =A 2 =…=A n =0
Mô hình Phân tích phương sai một nhân tố được trình bày lại thành
( )
Y A S A với i = 1,…,n; j=1, …m
Trang 27Trong mô hình đó, để biết được mức độ khác biệt về giá trị trung bình giữa các nhóm có vượt quá độ khác biệt do các sai số ngẫu nhiên gây ra hay không, ta cần ước lượng độ biến động giữa các nhóm (thể hiện tác động của nhân tố) và độ biến động nội tại bên trong các nhóm (phản ánh tác động gây sai lệch của các yếu tố ngẫu nhiên) Dựa vào số liệu ta đưa ra các phương trình
Y 11 = µ + A 1 + S(A) 11 , Y 12 = µ + A 1 + S(A) 12 , …, Y nm = µ + A n + S(A) nm Như vậy với mô hình này ta cần tính các giá trị ước lượng
ij S(A) 0 i.
j
Đồng thời, ta cần phải tính các tổng bình phương của mô hình, gồm tổng bình
phương độ sai lệch riêng cho từng nhóm A i , ký hiệu là SS A; tổng bình phương
độ sai lệch nội tại trong các nhóm tương tác S(A) ij , ký hiệu là SS S(A); tổng bình phương trung bình trung SSµ và tổng toàn phần các bình phương độ lệch SS Y
Từ đó ta có phương trình SS Y = SS µ + SS A +SS S(A) Như vậy,
2 ij
j
n k Y
với y j là trung bình của nhóm j
Sau khi có các tổng bình phương độ sai lệch như trên, ta có thể tính các giá trị trung bình bình phương độ sai lệch (là ước lượng của các độ biến động) bằng
Trang 28cách lấy từng tổng bình phương độ sai lệch chia cho bậc tự do tương ứng Ta
có
+ Bậc tự do của giá trị trung bình µ luôn bằng 1(df µ =1)
+ Bậc tự do của nhân tố là số nhóm trừ đi 1 (df A = số nhóm -1= K-1)
+ Bậc tự do của sai số ngẫu nhiên (df S(A) = số đối tượng -số nhóm = N-K)
Nói một cách ngắn gọn, các độ biến động của mô hình được ước lượng bằng công thức MS=SS
df , với SS là tổng bình phương độ sai lệch, df là ký hiệu của
bậc tự do tương ứng Ta tóm tắt các thành phần của phương pháp Phân tích phương sai một nhân tố như trong Bảng 1.4
Bảng 1.4 Tóm tắt các thành phần trongPhân tích Phương sai một nhân tố
Nguồn sai số Df
Bậc tự do
SS Tổng bình phương
MS Trung bình bình phương
F Giá trị thống kê
µ
A
S(A)
1 K-1 N-k
+ F là tiêu chuẩn kiểm định của giả thuyết thống kê H0
Ta thấy nếu giả thuyết H0 đúng và sai số trong các nhóm có cùng phân phối
với phương sai như nhau, thì F có phân phối Fisher với bậc tự do K-1 và K.Như vậy, ta sẽ bác bỏ giả thuyết H 0 nếu F ≥ Fk-1, N-k(1-α) Ngược lại, ta chấp nhận giả thuyết H0 nếu F < Fk-1, N-k(1-α)
Trang 29N-1.2.2 Mô hình Phân tích phương sai hai nhân tố
Giả sử bài toán có dữ liệu sau:
là tổng số các quan sát trong số liệu.Với dữ liệu ở trên ta có các bài toán sau
Bài toán kiểm định Đánh giá tác động của nhân tố A:
H0A: µA1= µA2 = µA3 =…= µAa
H1A: µAh ≠ µAk với h≠ k nào đó; h, k=1,2, …a
với µ Ai là kỳ vọng của Y trong nhóm thứ i (i=1,…,a) của nhân tố A
Bài toán kiểm định Đánh giá tác động của nhân tố B:
H0B: µB1= µB2 = µB3 =…= µBa
H1B: µBh ≠ µBk với h≠ k nào đó; h, k=1,2, …b
với µ Bi là kỳ vọng củaY trong nhóm thứ i (i=1,…,b) của nhân tố B
Bài toán kiểm định Đánh giá tác động tương tác của nhân tố A và B:
H0AB: µAB1= µAB2 =…= µABab
H1AB: µABh ≠ µABk với h≠ k nào đó; h, k=1,2, …ab
Trang 30với µABi là kỳ vọng các biến ngẫu nhiên Y trong nhóm thứ i (i=1,…,ab) của nhân tố A và B
Để giải quyết bài toán trên ta đưa bài toán mô hình Phân tích phương sai hai nhân tố với tương tác giữa các nhân tố có dạng
Y ijk = µ + A i +B j + AB ij +S(AB) ijk
Trong mô hình hai nhân tố có hai nhân tố chính là A, B và có sự tương tác của hai nhân tố AB trên đây,Yijk là giá trị quan sát thứ k của Y trên nhóm thứ i củaA và nhóm thứ j của B; μ là trung bình mẫu, số hạng Ai là hiệu quả do nhân tố A gây ra ở mức thứ i; số hạng Bj là hiệu quả có được ở mức thứ j của nhân tố B; số hạng ABij là hiệu quả do sự tương tác giữa mức thứ i của A và mức thứ j của B; còn S(AB)ijk là sai số ngẫu nhiên
Ta thực hiện các tính toán cho mô hình hai nhân tố theo các bước
+ Ước lượng kỳ vọng μ bằng trung bình mẫu,
+ Ước lượng hiệu quả chính của mỗi nhân tố trên một mức của nhân tố
đó bằng hiệu số của giá trị trung bình lấy trong mức tương ứng trừ đi ước lượng trung bình chung của mẫu,
Trang 31+ Bậc tự do cho giá trị trung bình µ luôn bằng 1(df µ=1)
+ Bậc tự do cho nhân tố chính là số nhóm của nhân tố trừ đi 1(df A= Số
nhóm của nhân tố A trừ 1, df B= Số nhóm của nhân tố B trừ 1)
+ Bậc tự do cho tương tác bằng tích các bậc tự do của các nhân tố
Trang 32Trong bảng ANOVA trên ta có
+ µ là giá trị trung bình chung của mẫu
+ A, B là các nhân tố chính
+ AB là tương tác giữa hai nhân tố
+S(AB) là sai số ngẫu nhiên
Y ijk = µ + A i +B j + C k + AB ij +AC ik +BC jk + ABC ijk + S(ABC) ijkl
Trong đó A, B, C là ba nhân tố chính tương ứng với các chỉ số nhóm i, j, k;
AB, AC, BC là tương tác đôi một giữa các nhân tố chính ABC là tương tác bộ
Trang 33Y ijkl = µ + A i +B j + C k +D l + AB ij +AC ik +AD il + BC jk +BC jk ABC ijk + ABD ijl +
ABD ikl + BCD jkl + S(ABCD) ijklm Trong đó A, B, C,D là bốn nhân tố chính tương ứng với các chỉ số nhóm i, j, k; AB, AC, BC là tương tác đôi một giữa các nhân tố chính ABC, ABD, ACD
và BCD là tương tác bộ ba nhân tố chính ABCD là tương tác bộ bốn nhân tố
Trang 34do, trung bình bình phương, tiêu chuẩn kiểm định tương ứng với các kiểm định kể trên Từ đó tiến hành kiểm định phân tích phương sai, đưa ra các kết luận thống kê về tác động riêng rẽ của các nhân tố cũng như tác động tương tác bộ đôi, bộ ba, bộ bốn… lên giá trị của biến phụ thuộc định lượng Y cần quan tâm
1.2.5 Cơ sở lý thuyết của các phép kiểm định trong phân tích phương sai
Dưới đây ta đưa ra các định lý bảo đảm về mặt lý thuyết cho các phép kiểm
định trong các bài toán phân tích phương sai trình bày trên đây
Định lý1.Giả sử Y ij , j=1,…,n i; i=1,…,K, là N biến ngẫu nhiên độc lập có cùng phân phối chuẩn N(µ,σ 2
), N=n 1 +…+n K Lúc đó thống kê
Trang 352 1
Chứng minh:Ta có(Y i Y)(Y i )(Y ) Bình phương và nhân cả hai
vế với ni sau đó lấy theo tổng i, ta được
i
n
j i i
Y Y
n
Trang 36t
i i i
t
i i i
2
n i i
biến ngẫu nhiên nói trên
Định lý 2 là trường hợp riêng của Định lý 1,được chứng minh hoàn toàn tương tự
1.3 Mô hình tuyến tính tổng quát
Trong việc xây dựng mô hình thống kê luôn cần có sự lựa chọn giữa tính đơn giản và tính đầy đủ Những mô hình đơn giản hướng tới sự dễ hiểu, dễ dàng hơn cho việc tính toán, nhưng chúng dễ bị chênh so với dữ liệu Ngược lại, những mô hình phức tạp thường phù hợp hơn với dữ liệu, nhưng có thể gặp phải những khó khăn trong tính toán xử lý Khi quá phức tạp, chúng sẽ khó thực hiện lặp lại
Qua các mục 1.1 và 1.2, ta thấy mô hình Hồi quy tuyến tính cổ điển và Phân tích phương sai đều là các mô hình tuyến tính khá đơn giản, đòi hỏi các tính
Trang 37toán khá dễ dàng Tuy nhiên, nhiều dữ liệu trong thực tế lại không đáp ứng các điều kiện đặt ra cho hai mô hình đó, chẳng hạn như trường hợp mô hình cần có đồng thời các biến độc lập định tính và định lượng, hoặc khi ma trận thiết kế không có hạng đầy đủ Mô hình tuyến tính tổng quát là một mở rộng của cả mô hình hồi quy tuyến tính cổ điển và mô hình phân tích phương sai, khắc phục được các hạn chế của hai mô hình đó, do đó có thể áp dụng rộng rãi hơn trong thực tế, mặc dù đòi hỏi phải có những tính toán phức tạp hơn Với lý do thực hành, những thủ tục cổ điển như mô hình hồi quy tuyến tính có thể áp dụng trong tính toán đối với các mô hình tuyến tính tổng quát Tuy nhiên, hiệu lực của tính toán không còn giới hạn trong một lần tính toán cụ thể Nhiều thứ mà trước đây rất khó thực hiện như thuật toán lặp; phương pháp Monte Carlo; phép kiểm định lặp; toàn bộ phạm vi của tiếp cận Bayes, bây giờ có thể giải quyết được (hoặc gần hoàn toàn giải quyết được) nhờ vào
sự phát triển vượt bậc của các công cụ tin học
Ngoài ra, việc hình ảnh hóa dữ liệu sẽ đem lại hiệu ứng làm chúng có thể được bộc lộ ra một cách khác biệt đáng kể với khi sử dụng các phương pháp truyền thống Tuy nhiên, các phương pháp cổ điển vẫn thích hợp nhất cho nhiều vấn đề nghiên cứu và vì chúng là cơ sở của nhiều cách tiếp cận mới nên người ta vẫn luôn lưu tâm tới các phương pháp đó
Dữ liệu mô hình tuyến tính tổng quát
Mô hình tuyến tính tổng quát (GLM) được sử dụng để xem xét một biến phụ thuộc định lượng nào đó, như chiều cao; thu nhập; chỉ số IQ; tuổi tác…, trong mối quan hệ với các biến độc lập khác (có thể bao gồm cả biến định lượng và biến định tính)
Dữ liệu của mô hình được đề cập ở đây có cấu trúc tổng quát dạng bảng của những quan sát với các biến Trong bảng số liệu (xem Bảng 1), các hàng - những quan sát – là thông tin quan sát được có thể tại những thời điểm khác
Trang 38nhau; những địa điểm khác nhau; hoặc những đối tượng khác nhau…, tùy thuộc vào từng nghiên cứu cụ thể
Các cột của bảng được chia thành hai nhóm Một nhóm được ký hiệu bởi xj ,
là những biến mô tả điều kiện trong đó quan sát được thực hiện Chúng có thể
là các biến giả mô tả các nhóm; những chủ thể; hoặc điều kiện đáp ứng đặc biệt, hay chúng có thể là những hiệp biến khác Nhóm thứ hai ký hiệu bởi yk ,
là những phép đo quan sát được, chẳng hạn mức phóng xạ được đo tại những
vị trí khác nhau
Trong nhiều nghiên cứu, người ta thường tập trung phân tích một biến phụ thuộc y duy nhất, mặc dù trong các nghiên cứu phân tích hình ảnh, thông thường có số lượng lớn các biến đáp ứng được ghi nhận Mục đích cơ bản của phân tích là tìm cách mô tả yk như là hàm số của x
Bảng1.4 Cấu trúc của bảng dữ liệu
x0 luôn bằng 1và tương ứng với hoạt động trên cơ sở nền, x1 là 0 trừ khi có mặt kích thích mức1 và x2 là 0 trừ khi có mặt của kích thích mức 2
Các cột của bảng dữ liệu là các biến và chúng là các véc tơ cột Cách tổ chức
số liệu kiểu này giúp chúng ta dễ hiểu và dễ giải thích liên hệ với các ý nghĩa hình học Mỗi biến được biểu diễn bằng một véc tơ trong không gian Độ dài
Trang 39véc tơ chỉ tính chất độ biến động của biến và góc giữa hai véc tơ miêu tả quan hệ giữa các biến Đặc biệt, bình phương độ dài của véc tơ là tổng bình phương độ biến động tương ứng,
1
n i i
… … … …
1.3.1 Ký hiệu
Trong luận văn này ta thống nhất dùng các ký hiệu như sau: vectơ được biểu thị bằng chữ cái in thường (ví dụ x, y, z …); ma trận được biểu thị bằng chữ cái in hoa (ví dụ X, Y…), ma trận chuyển vị ký hiệu bằng số mũ T in hoa (ví
dụ XT, YT …); ma trận nghịch đảo được thể hiện bằng số mũ -1 (ví dụ X-1, Y
-1… )
Biến phụ thuộc thường ký hiệu bằng véc tơ định lượng Y với I quan sát, biến
mô tả lưu trữ trong một ma trận cấp IxK ký hiệu là X
1.3.2 Mô hình
Trong mô hình tuyến tính tổng quát (GLM), biến phụ thuộc được biểu diễn một cách tuyến tính qua các biến độc lập Véc tơ chứa các hệ số tuyến tính trong biểu diễn nói trên ứng với ma trận X được ký hiệu là véc tơ b Nhìn
Trang 40chung, biến phụ thuộc y không thể hoàn toàn thu được bởi sự kết hợp tuyến tính của các cột X và sự khác biệt giữa thực tế và bài toán dự báo gọi là các sai số dự báo Các sai số dự báo được lưu trữ trong một véc tơ ký hiệu là e Dạng chính tắc của mô hình được biểu diễn bằng phương trình
y = Xb + e (1.11) Các giá trị dự báo được lưu trữ trong một véc tơ y
Như vậy y Xb và phương trình (1.11) có thể viết lại thành
Ta có thể bắt đầu với dạng đơn giản nhất của mô hình tuyến tính tổng quát là
mô hình hồi quy tuyến tính Lúc đó, trong phương trình (1.11) các biến độc lập được giả thiết là tất định (tức là giá trị của nó không thay đổi trong từng quan sát) Các phần dư e được hiểu như là các biến ngẫu nhiên độc lập có
N(0, ) Giá trị của biến phụ thuộc được giả định là một mẫu ngẫu nhiên đang được quan tâm, véc tơ b được xem như là ước lượng được tính theo véc tơ y
Với giả thiết của mô hình, véc tơ tham số được ước lượng bởi b qua công thức