Phân tích công tác đào tạo tại trường Cao đẳng kinh tế kỹ thuật thương mại bằng phương pháp thống kê. Bài luận văn này là một thử nghiệm nghiên cứu định lượng về công tác đào tạo tại Trường từ năm 2004 đến năm 2010, với bộ số liệu thu thập từ 6 chuyên ngành chủ đạo: Kế toán Doanh nghiệp (CKT), Quản trị Kinh doanh Tổng hợp (CKD), Quản trị Khách sạn (CKS), Tài chính Doanh nghiệp (CTD), Tin học Kế toán (CTK), Quản trị Kinh doanh xuất nhập khẩu (CKN). Bằng các phương pháp thống kê thích hợp, luận văn này sẽ phác thảo đôi nét về tình hình giáo dục và hơi hướng thay đổi cơ cấu chuyên ngành của Trường.
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ
Trang 3BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ
LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học:
PGS TS HỒ ĐĂNG PHÚC
Hà Nội - 2014
Trang 4MỤC LỤC
0
0
Trang 5LỜI MỞ ĐẦU
Trường Cao đẳng Kinh tế - Kỹ thuật Thương mại (1961) là một trường Caođẳng công lập do bộ Công thương làm chủ quản, nằm ở trung tâm Phường PhúLãm, Quận Hà Đông, Thành phố Hà Nội Trường có sứ mệnh đào tạo nguồnnhân lực chất lượng cao, nghiên cứu, ứng dụng và chuyển giao công nghệ tronglĩnh vực công nghiệp, thương mại và du lịch; hợp tác quốc tế về đào tạo vànghiên cứu khoa học phục vụ sự nghiệp xây dựng và bảo vệ Tổ quốc Mục tiêucủa Trường là đào tạo đa ngành, đa cấp, nghiên cứu, ứng dụng, chuyển giaocông nghệ và dịch vụ tư vấn có uy tín trong lĩnh vực công nghiệp, thương mại;sau năm 2015 trở thành trường đại học đáp ứng yêu cầu đào tạo nguồn nhân lựcchất lượng cao của sự nghiệp công nghiệp hoá, hiện đại hoá và hội nhập quốc
tế Cơ cấu về trình độ đào tạo của Trường gồm Cao đẳng, Trung cấp chuyênnghiệp, Cao đẳng nghề, Trung cấp nghề, Sơ cấp nghề và Cao đẳng liên thôngTrung cấp
Bài luận văn này là một thử nghiệm nghiên cứu định lượng về công tác đàotạo tại Trường từ năm 2004 đến năm 2010, với bộ số liệu thu thập từ 6 chuyênngành chủ đạo: Kế toán Doanh nghiệp (CKT), Quản trị Kinh doanh Tổng hợp(CKD), Quản trị Khách sạn (CKS), Tài chính Doanh nghiệp (CTD), Tin học Kếtoán (CTK), Quản trị Kinh doanh xuất nhập khẩu (CKN) Bằng các phươngpháp thống kê thích hợp, luận văn này sẽ phác thảo đôi nét về tình hình giáodục và hơi hướng thay đổi cơ cấu chuyên ngành của Trường
Sau lời mở đầu, luận văn này sẽ có ba chương và danh mục tài liệu thamkhảo Chương 1 sẽ trình bày về một số phương pháp phân tích hiệu quả thôngdụng, đó là phương pháp kiểm định Student, mô hình phân tích phương sai, môhình hồi quy đơn và hồi quy bội Chương 2 giới thiệu về mô hình tuyến tínhnhiều mức Chương 3 đưa ra các kết quả phân tích công tác đào tạo, diễn giảicác yếu tố ảnh hưởng đến thành tích học tập của sinh viên trong từng chuyênngành cũng như giữa các chuyên ngành với nhau Và để chỉ ra tính thuyết phục,tính khoa học của phương pháp thống kê được áp dụng Phần cuối của chương 3
đề xuất một số ý kiến về xây dựng các chiến lược đào tạo của Trường phù hợp
Trang 6với nhu cầu và yêu cầu thực tế của xã hội Việt Nam
Luận văn này được hoàn thành dưới sự hướng dẫn của Phó Giáo sư HồĐăng Phúc, Viện Toán học - Viện Hàn Lâm Khoa Học Và Công Nghệ ViệtNam Tôi xin được bày tỏ lòng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn tậntụy của thầy
Tôi xin chân thành cảm ơn các thầy cô trong Ban lãnh đạo Viện Toán học,các thầy cô tham gia giảng dạy lớp cao học khóa 18, cùng các thầy cô ở Trungtâm đào tạo sau đại học của Viện Toán học đã nhiệt thành giúp đỡ tôi trong thờigian học tập Tôi cũng xin gửi lời cảm ơn tới các anh chị em cao học khóa 18,nhóm Semina Xác suất Thống kê, cùng các bạn đồng nghiệp và gia đình đãnhiệt tình đóng góp ý kiến, động viên, giúp đỡ tôi trong suốt quá trình học tập
và hoàn thành luận văn
Đặc biệt, tôi xin gửi lời cảm ơn sâu sắc tới Ban giám hiệu trường Cao đẳngKinh tế - Kỹ thuật Thương mại và các anh em trong phòng Đào tạo, phòngCông tác Học sinh – Sinh viên đã nhiệt tình và nghiêm túc cung cấp những dữliệu chính xác quý báu, mà nếu thiếu nguồn số liệu này thì nghiên cứu của tôikhông thể thực hiện được
Tuy đã có nhiều cố gắng nhưng bản luận văn này cũng không tránh khỏinhững thiếu sót, tác giả rất mong có được sự tham gia đóng góp ý kiến của cácthầy cô giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu kinh tế và cácđộc giả quan tâm đến bản luận văn này
Hà Nội, ngày 26 tháng 03 năm 2014
Trần Thị Đông
Trang 7Chương 1.
MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH HIỆU QUẢ THÔNG DỤNG
Trong thực tế, người ta hay gặp phải bài toán đánh giá hiệu quả của mộthoặc nhiều nhân tố lên giá trị của một đại lượng nào đó Đại lượng cần đánh giáthường là một biến định lượng, tức là một biến số nhận giá trị liên tục có thểphủ kín một đoạn trên trục số Các nhân tố có thể là biến định lượng hoặc biếnđịnh tính, tức là biến nhận hữu hạn các giá trị tính trạng, mỗi tính trạng thườngđược gọi là mức của nhân tố Nếu nhân tố là biến định lượng, phương pháp hồiquy thường được dùng để đánh giá hiệu quả của nhân tố đó lên đại lượng cần
quan tâm Nếu nhân tố là một biến định tính có k mức tính trạng, chia mẫu quan sát thành k nhóm, thì việc đánh giá tác động của nhân tố đó lên đại lượng đang
xét chính là việc so sánh giá trị trung bình của đại lượng nói trên giữa các nhómxác định bởi các mức của nhân tố Trường hợp đơn giản nhất khi nhân tố chỉ cóhai mức, đó chính là bài toán so sánh hai giá trị trung bình Bài toán này đượcgiải quyết thông qua phép kiểm định T-Student
1.1 So sánh hai giá trị trung bình – Phân phối T và kiểm định T-Student
Để so sánh hai giá trị trung bình, chúng ta thường sử dụng phương pháp kiểm
định T (hay T-Student) Kiểm định T dựa căn bản trên phân phối xác suất Student Phân phối Student với n bậc tự do là phân phối của biến ngẫu nhiên T
xác định bởi
X T
Trang 8 2
2
1
11
n i i
n i i
2
Hàm mật độ của phân phối T đối xứng qua trục tung, có dạng hình chuông
giống hàm mật độ của phân phối chuẩn
Để so sánh hai giá trị trung bình bằng kiểm định T, hai mẫu ứng với hai
mức của nhân tố phải thỏa mãn các giả định:
i) Tuân theo quy luật phân phối chuẩn
ii) Độc lập
iii) Các đối tượng trong mỗi mẫu được chọn một cách ngẫu nhiên
iv) Phân phối của hai mẫu có phương sai bằng nhau
Bảng 1.1: Thông tin về mẫu trong bài toán so sánh hai giá trị trung bình
SD (Độ lệch chuẩn mẫu ) s1 s2
Ta chọn hai mẫu ngẫu nhiên X X1 , 2 , ,X n1
(mẫu 1) rút ra từ biến ngẫu
nhiên X (ứng với mức thứ nhất của nhân tố) và Y Y1 , , , 2 Y n2
(mẫu 2) rút ra từ
biến ngẫu nhiên Y (ứng với mức thứ hai của nhân tố) thỏa mãn các giả định nêu
Trang 9trên Hai mẫu đó có các thông tin đặc trưng mô tả trong Bảng 1.1 Số liệu mẫuđược lấy ra để suy luận về đám đông với các thông tin đặc trưng chưa biết là kỳvọng và độ lệch chuẩn lý thuyết như trong Bảng 1.2.
Bảng 1.2: Thông tin quần thể trong bài toán so sánh hai giá trị trung bình
d X Y với 0 Nhân tố có hiệu quả thực sự nếu hiệu số đó khác 0 một cách có
ý nghĩa thống kê Nếu ngược lại, ta có thể kết luận sự khác biệt giữa hai trungbình mẫu chỉ mang tính chất ngẫu nhiên Cuối cùng, từ bài toán kiểm định giảthiết thống kê
H: 1 2, đối thuyết K: 1 2
dẫn đến các bước cần tiến hành như sau:
Bước 1: Tính độ sai lệch giữa hai trung bình mẫu: d X Y
Bước 2: Ước lượng hai phương sai mẫu, vì có giả thiết phương sai lý thuyết củahai mẫu là bằng nhau nên có thể sử dụng hai ước lượng đó để đưa ra ước lượng
phương sai chung của hai mẫu (đó chính là phương sai của d):
Trang 10Bước 5: So sánh giá trị tuyệt đối của thống kê t với giá trị tới hạn t n n1 22 / 2 :
Nếu t t n n122 / 2 thì bác bỏ giả thuyết H, kết luận d 0, tức lànhân tố ảnh hưởng một cách có ý nghĩa lên đại lượng cần xem xét;
Nếu t t n n1 22 / 2 thì chấp nhận giả thuyết H, kết luận d 0, và chorằng nhân tố không ảnh hưởng đáng kể đến giá trị của đại lượng cầnnghiên cứu
Chú ý: Ở Bước 4, thay vì tính giá trị tới hạn người ta có thể tính xác suất ý
nghĩa
pP T t trong đó T là biến ngẫu nhiên có phân phối Student với bậc tự do n1 n2 2
Tiếp đó, so sánh xác suất ý nghĩa p với mức ý nghĩa :
Nếu p thì bác bỏ giả thuyết H, kết luận d 0, nhân tố ảnh hưởngmột cách có ý nghĩa thống kê lên đại lượng cần xem xét;
Nếu p thì chấp nhận giả thuyết H, kết luận d 0, nhân tố không tácđộng lên giá trị của đại lượng cần nghiên cứu
Ví dụ 1 (xem tài liệu[2]): Người ta thí nghiệm hai phương pháp chăn nuôi gà
khác nhau, sau một tháng kết quả tăng trọng như sau:
Phương pháp I: n 100 con, X 1,1 kg, s 12 0,04
Phương pháp II: n 150 con, Y 1, 2 kg, s 22 0,09
Với mức ý nghĩa 0,05 có thể kết luận hai phương pháp có hiệu quảkhác nhau hay không? Giả thiết mức tăng trọng của gà tuân theo quy luậtchuẩn
Trang 11Với 0,05, tra bảng phân phối Student ta có 3,147 t2480, 025 1,969576, ta
bác bỏ H và chấp nhận K, tức là việc thay đổi phương pháp chăn nuôi sẽ tác
động lên mức tăng trọng của gia cầm
Chú gi i l ch s ải lịch sử ịch sử ử: W.S Gosset là nhà th ng kê ngống kê người Ailen có nhiều đóng ười Ailen có nhiều đóngi Ailen có nhi u đóngều đónggóp quan tr ng cho s phát tri n c a Th ng kê toán h c, trong đó đáng kọng cho sự phát triển của Thống kê toán học, trong đó đáng kể ự phát triển của Thống kê toán học, trong đó đáng kể ển của Thống kê toán học, trong đó đáng kể ủa Thống kê toán học, trong đó đáng kể ống kê người Ailen có nhiều đóng ọng cho sự phát triển của Thống kê toán học, trong đó đáng kể ển của Thống kê toán học, trong đó đáng kể
nh t là khái ni m phân ph i T - Student Ông t ng làm vi c t i hãng biaệm phân phối T - Student Ông từng làm việc tại hãng bia ống kê người Ailen có nhiều đóng ừng làm việc tại hãng bia ệm phân phối T - Student Ông từng làm việc tại hãng bia ại hãng bia
n i ti ng Guinness Dublin, Ai len t năm 1899 sau khi t t nghi p khoaở Dublin, Ai len từ năm 1899 sau khi tốt nghiệp khoa ừng làm việc tại hãng bia ống kê người Ailen có nhiều đóng ệm phân phối T - Student Ông từng làm việc tại hãng biaHóa t i Đ i h c Oxford lúc 23 tu i Nghiên c u v th ng kê c a ông xu tại hãng bia ại hãng bia ọng cho sự phát triển của Thống kê toán học, trong đó đáng kể ứu về thống kê của ông xuất ều đóng ống kê người Ailen có nhiều đóng ủa Thống kê toán học, trong đó đáng kểphát t vi c ph i b o đ m ch t lừng làm việc tại hãng bia ệm phân phối T - Student Ông từng làm việc tại hãng bia ải bảo đảm chất lượng bia khi thực hiện quá trình lên men ải bảo đảm chất lượng bia khi thực hiện quá trình lên men ải bảo đảm chất lượng bia khi thực hiện quá trình lên men ượng bia khi thực hiện quá trình lên men.ng bia khi th c hi n quá trình lên men.ự phát triển của Thống kê toán học, trong đó đáng kể ệm phân phối T - Student Ông từng làm việc tại hãng biaCông trình nghiên c u này đứu về thống kê của ông xuất ượng bia khi thực hiện quá trình lên men.c công b trên t Biometrica vào năm 1907ống kê người Ailen có nhiều đóng ời Ailen có nhiều đóng
v i tên gi làới tên giả là ải bảo đảm chất lượng bia khi thực hiện quá trình lên men “Student” có t a đ “Sai s đ m c a máy đ m t bào” (Onự phát triển của Thống kê toán học, trong đó đáng kể ều đóng ống kê người Ailen có nhiều đóng ủa Thống kê toán học, trong đó đáng kểthe Error of Counting With a Hemacytometer) Ti p đó, ông th c hi n m tự phát triển của Thống kê toán học, trong đó đáng kể ệm phân phối T - Student Ông từng làm việc tại hãng bia ộtnghiên c u khác v phân ph i ứu về thống kê của ông xuất ều đóng ống kê người Ailen có nhiều đóng T v i t a đ “Sai s có th c a giá tr trungới tên giả là ự phát triển của Thống kê toán học, trong đó đáng kể ều đóng ống kê người Ailen có nhiều đóng ển của Thống kê toán học, trong đó đáng kể ủa Thống kê toán học, trong đó đáng kể ị trungbình” (The Probable Error of a Mean) Công trình n i ti ng này cũng đượng bia khi thực hiện quá trình lên men.ccông b trên t Biometrika vào năm 1908.ống kê người Ailen có nhiều đóng ời Ailen có nhiều đóng
Phép kiểm định T-Student trình bày trên đây cho phép đánh giá hiệuquả tác động của một nhân tố hai mức lên một đại lượng cần nghiên cứu Khicần đánh giá hiệu quả của một nhân tố có nhiều hơn hai mức lên một đại lượngnào đó ta cần áp dụng phương pháp phân tích phương sai, được trình bày tiếpsau đây
1.2 So sánh nhiều giá trị trung bình – Mô hình Phân tích phương sai
Phân tích phương sai cho phép so sánh nhiều giá trị trung bình của biến định
lượng Y trên các nhóm khác nhau, mỗi nhóm ứng với một mức của một biến định tính X, biến ngẫu nhiên X đó còn được gọi là nhân tố.
Gi s các giá tr quan sát c a bi n đ nh lải bảo đảm chất lượng bia khi thực hiện quá trình lên men ử các giá trị quan sát của biến định lượng ị trung ủa Thống kê toán học, trong đó đáng kể ị trung ượng bia khi thực hiện quá trình lên men.ng Y trên k nhóm c aủa Thống kê toán học, trong đó đáng kể
Trang 12nhân t ống kê người Ailen có nhiều đóng X (nhóm th ứu về thống kê của ông xuất i có m i quan sát) có d ng:ại hãng bia
0 : 1 2 k
H
Kí hiệu
ij
1
1 m i
j i
1
i i
m k
Trang 13+ Ước lượng y. của có phân phối chuẩn i y i. N( , i 2 /m i)
+ Các ước lượng trên là độc lập với nhau, Cov y y i , j. 0
với i j+ Ước lượng có phân phối ˆ2 m k2 với m-k bậc tự do:
Để kiểm định giả thuyết H0 :1 2 k ta tính toán và so sánh:
“Độ biến động giữa các nhóm” của nhân tố:
2
1
11
k
i i i
INTER F
INTRA
để làm tiêu chuẩn kiểm định giả thuyết đánh giá sự ảnh hưởng của nhân tố lêngiá trị của đại lượng cần nghiên cứu Người ta chứng minh được rằng, nếu giảthuyết H0 :1 2 k là đúng thì tỷ số F có phân phối Fisher
Để kiểm định giả thuyết H0 với mức ý nghĩa ta tra bảng phân phối
Trang 14Fisher tìm giá trị F 1,k m k (phân vị phải mức của phân phối Fisher với k-1 và
Chú ý: Trong thủ tục kiểm định giả thuyết trên đây, thay vì tính giá trị tới hạn
người ta có thể tính xác suất ý nghĩa
Chú gi i l ch s ải lịch sử ịch sử ử: Nói đến phân tích phương sai, người ta nhắc đến Ronald
Aylme Fisher (1890-1962), một nhà di truyền học nổi tiếng người Anh Theolời Anders Hanld mô tả, ông là “ một thiên tài gần như tự mình tạo nền tảng chongành Khoa học Thống kê hiện đại” và Richard Dawkins mô tả ông là “học trò
vĩ đại nhất của Dawwin”
Phép kiểm định T-Student và mô hình phân tích phương sai trình bày trênđây chỉ giúp đánh giá hiệu quả tác động của một biến định tính (nhân tố tínhtrạng) lên một đại lượng cần nghiên cứu Khi cần đánh giá hiệu quả của mộtbiến định lượng (nhân tố liên tục) lên một đại lượng nào đó ta cần áp dụngphương pháp phân tích hồi quy đơn, được trình bày tiếp sau đây
1.3 Mô hình hồi quy đơn
Ta sử dụng mô hình hồi quy tuyến tính
0 1
Y b b X e
để đánh giá tác động của nhân tố định lượng X lên giá trị của đại lượng Y Trong
mô hình này, e là sai số ngẫu nhiên thỏa mãn một số giả thiết sẽ được nêu trong
Trang 15phần tiếp theo, đại lượng Y còn được gọi là biến phụ thuộc hay biến được giải thích, nhân tố X còn được gọi là biến độc lập hoặc biến giải thích Đồng thời, b0
được gọi là hệ số chặn, b được gọi là hệ số dốc, là hai tham số cần được ước1
lượng của mô hình Nếu b thì rõ ràng nhân tố X không ảnh hưởng đến giá1 0
trị của đại lượng Y Ngược lại, nếu b thì khi giá trị của biến X thay đổi, giá1 0
trị của biến Y cũng phải thay đổi theo, do đó nhân tố X tác động lên đại lượng Y một cách đáng kể Như vậy để đánh giá vai trò của nhân tố X đối với đại lượng
Y, ta cần ước lượng các hệ số của mô hình hồi quy, rồi kiểm tra xem hệ số dốc
của mô hình có bằng 0 hay không
Để ước lượng các tham số của mô hình, ta tiến hành lấy mẫu gồm n cặp
X Y1, 1 , , X Y n, n
là các giá trị quan sát được của cặp biến (X,Y) Ta ước lượng
bằng phương pháp bình phương bé nhất, tìm b b là các giá trị ước lượng củaˆ ˆ0, 1
Trang 16hàm S, cần lấy đạo hàm riêng bậc hai, có ma trận Hessian
2 2 2
Để đánh giá vai trò của nhân tố X đối với đại lượng Y thông qua phương
trình hồi quy, ta cần kiểm tra giả thuyết
H b 0 : 1 0Nếu giả thuyết được chấp nhận, b 1 0, thì rõ ràng nhân tố X không ảnh hưởng đến sự thay đổi giá trị của đại lượng Y Ngược lại, nếu giả thuyết bị bác bỏ,
Trang 171 1
ˆˆ( )
b t
i i i
Nếu năm giả thiết của mô hình hồi quy trình bày phía trên được thỏa mãn thì
thống kê t xác định như trên là một biến ngẫu nhiên có phân phối Student với (n-2) bậc tự do Do đó bài toán kiểm định giả thuyết có thể tiếp tục thực hiện
thông qua một trong ba thủ tục sau đây:
a) Kiểm tra bằng khoảng tin cậy: Khoảng tin cậy 1 của b là1
trong đó t1 / 2;n2 là phân vị phải mức 1 / 2 của phân phối Student với
(n-2) bậc tự do Nếu khoảng tin cậy này chứa 0 ta phải chấp nhận giả thuyết và kết luận nhân tố X không ảnh hưởng đến giá trị của đại lượng Y Ngược lại, nếu
khoảng tin cậy không chứa điểm 0, giả thuyết bị bác bỏ, ta có thể khẳng định
nhân tố X tác động một cách có ý nghĩa đến giá trị của đại lượng Y.
b) Kiểm tra bằng giá trị tới hạn: Phân vị phải mức 1 / 2 của phân phối
Student với (n-2) bậc tự do t1 / 2;n2 còn được gọi là giá trị tới hạn của phépkiểm định Có thể so sánh thống kê t với giá trị tới hạn này để đưa ra kết luậnđối với phép kiểm định Cụ thể, nếu t t1/ 2;n 2 thì giả thuyết bị bác bỏ.Ngược lại, nếu t t1/ 2;n2
thì phải chấp nhận giả thuyết
c) Kiểm tra bằng xác suất ý nghĩa: Xét T là một biến ngẫu nhiên có phân phối Student với (n-2) bậc tự do Xác suất ý nghĩa ứng với thống kê t của phép kiểm
định được xác định bằng
p P T t
So sánh xác suất ý nghĩa p để đưa ra kết luận về phép kiểm định Nếu p thì
phải chấp nhận giả thuyết Ngược lại, nếu p thì có thể bác bỏ giả thuyết.
Chú gi i l ch s ải lịch sử ịch sử ử: Vào năm 1885, Francis Galton đưa ra khái niệm "Hồi quy"
Trang 18trong một nghiên cứu chứng tỏ rằng con cái không có khuynh hướng theo trạcngười của cha mẹ, mà hướng về mức trung bình so với cha mẹ Tuy nhiên,phương pháp hồi quy có một lịch sử lâu hơn Thực tế, nhà toán học huyền thoạingười Pháp tên là Adrien Marie Legendre xuất bản tác phẩm đầu tiên về hồiquy (dù ông không dùng từ này) vào năm 1805 Tuy nhiên, công lao khám pháphương pháp bình phương tối thiểu thường được quy cho Carl Friedrich Gauss(một nhà toán học huyền thoại khác người Đức), người sử dụng phương thứcnày trong phần đầu của thế kỉ 19.
Cả ba phương pháp kiểm định Student, phân tích phương sai và hồi quyđơn đều là các phương pháp đơn biến và chỉ có thể đánh giá một cách đơn lẻ tácđộng của một nhân tố lên giá trị của một đại lượng Muốn đánh giá đồng thờitác động của nhiều nhân tố lên một đại lượng, người ta phải dùng các phươngpháp đa biến Một trong những phương pháp đa biến thường được dùng làphương pháp hồi quy bội, được trình bày tiếp sau đây
1.4 Mô hình hồi quy bội
Mô hình hồi quy bội
là k+1 tham số và e i là sai số ngẫu nhiên Lấy mẫu gồm
n quan sát X X11, 21, ,X Y k1, 1, ,X1n,X2n, ,X Y kn, n , khi đó mô hình được
biểu diễn thành hệ n phương trình như sau:
Trang 19Trong đó Y là véc t c t g m ơng trình trên có thể đưa về dạng ma trận như sau: ột ồm n giá tr quan sát đị trung ượng bia khi thực hiện quá trình lên men X là ma trận gồm nc,
hàng và k+1 cột, trong đó các giá trị của cột đầu tiên luôn bằng 1, b là véc tơng trình trên có thể đưa về dạng ma trận như sau:
c t g m ột ồm k+1 ph n t , ần tử, ử các giá trị quan sát của biến định lượng e là véc t c t g m ơng trình trên có thể đưa về dạng ma trận như sau: ột ồm n s h ng sai s ống kê người Ailen có nhiều đóng ại hãng bia ống kê người Ailen có nhiều đóng
Ta có thể giả thiết
2
( ) 0 , ar( )
với I là ma trận đơn vị cấp n mà n phần tử trên đường chéo chính bằng 1, các
phần tử còn lại bằng 0 Khi đó, mô hình hồi quy được đưa về dạng
Trang 20iii)Sai số ngẫu nhiên có phương sai cố định, Var e 2
iv) Các sai số không tương quan với nhau, Cov e e( , ) 0,i j i j
v) Sai số là đại lượng ngẫu nhiên có phân phối chuẩn, e iN0,2
Cũng tương tự như cách làm đối với mô hình hồi quy đơn, ta có thể đánhgiá vai trò trong phương trình hồi quy bội của từng nhân tố X (i=1, ,k) đối i với đại lượng Y, bằng cách kiểm tra giả thuyết
i i
i
b t
hiện thông qua một trong ba thủ tục sau đây:
a) Kiểm tra bằng khoảng tin cậy: Khoảng tin cậy 1 của b là i
trong đó t1 / 2;n k 1 là phân vị phải mức 1 / 2 của phân phối Student
với (n-k-1) bậc tự do Nếu khoảng tin cậy này chứa 0 ta phải chấp nhận giả
thuyết và kết luận nhân tố X không ảnh hưởng đến giá trị của đại lượng Y i
Ngược lại, nếu khoảng tin cậy không chứa điểm 0, giả thuyết bị bác bỏ, ta có
Trang 21thể khẳng định nhân tố X tác động một cách có ý nghĩa đến giá trị của đại i lượng Y.
b) Kiểm tra bằng giá trị tới hạn: Phân vị phải mức 1 / 2 của phân phối
Student với (n-k-1) bậc tự do t1 / 2;n k 1 còn được gọi là giá trị tới hạn củaphép kiểm định Có thể so sánh thống kê t với giá trị tới hạn này để đưa ra kếtluận đối với phép kiểm định Cụ thể, nếu t i t1 / 2;n k 1
thì giả thuyết bịbác bỏ Ngược lại, nếu t i t1 / 2;n k 1
thì phải chấp nhận giả thuyết
c) Kiểm tra bằng xác suất ý nghĩa: Xét T là một biến ngẫu nhiên có phân phối Student với (n-k-1) bậc tự do Xác suất ý nghĩa ứng với thống kê t của phép i
kiểm định được xác định bằng
i
p P T t
So sánh xác suất ý nghĩa p để đưa ra kết luận về phép kiểm định Nếu p thì
phải chấp nhận giả thuyết Ngược lại, nếu p thì có thể bác bỏ giả thuyết.Thông thường các nhân tố ( các biến độc lập trong mô hình hồi quy bội )đều là các biến định lượng Tuy nhiên, cũng có thể đưa vào mô hình một sốbiến định tính nhị phân ( nhận hai giá trị 0 và 1 ) Bằng cách này, có thể đánhgiá tác động của cả các nhân tố định tính cũng như các nhân tố định lượng lên
giá trị của đại lượng Y cần xem xét.
Các phép kiểm định của mô hình hồi quy bội chỉ có hiệu lực nếu năm giảthiết của mô hình được thỏa mãn, đặc biệt là điều kiện các sai số là độc lập vớinhau và có phương sai không đổi Trong thực tế, đó là hai điều kiện khó đượcthỏa mãn, do đó có thể dẫn đến những kết luận sai lầm về vai trò của các nhân
tố Để khắc phục hiện tượng này, có thể sử dụng mô hình hồi quy tuyến tínhnhiều mức Đó là nội dung được trình bày trong chương tiếp theo
Trang 22
Chương 2.
MÔ HÌNH HỒI QUY NHIỀU MỨC
Khi thu thập số liệu trong điều tra xã hội học, chúng ta thường gặp cấu trúc sốliệu có thứ bậc hay cấu trúc số liệu lồng nhóm, nói cách khác số liệu được thuthập ở các mức khác nhau của đơn vị quan sát Chẳng hạn, trong điều tra về khảnăng tiếp thu kiến thức của học sinh, số liệu về thành tích học tập của học sinhđược thu thập ở các cá nhân từng học sinh, song kết luận có thể được đưa ra chocác trường và khu vực Ở đây các cá thể học sinh (đơn vị mức 1) được xếptrong phạm vi các lớp, sau đó các lớp (đơn vị mức 2) được xếp lồng nhóm trongphạm vi các trường và các trường (đơn vị mức 3) được lồng nhóm trong phạm
vi các khu vực (đơn vị mức 4)
Từ những năm cuối của thập kỷ 80 của thế kỷ 20, mô hình nhiều mức đãđược xây dựng và sử dụng rộng rãi để nghiên cứu các dữ liệu có cấu trúc lồngnhóm như vậy Mô hình nhiều mức đã cho thấy nhiều ưu điểm so với cácphương pháp phân tích thống kê truyền thống khác, chẳng hạn như khắc phụcđược hạn chế của giả thiết về tính độc lập giữa các quan sát Trong ví dụ trên,thành tích học tập của các học sinh (đơn vị mức 1) không hoàn toàn độc lậpnhau (vì các học sinh cùng trường, lớp có thể ảnh hưởng nhau bởi cùng thầydạy, hoặc có sự trao đổi kiến thức giữa các học sinh với nhau) Khi đó giả thiết
về tính độc lập giữa các quan sát mà các phương pháp thống kê cổ điển đòi hòi
sẽ bị vi phạm
2.1 Mô hình hồi quy hai mức cơ bản
Mô hình hồi quy nhiều mức đã được biết đến trong các nghiên cứu với các tênkhác nhau như mô hình hệ số ngẫu nhiên, mô hình thành tố phương sai, môhình tuyến tính có thứ bậc Những mô hình mô tả trên không hoàn toàn giốngnhau (đặc biệt khi các tính toán chi tiết được quan tâm) tuy nhiên chúng khágiống nhau Chúng ta sẽ xem xét đến các mô hình này một cách chung nhưnhững “mô hình hồi quy nhiều mức”
Trang 23Thuật ngữ thông thường để ký hiệu mức thấp nhất của thứ bậc là mức 1,mức thấp tiếp theo là mức 2, v.v… Chẳng hạn, những sinh viên được xếp lồngnhóm trong phạm vi các lớp, và các lớp lại được xếp lồng trong phạm vi cáctrường khi nghiên cứu hiệu quả đào tạo Khi ấy ta dùng các thuật ngữ tươngứng: sinh viên là đơn vị mức 1, lớp là đơn vị mức 2 và trường là đơn vị mức 3
Mô hình hồi quy nhiều mức đầy đủ giả sử rằng có một bộ dữ liệu thứ bậcvới một biến phụ thuộc đo được ở mức thấp nhất và một số biến giải thích đođược ở tất cả các mức hiện có Cụ thể, mô hình đó có thể được xem xét như một
hệ thống có thứ bậc các công thức hồi quy Ví dụ, giả thiết rằng chúng ta có số
liệu thu thập ở J trường, với số liệu từ một số lượng học sinh khác nhau N jởmỗi trường Ở mức học sinh chúng ta có biến phụ thuộc “tác động của quá
trình đào tạo của trường” (Y) và biến giải thích “điều kiện kinh tế - xã hội” của học sinh (X), còn ở mức trường chúng ta có biến giải thích “quy mô của trường” (Z) Do vậy chúng ta có thể sắp đặt một công thức hồi quy riêng biệt cho mỗi trường riêng biệt để dự báo biến phụ thuộc Y bằng biến độc lập X như sau:
Trong công thức hồi quy này 0 j là hệ số chặn, 1 j là hệ số hồi quy (độdốc hồi quy), eij là số hạng sai số chưa tính được (sai số ngẫu nhiên) Chỉ sốdưới j là chỉ trường thứ j và chỉ số dưới i là chỉ những cá thể học sinh(i1, ,N j)
Sự khác biệt của mô hình này so với mô hình hồi quy thôngthường là chúng ta đã giả sử rằng mỗi trường được đặc trưng bởi một hệ sốchặn 0 j khác nhau và một hệ số dốc 1 jkhác nhau Cũng như trong mô hìnhhồi quy nhiều mức thông thường, những sai số ngẫu nhiên eij ở mỗi trường
được giả định có kì vọng 0 và phương sai 2j; hầu hết các mô hình nhiều mứcgiả định rằng phương sai của sai số ngẫu nhiên là giống nhau ở tất cả các trường
và chỉ rõ phương sai của sai số này bằng s2.
Trang 24Trong mô hình trên hệ số chặn và hệ số dốc được giả định biến đổi quacác trường Vì lý do đó, chúng được thường được xem xét đến như là các hệ sốngẫu nhiên Trong ví dụ của chúng ta, mỗi trường được đặc trưng bởi giá trịriêng biệt của hệ số chặn và hệ số dốc của biến “điều kiện kinh tế - xã hội” củahọc sinh Đối với những học sinh có giá trị bằng nhau ở biến giải thích “điềukiện kinh tế - xã hội”, một trường với hệ số chặn cao hơn sẽ được dự báo đemlại một kết quả đào tạo cao hơn so với trường có hệ số chặn thấp Tương tự, sựkhác nhau về hệ số dốc của “điều kiện kinh tế - xã hội” có thể được giải thíchtheo nghĩa là mối quan hệ điều kiện kinh tế xã hội của học sinh và kết quả họctập là không giống nhau trong tất cả các trường Một số trường có giá trị của hệ
số dốc của biến “điều kiện kinh tế - xã hội” cao, như vậy trong những trườngnày “điều kiện kinh tế - xã hội” có ảnh hưởng lớn đến quá trình đào tạo của nhàtrường Các trường khác có giá trị của hệ số dốc của “điều kiện kinh tế - xã hội”thấp, thể hiện trong những trường này “điều kiện kinh tế - xã hội” ít có ảnhhưởng đối với quá trình đào tạo của nhà trường
Qua tất cả các trường, các hệ số hồi quy j có một phân bố với kì vọng
và phương sai nào đó Bước tiếp theo ở mô hình hồi quy thứ bậc là dự báo sựbiến thiên của hệ số hồi quy j bằng cách đưa vào các biến giải thích ở mứctrường như dưới đây:
(2.2)(2.3)
Trang 25Công thức (2.3) nói rõ rằng mối quan hệ (diễn tả bởi hệ số dốc 1 j) giữa quá
trình đào tạo của trường (Y) và “điều kiện kinh tế - xã hội” (X) của học sinh phụ thuộc vào quy mô nhà trường (Z) Một trường có giá trị của 0 j cao hay thấp,phụ thuộc vào quy mô trường (ít nhất là phần nào đó) Nếu 11 là dương, nhữngtrường lớn có khuynh hướng có giá trị của 1 jcao hơn những trường nhỏ.Ngược lại, nếu 11 là âm, những trường lớn có khuynh hướng có giá trị của 1 jthấp hơn là những trường nhỏ Do đó, quy mô trường đóng vai trò của biếntrung gian cho mối quan hệ giữa quá trình đào tạo của trường và “điều kiện kinh
tế - xã hội”; mối quan hệ này biến đổi theo giá trị của biến trung gian
Các số hạng như u 0 j và u 1 j trong công thức (2.2) và (2.3) là các sai số(phần dư) chưa tính được (ngẫu nhiên) ở mức trường Phần dư u j được giả định
có kỳ vọng 0, độc lập với các sai số ngẫu nhiên eij ở mức cá thể (mức họcsinh) Phương sai của các phần dư u 0 jtheo lý thuyết là 00, và phương sai củacác sai số u 1 jtheo lý thuyết là 11 Hiệp phương sai 12 giữa các phần dư u 0 j
và u 1 jnói chung không được giả thiết bằng 0
Chú ý rằng trong công thức (2.2) và (2.3) không giả định các hệ số hồi quy
được thay đổi giữa các trường (nên chúng không có chỉ số dưới j để biểu thị
một trường nào mà chúng được áp dụng chung cho tất cả các trường) Vì thếcác hệ số này được nói đến như các hệ số cố định, sự biến đổi còn lại giữa tất cảcác trường được đưa vào hệ số Sau khi dự báo các hệ số này với biến trường
(bởi vậy chúng có chỉ số dưới j để chỉ trường nào chúng được áp dụng)
Khi xem xét đơn lẻ một học sinh ở một trường, biến giải thích có thể đượcviết như một công thức hồi quy đơn phức tạp bằng cách thế công thức (2.2) và
Trang 26(2.3) vào công thức (2.1) Xắp xếp lại các số hạng được:
Phần 0010 ijX 01Z j 11Z X j ij trong công thức (2.4) bao gồm tất
cả các hệ số cố định, vì thế phần này thường được gọi là phần cố định (hay tấtđịnh) của mô hình Phần u X1j iju0j eij trong công thức (2.4) bao gồm tất cảcác số hạng sai số ngẫu nhiên, do đó phần này thường được gọi là phần ngẫunhiên (bất định) của mô hình Số hạng Z X j ij là một số hạng chỉ sự tương tác,xuất hiện trong mô hình như một hệ quả của việc mô hình hoá sự biến động của
hệ số dốc 1 j của biến Xij (mức học sinh) theo biến Z j (mức trường) Do đó,
ảnh hưởng trung gian của Z tới mối quan hệ giữa biến phụ thuộc Y và biến độc lập X được biểu diễn như một tương tác chéo giữa các mức Việc diễn giải mối
tương tác giữa các số hạng trong phân tích hồi quy nhiều mức có thể sẽ phứctạp Nói chung, việc diễn giải một cách riêng biệt các hệ số trong mô hình vớinhững tương tác là đơn giản hơn nếu các biến tạo ra sự tương tác được biểudiễn như độ sai lệch so với giá trị trung bình tương ứng của chúng Chú ý rằng,
số hạng sai lệch ngẫu nhiên u1jđược đi kèm với giá trịXij Vì số hạng sai lệch
1j
u
được nhân với biến dự báo Xij nên sai lệch tổng cộng sẽ khác nhau đối vớicác giá trị khác nhau của Xij, là tình thế xảy ra trong mô hình hồi quy bội cổđiển được gọi là hiện tượng “phương sai sai số thay đổi”
Như đã giải thích ở trên, những mô hình nhiều mức là cần thiết vì khi sốliệu được phân nhóm, các quan sát trong cùng một nhóm nói chung giống nhauhơn các quan sát ở những nhóm khác, điều này đã vi phạm giả thiết về tính độclập của của quan sát Sự không độc lập của các quan sát trong cùng một nhóm
có thể được biểu diễn qua một hệ số tương quan: hệ số tương quan nội tại củanhóm Các tài liệu về phương pháp luận đưa ra một số công thức khác nhau đểtính , hệ số tương quan nội tại của nhóm Ví dụ, nếu chúng ta dùng phươngpháp phân tích phương sai một lối để kiểm tra xem có ảnh hưởng nhóm đáng kể
Trang 27hay không, hệ số tương quan nội tại của nhóm được ước lượng bởi
(2.5)Tương tự, nếu không có biến giải thích Z ở mức cao nhất, công thức (2.2)còn lại là
b0j = g00+ u0j
(2.6)Khi đó, chúng ta tìm mô hình công thức đơn bằng cách thay thế (2.6) vào (2.5):
Yij = g00+ u0j + eij
(2.7)Chúng ta cũng có thể tìm được công thức (2.7) bằng cách đơn giản hóacông thức (2.4), bỏ đi tất cả các số hạng chứa biến X hay Y Mô hình của côngthức (2.7) tách phương sai thành hai thành phần độc lập, đó là phương sai 2
của sai số ngẫu nhiên (sai số mức thấp nhất) eij và 00 là phương sai của sai sốmức cao nhất u 0 j Dùng mô hình này chúng ta có thể ước lượng tương quannội tại lớp bằng công thức:
00 2 00
s r
=
+
Trang 28Công thức trên phát biểu một cách đơn giản là tương quan nội tại trongcác nhóm bằng tỷ số của phương sai mức nhóm so với phương sai toàn bộ ướclượng được.
2.2 Tính toán các tham số ước lượng và chiến lược phân tích.
Mô hình tổng quát sẽ có nhiều hơn một biến giải thích ở mức thấp nhất và cũng
nhiều hơn một biến giải thích ở mức cao nhất Giả sử rằng chúng ta có P biến giải thích X ở mức thấp nhất, được đánh dấu bằng chỉ số dưới p (p=1,…,P) Tương tự như vậy, chúng ta có Q biến giải thích Z ở mức cao nhất, được đánh dấu bằng chỉ số dưới q (q=1,…,Q) Khi đó, (2.4) trở thành công thức
chung hơn như sau:
dư ở mức cao nhất Chúng được giả định là độc lập với sai số ngẫu nhiên eij ởmức cá thể, và có phân bố chuẩn nhiều chiều với kỳ vọng 0 Phương sai củaphần dư u 0 j là sự sai lệch của các điểm chặn giữa các nhóm, phương sai nàyđược xác định là 00 Phương sai của các phần dư u Pj, p1,2, ,P là những
sự sai lệch của các độ dốc giữa các nhóm, chúng được xác định là pp Hiệpphương sai giữa các phần dư p p nói chungkhông được giả định bằng 0