PHẠM THỊ THU SƯƠNG ỨNG DỤNG PHÂN TÍCH SỐ LIỆU ĐỊNH TÍNH NHIỀU CHIỀU VÀO BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG ĐÀO TẠO CỦA TRƯỜNG ĐẠI HỌC Chuyên ngành : Lý thuyết xác suất và thống kê toán học
Trang 1PHẠM THỊ THU SƯƠNG
ỨNG DỤNG PHÂN TÍCH SỐ LIỆU ĐỊNH TÍNH NHIỀU CHIỀU VÀO BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG ĐÀO TẠO
CỦA TRƯỜNG ĐẠI HỌC
Chuyên ngành : Lý thuyết xác suất và thống kê toán học
Mã số : 60 46 15 LUẬN VĂN THẠC SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS TÔ ANH DŨNG
Thành phố Hồ Chí Minh - 2010
Trang 2LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời tri ân đến ba mẹ đã nuôi dưỡng, giáo dục, tạo điều kiện tốtnhất để tôi được học tập đến ngày hôm nay
Tôi xin gửi lời cảm ơn chân thành đến Thầy − Tiến sĩ Tô Anh Dũng đã tận tìnhhướng dẫn, chỉ bảo, truyền đạt những ý tưởng quý báu cho tôi trong quá trình học tập cũngnhư trong quá trình thực hiện luận văn
Tôi cũng xin bày tỏ lòng kính trọng và biết ơn đến Thầy − PGS.TS Nguyễn Bác Vănđã dạy cho chúng tôi - học viên khoá 17 - cách làm việc nghiêm túc và thấu đáo
Xin chân thành cảm ơn các Thầy Cô trong Khoa Toán−Tin học Trường Đại học Khoahọc Tự nhiên Tp.HCM, các Thầy Cô trong Bộ môn Xác suất Thống kê, Thầy − Tiến sĩ DươngTôn Đảm, đã tận tình giảng dạy, hướng dẫn, cung cấp cho tôi những kiến thức bổ ích trongnhững năm học cao học
Tôi cũng xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo Sau Đại học, Thưviện trường cùng Quý Thầy Cô, Cán bộ công nhân viên Trường Đại học Khoa học Tự nhiênTp.HCM đã giúp đỡ, tạo điều kiện tốt nhất cho tôi trong suốt thời gian học tại trường
Tôi xin chân thành cảm ơn Hiệu trưởng − PGS.TS Thái Bá Cần, Trưởng Phòng Đàotạo − TS.Nguyễn Tiến Dũng của Trường Đại học Sư phạm Kỹ thuật Tp.HCM đã giúp đỡ,tạo điều kiện cho tôi tham gia khoá học này
Cuối cùng, xin cảm ơn các bạn lớp Cao học Toán khoá 17, đặc biệt là các bạn chuyênngành Xác suất Thống kê đã luôn sẵn sàng giúp đỡ, động viên, chia sẽ những khó khăn vớitôi trong suốt thời gian học
Tp Hồ Chí Minh, tháng 09 năm 2010
Phạm Thị Thu Sương
Trang 3MỤC LỤC
Trang
Lời cảm ơn 1
Mục lục 2
Lời giới thiệu 5
Chương I: Kiến thức Đại số và Xác suất Thống kê 6
§1.1 Ma trận 6
1.1.1 Biểu diễn ma trận dưới dạng các ma trận con 6
1.1.2 Ma trận xác định dương 6
1.1.3 Giá trị riêng và vector riêng 7
§1.2 Các đặc trưng của số liệu nhiều chiều 11
1.2.1 Trung bình và phương sai của biến ngẫu nhiên một chiều 11
1.2.2 Hiệp phương sai và hệ số tương quan của biến ngẫu nhiên hai chiều 11
1.2.2.1 Hiệp phương sai 11
1.2.2.2 Hệ số tương quan 12
1.2.3 Vector trung bình 13
1.2.4 Ma trận hiệp phương sai 14
1.2.5 Ma trận tương quan 15
1.2.6 Tổ hợp tuyến tính của các biến 16
1.2.6.1 Các tính chất của mẫu 16
1.2.6.2 Các tính chất của phân phối 19
§1.3 Phân phối chuẩn nhiều chiều 20
1.3.1 Hàm mật độ của phân phối chuẩn nhiều chiều 20
1.3.1.1 Hàm mật độ của phân phối chuẩn một chiều 20
1.3.1.2 Hàm mật độ của phân phối chuẩn nhiều chiều 20
1.3.1.3 Phương sai tổng quát 20
1.3.1.4 Tính đa dạng của các ứng dụng chuẩn nhiều chiều 21
1.3.2 Các tính chất của biến ngẫu nhiên có phân phối chuẩn nhiều chiều 21
Trang 41.3.3 Ước lượng trong chuẩn nhiều chiều 24
1.3.3.1 Ước lượng hợp lý cực đại 24
1.3.3.2 Phân phối của y và S 25
Chương II: Phân tích hồi qui 27
§2.1 Hồi qui đa biến 27
2.1.1 Mô hình hồi qui đa biến với x cố định 27
2.1.2 Ước lượng bình phương bé nhất trong mô hình x cố định 28
2.1.3 Ước lượng cho σ2 30
2.1.4 Mô hình qui tâm 30
2.1.5 Kiểm định giả thiết 32
2.1.5.1 Kiểm định hồi qui tổng thể 32
2.1.5.2 Kiểm định trên một tập con của β 33
2.1.6 R2 trong hồi qui với x cố định 34
2.1.7 Sự lựa chọn tập con phù hợp 35
2.1.7.1 Kiểm tra tất cả các tập con có thể 35
2.1.7.2 Sự lựa chọn trị nhảy cấp 35
2.1.8 Hồi qui đa biến với x ngẫu nhiên 36
§2.2 Hồi qui đa biến nhiều chiều 37
2.2.1 Mô hình hồi qui đa biến nhiều chiều với x cố định 37
2.2.2 Ước lượng bình phương bé nhất trong mô hình nhiều chiều 38
2.2.3 Các tính chất của ước lượng bình phương bé nhất ˆB 39
2.2.4 Một ước lượng cho Σ 39
2.2.5 Mô hình qui tâm 39
2.2.6 Kiểm định giả thiết trong hồi qui đa biến nhiều chiều 40
2.2.6.1 Kiểm định hồi qui tổng thể 40
2.2.6.2 Kiểm định trên một tập con các giá trị của x 42
2.2.7 Hồi qui đa biến nhiều chiều với x ngẫu nhiên 43
Chương III: Phân tích nhân tố 44
§3.1 Mô hình nhân tố trực giao 44
3.1.1 Định nghĩa mô hình và các giả thiết 44
Trang 53.1.2 Tính không duy nhất của các hệ số tải 48
§3.2 Ước lượng các hệ số tải và phương sai tương đối 50
3.2.1 Phương pháp thành phần chính 50
3.2.2 Phương pháp nhân tố chính 53
3.2.3 Phương pháp nhân tố chính lặp 55
3.2.4 Phương pháp hợp lý cực đại 55
§3.3 Chọn lựa số nhân tố 57
§3.4 Phép quay 59
3.4.1 Giới thiệu 59
3.4.2 Phép quay trực giao 59
3.4.2a Phương pháp đồ thị 60
3.4.2b Phép quay varimax 60
3.4.3 Phép quay xiên 60
3.4.4 Sự giải thích các nhân tố 61
§3.5 Giá trị nhân tố 62
Chương IV: Ứng dụng vào bài toán đánh giá chất lượng đào tạo của trường Đại học 64 4.1 Bài toán 64
4.2 Mô tả số liệu và Phân tích, đánh giá .64
4.3 Nhận xét 76
Kết luận 77
Tài liệu tham khảo 78
Trang 6LỜI GIỚI THIỆU
Phân tích số liệu nhiều chiều được ứng dụng khá rộng rãi trong nhiều lĩnh vực như giáodục, hóa học, vật lý, địa chất, kỹ thuật, pháp luật, kinh doanh, ngôn ngữ học, sinh học, tâmlý học để đưa ra những đánh giá đánh tin cậy cho nhiều vấn đề dựa trên bộ số liệu phùhợp
Hiện nay, với sự hỗ trợ của máy điện toán, có rất nhiều phương pháp phân tích số liệunhiều chiều hiệu quả được xây dựng và ứng dụng Trong phạm vi luận văn này, chúng tôisẽ giới thiệu một số phương pháp phân tích số liệu nhiều chiều như phân tích hồi qui tuyếntính, phân tích nhân tố và áp dụng chúng vào bài toán đánh giá chất lượng đào tạo ở trườngĐại học Sư phạm Kỹ thuật Tp.HCM Luận văn gồm có 4 chương:
Chương I: Kiến thức đại số và xác suất thống kê Chương này trình bày các kiến thức cơ
sở cần cho các chương tiếp theo bao gồm: ma trận, các đặc trưng của số liệu nhiều chiều,phân phối chuẩn nhiều chiều
Chương II: Phân tích hồi qui nhiều chiều Trong chương này, chúng ta nghiên cứu hai
dạng phân tích hồi qui là hồi qui đa biến với x cố định và hồi qui đa biến với x ngẫu nhiêncho trường hợp một chiều và trường hợp nhiều chiều
Chương III: Phân tích nhân tố Chương này trình bày việc giảm số lượng biến bằng cách
sử dụng một số nhân tố ít hơn, sử dụng phép quay trực giao và phép quay xiên
Chương IV: Ứng dụng vào bài toán đánh giá chất lượng đào tạo của trường Đại học.
Chương này trình bày nhiều bộ số liệu thu thập được như số nhận xét của sinh viên về hoạtđộng giảng dạy của giảng viên đầu ba năm học 07-08, 08-09, và 09-10; số lượng sinh viênđầu vào từ năm 2001 đến 2008 và kết quả học tập trong ba năm học đầu tiên của số sinhviên này; kết quả khảo sát mức độ hài lòng của sinh viên sau khi tốt nghiệp trong bốn đợttháng 05/08, tháng 12/08, tháng 06/09 và tháng 12/09; kèm theo là kết quả phân tích đểđánh giá chất lượng đào tạo tại trường Đại học Sư phạm Kỹ thuật Tp.HCM, thông qua việcáp dụng phương pháp phân tích hồi qui và phương pháp phân tích nhân tố
Trang 7CHƯƠNG I:
KIẾN THỨC ĐẠI SỐ VÀ XÁC SUẤT THỐNG KÊ
§ 1.1 MA TRẬN
1.1.1 Biểu diễn ma trận dưới dạng các ma trận con
Để thuận tiện ta thường chia nhỏ ma trận dưới dạng các ma trận con Chẳng hạn chia
nhỏ ma trận A thành bốn ma trận con như sau:
1.1.2 Ma trận xác định dương
Ma trận đối xứng A được gọi là xác định dương nếu x0
Tương tự, A là ma trận nửa xác định dương nếu x0
Trang 8Các phần tử trên đường chéo aii của ma trận xác định dương là dương Tương tự cho
ma trận nửa xác định dương, aii≥ 0 với mọi i.
Nếu A = B0
B với B là n × p, có hạng p < n thì B0
B xác dịnh dương Thật vậy:
B là nửa xác định dương
Một ma trận xác định dương A có thể phân tách thành :
để tìm giá trị x tương ứng.
Phương trình |A − λI| = 0 gọi là phương trình đặc trưng Nếu A là n × n, A sẽ có n
vector riêng λ , λ , , λ Các giá trị λ không nhất thiết phân biệt hay khác 0.
Trang 9Ta nhân hai vế của (1.1.5) với một vô hướng k, ta được:
Như vậy nếu x là một vector riêng của A thì kx cũng là một vector riêng Do đó ta có thể
chuẩn hóa vector riêng x: x0
x = 1
1.1.3.2 Vết và định thức của ma trận A
Giả sử ma trận vuông A có các giá trị riêng là λ1, λ2, , λn Lúc đó, ta có:
1.1.3.3 Ma trận xác định và nửa xác định dương
Giá trị riêng và vector riêng của ma trận xác định dương và nửa xác định dương có tínhchất:
1 Tất cả giá trị riêng của ma trận xác định dương là dương
2 Giá trị riêng của ma trận nửa xác định dương là dương hoặc bằng không Sốgiá trị riêng dương bằng hạng của ma trận
1.1.3.4 Ma trận tích AB
Nếu A và B là ma trận vuông và cùng kích cỡ thì các giá trị riêng của AB giống BA, mặc dù vector riêng thường khác nhau Nếu AB và BA là vuông, khác kích cỡ thì các giá trị riêng khác không của AB và BA là giống nhau.
Trang 101.1.3.6 Ma trận căn bậc hai
Nếu A là ma trận xác định dương, thì
1.1.3.7 Ma trận bình phương và ma trận nghịch đảo
Nếu ma trận vuông, đối xứng A có các giá trị riêng λ1, λ2, , λn và các vector riêng
tương ứng x1, x2, , xn thì A2 có các giá trị riêng λ2
1, λ2
2, , λ2
n với các vector riêng
vector riêng x1, x2, , xn
với C = (x1, x2, , xn) chứa các vector riêng chuẩn hoá của A (và của A 2 , A−1),
D2 = diag(λ2, λ2, , λ2) và D−1 = diag(1/λ1, 1/λ2, , 1/λn)
Trang 111.1.3.8 Phân tích giá trị suy biến
Chúng ta có thể biểu diễn ma trận thực A dưới hình thức các giá trị riêng và vector riêng của A0
A và AA0
Đặt A là ma trận n × p, có hạng k Phân tích giá trị suy biến của
A là:
với Un×k, Dk×k, và Vp×k Các phần tử trên đường chéo của ma trận D = diag(λ1, λ2, , λk)
là căn bậc hai của các giá trị riêng khác 0 của A0
A hay của AA0
; k cột của U là các vector
riêng chuẩn hoá của AA0
tương ứng các giá trị riêng λ2
1, λ22, , λ2k; k cột của V là các
vector riêng chuẩn hoá của A0
A tương ứng các giá trị riêng λ2
1, λ22, , λ2k Vì các cột của
U và V là các vector riêng chuẩn hoá của ma trận đối xứng, ta có U0
U = V0V = I
Trang 12§ 1.2 CÁC ĐẶC TRƯNG CỦA SỐ LIỆU NHIỀU CHIỀU
1.2.1 Trung bình và phương sai của biến ngẫu nhiên một chiều
Biến ngẫu nhiên là biến mà giá trị phụ thuộc vào kết quả của một thí nghiệm ngẫunhiên
Trung bình phân phối của một biến ngẫu nhiên y là trung bình của tất cả các giá trị có thể có của y, được ký hiệu là µ, cũng được đề cập đến như giá trị kỳ vọng của y, E(y) Trung bình mẫu của một mẫu ngẫu nhiên cỡ n y1, y2, , yn là:
Tổng quát, y không bằng µ, tuy nhiên ta xem y là ước lượng tốt cho µ vì E(y) = µ và
Một số tính chất:
2 Nếu zi = ayi i = 1, 2, , n thì z = ay (1.2.3)
Phương sai: var(y) = σ2 = E(y − µ)2 Đây là độ lệch bình phương trung bình, biểu thị
mức độ phân tán các giá trị của y Phân tích, ta được:
1.2.2 Hiệp phương sai và hệ số tương quan của biến ngẫu nhiên hai chiều
1.2.2.1 Hiệp phương sai
Hai biến x và y được đo lường trên hai đơn vị khác nhau Hiệp phương sai của biến
Trang 13ngẫu nhiên hai chiều (x, y) được định nghĩa là:
với µx và µy là trung bình của x và y tương ứng.
Phân tích, ta được:
σxy = E(xy) − µxµy.Một số tính chất:
1 E(x + y) = E(x) + E(y)
2 E(xy) = E(x)E(y) nếu x và y độc lập.
Hiệp phương sai mẫu được định nghĩa là:
1.2.2.2 Hệ số tương quan
Hệ số tương quan của hai biến ngẫu nhiên x và y là:
Cả hai hệ số tương quan này biến thiên từ −1 đến 1
Hệ số tương quan mẫu rxy là cosin của góc giữa hai vector Đặt θ là góc giữa hai vector a và b, ta có:
Trang 141.2.3 Vector trung bình
Giả sử mẫu gồm n cá thể, mỗi cá thể được đo lường p thành phần thì ta biểu diễn n
vector cá thể y1, y2, , yn là:
i=1yij/n là trung bình của n quan trắc trên biến thứ j.
n vector quan trắc y1, y2, , yn có thể biểu diễn dưới dạng ma trận dữ liệu Y như sau:
Hàng i của ma trận Y chỉ cá thể i, cột j của ma trận Y chỉ biến j.
Vector trung bình của phân phối hoặc kỳ vọng của y được định nghĩa là vector các kỳ vọng
của mỗi biến:
Trang 151.2.4 Ma trận hiệp phương sai
Ma trận hiệp phương sai mẫu S = (sjk) là ma trận gồm phương sai và hiệp phương sai
Trong S, phương sai mẫu của p biến nằm trên đường chéo, hiệp phương sai mẫu của
từng cặp biến nằm bên ngoài đường chéo
Phương sai mẫu của biến j : sjj = s2
j sử dụng cột j của Y:
Hiệp phương sai mẫu của biến thứ j và k, sjk được tính toán như trong (1.2.7), sử dụng
cột thứ j và thứ k của Y:
yiy0i− nyy0
(1.2.16)
vì (yi −y)0 = (yi1− y1, yi2 − y2, , yip− yp) Phần tử (1,1) của (yi −y)(yi − y)0 là
(yi1− y1)2, lấy tổng theo i trong (1.2.15) ta được s11 như trong (1.2.13) Tương tự, phần tử
(1,2) của (yi−y)(yi−y)0 là (yi1− y1)(yi2− y2)
Ma trận hiệp phương sai của phân phối là:
Trang 16các phần tử ngoài đường chéo σjk là các hiệp phương sai phân phối các giá trị của biến y.
Ma trận hiệp phương sai phân phối trong (1.2.17) cũng được biểu diễn dưới dạng:
1.2.5 Ma trận tương quan
Hệ số tương quan mẫu giữa biến thứ j và thứ k được định nghĩa trong (1.2.9) là:
rp2
.
Ta có R là đối xứng vì rjk = rkj
Ma trận tương quan có thể suy ra từ ma trận hiệp phương sai và ngược lại ma trận hiệpphương sai có thể suy ra từ ma trận tương quan Thật vậy,
.
00
Trang 17.
1.2.6 Tổ hợp tuyến tính của các biến
1.2.6.1 Các tính chất của mẫu
Chúng ta nghiên cứu kỳ vọng, phương sai và hiệp phương sai của tổ hợp tuyến tính cácbiến
Đặt a1, a2, , ap là các hằng số, ta xem xét tổ hợp tuyến tính các thành phần của vector
Trung bình mẫu của z bằng trung bình của n giá trị z1 = a0y1, z2 = a0y2, , zn = a0yn;
hay tổ hợp tuyến tính của y, vector trung bình mẫu của y1, y2, , yn:
Trang 19với z là k × 1, A là k × p, và y là p × 1 (k ≤ p) Nếu zi = Ayi với mọi yi, i = 1, 2, , n
thì theo (1.2.29), vector trung bình mẫu của z là:
Trang 20z = Ay + b, (1.2.41)
1.2.6.2 Các tính chất của phân phối
Đặt z = a0
y , với a là vector hằng.
Kỳ vọng của z là:
Phương sai của z là:
σ2z = var(a0y) = a0Σa (1.2.44)
Đặt w = b0
y , với b là vector hằng khác a.
Hiệp phương sai của z = a0
Trang 21§ 1.3 PHÂN PHỐI CHUẨN NHIỀU CHIỀU
1.3.1 Hàm mật độ của phân phối chuẩn nhiều chiều
1.3.1.1 Hàm mật độ của phân phối chuẩn một chiều
Nếu một biến ngẫu nhiên y có phân phối chuẩn với kỳ vọng µ và phương sai σ2, thìhàm mật độ cho bởi:
2π
√
σ2e−(y−µ)2/2σ2, −∞ < y < ∞. (1.3.1)
Khi y có hàm mật độ (1.3.1), ta nói y có phân phối chuẩn N(µ, σ2)
1.3.1.2 Hàm mật độ của phân phối chuẩn nhiều chiều
Nếu y có phân phối chuẩn nhiều chiều với vector kỳ vọng µ và ma trận hiệp phương sai Σ, hàm mật độ cho bởi:
/σ2 = (y − µ)(σ2)−1(y − µ)trong số mũ của hàm mật độ chuẩn một chiều,
đo bình phương khoảng cách từ y đến µ trên đơn vị độ lệch tiêu chuẩn Tương tự, số hạng
(y − µ)0Σ−1(y − µ)trong số mũ của hàm mật độ chuẩn nhiều chiều (1.3.2) là bình phương
khoảng cách tổng quát từ y đến µ, hay còn gọi là khoảng cách Mahalanobis.
Trong (1.3.2), |Σ|1/2 xuất hiện tương tự như √σ2 trong (1.3.1)
1.3.1.3 Phương sai tổng quát
Chúng ta định nghĩa phương sai mẫu tổng quát là định thức của ma trận hiệp phương
sai: |S| Tương tự, |Σ| là phương sai phân phối tổng quát Nếu σ2 nhỏ trong chuẩn một
chiều, thì các giá trị của y tập trung gần trung bình Tương tự, giá trị của |Σ| nhỏ trong trường hợp nhiều chiều chỉ ra rằng các giá trị y tập trung gần µ trong không gian p chiều
hay có đa cộng tuyến giữa các biến (các biến có tương quan cao), trong trường hợp này số
Trang 22chiều có ảnh hưởng thấp hơn p Trong trường hợp đa cộng tuyến, một hoặc nhiều giá trị
riêng của Σ sẽ gần 0 và |Σ| sẽ nhỏ, vì |Σ| là tích của các giá trị riêng.
1.3.1.4 Tính đa dạng của các ứng dụng chuẩn nhiều chiều
Việc sử dụng rộng rãi chuẩn nhiều chiều là do tính dễ dùng Từ giả định chuẩn nhiềuchiều, một loạt các thủ tục được thiết lập và có sẳn trong các gói phần mềm Việc thay thếchuẩn nhiều chiều là khá ít so với trong trường hợp một chiều Bởi vì không đơn giản đểsắp xếp các vector quan trắc nhiều chiều như trong quan trắc một chiều, không có nhiềuthủ tục phi tham số thích hợp cho dữ liệu nhiều chiều
Mặc dù dữ liệu thực tế thường không chính xác với chuẩn nhiều chiều, chuẩn nhiềuchiều cung cấp một xấp xỉ hữu ích cho phân phối thực sự
1.3.2 Các tính chất của biến ngẫu nhiên có phân phối chuẩn nhiều chiều
Các tính chất của một vector ngẫu nhiên y (p × 1) có phân phối chuẩn nhiều chiều
Np(µ, Σ) là:
1 Chuẩn của tổ hợp tuyến tính các biến trong y:
(a) Nếu a là một vector hằng, hàm tuyến tính a0
y = a1 y1+ a2y2+ + apyp có phân phốichuẩn một chiều:
Nếu y ∼ Np(µ, Σ), thì a0
y ∼ N (a0µ, a0Σa)
(b) Nếu A là ma trận hằng q × p hạng q, với q ≤ p, thì q tổ hợp tuyến tính trong Ay có
phân phối chuẩn nhiều chiều:
Nếu y ∼ Np(µ, Σ), thì Ay ∼ Nq(Aµ, AΣA0)
2 Biến tiêu chuẩn hóa:
Một vector tiêu chuẩn hóa z có được theo hai cách:
với Σ = T0
T có được bằng cách sử dụng thuật toán Cholesky trong phần (1.1.1), hoặc
với Σ1/2 là ma trận căn bậc hai đối xứng của Σ (định nghĩa trong (1.1.11)).
Lúc đó, z sẽ có phân phối chuẩn nhiều chiều:
Trang 23Nếu y ∼ Np(µ, Σ), thì z ∼ Np(0, I).
3 Phân phối Chi bình phương:
Một biến ngẫu nhiên có phân phối chi bình phương với p bậc tự do được định nghĩa là
tổng bình phương p biến ngẫu nhiên chuẩn, độc lập, tiêu chuẩn hóa Do đó, nếu z là vector
tiêu chuẩn hóa được định nghĩa trong (1.3.3) hoặc (1.3.4), thì Pp
j=1
zj2 = z0zcó phân phối χ2
với p bậc tự do, định nghĩa là χ2
4 Chuẩn của phân phối biên duyên:
(a) Bất kỳ tập con của y có phân phối chuẩn nhiều chiều Chẳng hạn, đặt y1 = (y1, y2, , yr)0
là vector con chứa r phần tử đầu tiên của y và y2 = (yr+1, , yp)0 chứa p − r phần tử còn
lại Ta có, y, µ và Σ được chia nhỏ thành:
y =
y1
y2
, µ =
µ
1
µ2
, Σ =
Σ11 Σ12
,
với y1 và µ1 là r x 1 và Σ11 là r x r Lúc đó y1 có phân phối chuẩn nhiều chiều:
Trong ba tính chất tiếp theo, đặt vector quan trắc được tách thành hai vector con là y
và x, với y là p × 1 và x là q × 1 Ta có:
Trong tính chất 5, 6, 7 sau đây, ta giả sử rằng:
(a) Vector con y và x là độc lập nếu Σyx = 0.
(b) Hai biến thành phần yj và yk là độc lập nếu σjk = 0 Lưu ý điều này không đúng chocác biến ngẫu nhiên không chuẩn, như trong phần (1.2.2.1)
Trang 246 Phân phối có điều kiện:
Nếu y và x không độc lập, thì Σyx 6= 0, và phân phối có điều kiện của y cho trước x,
Lưu ý, E(y|x) là một vector của các hàm tuyến tính của x, trong khi cov(y|x) là một ma
trận không phụ thuộc x Ma trận ΣyxΣ−1xx trong (1.3.6) được gọi là ma trận các hệ số hồi
qui vì nó qui E(y|x) về x.
Ta mô tả tính chất (6) trong trường hợp chuẩn hai chiều:
Đặt u =
y
x
có phân phối chuẩn hai chiều với:
Định nghĩa f(y|x) = g(y, x)/h(x), với h(x) là hàm mật độ của x và g(y, x) là hàm mật độ đồng thời của y và x Ta có:
vì vế phải là tích, ta tìm một hàm của y và x độc lập với x và hàm mật độ của nó giống
tìm kiếm giá trị β để y − βx và x là độc lập.
Vì z = y − βx và x là chuẩn nên để z và x là độc lập, ta phải có cov(x, z) = 0 Để tìm
Trang 25z = y − σyx
x
x
Theo tính chất 1a, hàm mật độ của y − (σyx/σ2
x)x là chuẩn với
x
7 Phân phối của tổng hai vector con:
Nếu y và x cùng kích cỡ (p x 1) và độc lập thì,
1.3.3 Ước lượng trong chuẩn nhiều chiều
1.3.3.1 Ước lượng hợp lý cực đại
Trong phân phối chuẩn nhiều chiều, phương pháp hợp lý cực đại thường được dùng để
ước lượng tham số Kỹ thuật này là: với các vector quan trắc y1, y2, , yn cho trước, tìm
các giá trị của µ và Σ để cực đại hàm mật độ đồng thời các giá trị của y, gọi là hàm hợp lý Đối với chuẩn nhiều chiều, ước lượng hợp lý cực đại của µ và Σ là:
Trang 26với W = Pn
i=1
(yi−y)(yi−y)0 và S là ma trận hiệp phương sai mẫu định nghĩa trong (1.2.12)
và (1.2.15) Vì ˆΣ có số chia n thay vì n − 1, nên nó là chệch và ta thường sử dụng S thay
cho ˆΣ
Chúng ta lý giải y là ước lượng hợp lý cực đại của µ:
Vì các giá trị yi tạo thành một mẫu ngẫu nhiên, độc lập, và hàm mật độ đồng thời là tích
các hàm mật độ của các giá trị trong y Do đó, hàm hợp lý là:
2π)np|Σ|n/2e−Σni=1(yi−y)0Σ−1(yi−y)/2−n(y−µ)0Σ−1(y−µ)/2 (1.3.13)
Vì Σ−1 là xác định dương, ta có −n(y−µ)0
Σ−1(y−µ)/2 ≤ 0 và 0 < e−n(y−µ)0Σ−1(y−µ)/2 ≤ 1,
đạt cực đại khi số mũ là 0 Do đó, L cực đại khi ˆµ = y
Ước lượng hợp lý cực đại của ma trận tương quan Pρ trong (1.2.26) là ma trận tương quanmẫu:
yi/n, ta phân biệt hai trường hợp:
1 Khi y dựa trên mẫu ngẫu nhiên y1, y2, , yncó phân phối chuẩn nhiều chiều Np(µ, Σ), thì y ∼ Np(µ, Σ/n).
2 Khi y dựa trên mẫu ngẫu nhiên y1, y2, , yn có phân phối nhiều chiều không chuẩn
với vector kỳ vọng µ và ma trận hiệp phương sai Σ, thì với n lớn, y xấp xỉ Np(µ, Σ/n) Kết
quả này được biết là định lý giới hạn trung tâm nhiều chiều: Nếu y là vector trung bình của một mẫu ngẫu nhiên y1, y2, , yn từ phân phối có vector kỳ vọng µ và ma trận hiệp
phương sai Σ, thì khi n → ∞, phân phối của √n(y − µ) tiến đến N (0, Σ).
Trang 27Có p phương sai và p
2
hiệp phương sai trong S Phân phối đồng thời của p(p + 1)/2 biến phân biệt này trong W = (n − 1)S = Pi(yi−y)(yi−y)0 là phân phối Wishart, ký
hiệu Wp(n − 1, Σ), với n − 1 bậc tự do Phân phối Wishart tương tự phân phối χ2 nhiều
chiều Như tính chất 3 của phần 1.3.2, một biến ngẫu nhiên χ2 được định nghĩa là tổngbình phương các biến ngẫu nhiên tiêu chuẩn độc lập có phân phối chuẩn một chiều:
Nếu y thay thế cho µ, thì Pi(yi − y)2/σ2 = (n − 1)s2/σ2 ∼ χ2(n − 1) Tương tự, định
nghĩa của một biến ngẫu nhiên Wishart là:
n
P
i=1
(yi− µ)(yi− µ)0 ∼ Wp(n, Σ), (1.3.14)
với y1, y2, , yn độc lập có phân phối Np(µ, Σ) Khi y thay thế cho µ, phân phối vẫn là
Wishart với ít hơn một bậc tự do:
Trang 28CHƯƠNG II:
PHÂN TÍCH HỒI QUI
Chúng ta xem xét mối liên hệ tuyến tính giữa một hoặc nhiều biến y (biến phụ thuộc hay phản ứng) với một hoặc nhiều biến x (biến độc lập hay dự đoán) Chúng ta sử dụng một mô hình tuyến tính liên hệ y với x, điều này sẽ liên quan đến việc ước lượng và kiểm
định tham số trong mô hình
Một điều quan tâm sẽ là chọn biến nào vào trong mô hình Chúng ta có thể phân biệt batrường hợp theo số lượng biến:
1 Hồi qui tuyến tính đơn giản: một y và một x Ví dụ, chúng ta muốn dự đoán điểm trung
bình đại học dựa trên điểm trung bình ở trường trung học của người nộp đơn xin học
2 Hồi qui tuyến tính đa biến: một y và vài x Chúng ta cố gắng cải tiến tiên đoán của
chúng ta về điểm trung bình đại học bằng cách sử dụng nhiều hơn một biến độc lập nhưđiểm trung bình ở trường trung học, điểm chuẩn thử nghiệm hoặc đánh giá của trườngtrung học
3 Hồi qui tuyến tính đa biến nhiều chiều: vài y và vài x Chúng ta muốn tiên đoán vài
y (như là số năm đại học sinh viên sẽ hoàn tất hoặc điểm trung bình các môn khoa học,nghệ thuật và xã hội học) Các biến phụ thuộc này có thể hồi qui lại các biến độc lập (nhưlà kỹ năng toán học, thời gian kéo dài, thị giác và khéo tay)
Có hai dạng cơ bản của biến độc lập là cố định và ngẫu nhiên, phụ thuộc vào chủ định củanhà nghiên cứu hay không
§ 2.1 HỒI QUI ĐA BIẾN
2.1.1 Mô hình hồi qui đa biến với x cố định
Trong mô hình hồi qui với các giá trị x cố định, chúng ta mô tả mỗi y trong một mẫu
n quan trắc là một hàm tuyến tính theo x cộng thêm một sai số ngẫu nhiên :
y1 = β0+ β1x11+ β2x12+ + βqx1q+ 1
y2 = β0+ β1x21+ β2x22+ + βqx2q+ 2
Trang 29yn = β0+ β1xn1+ β2xn2+ + βqxnq+ n
Số biến x được định nghĩa là q Các giá trị β được gọi là các hệ số hồi qui Các giả định
thêm vào:
1 E(i) = 0 với mọi i = 1, 2, , n.
2 var(i) = σ2 với mọi i = 1, 2, , n.
3 cov(i, j) = 0 với mọi i 6= j.
Giả định 1 diễn tả mô hình là tuyến tính, E(yi) = β0+ β1xi1+ β2xi2+ + βqxiq Giả
định 2 chỉ ra rằng var(yi) = σ2, vì các giá trị x cố định Giả định 3 áp đặt điều kiện các sai số là không tương quan và do đó các giá trị y cũng không tương quan, cov(yi, yj) = 0
Ba giả định trên có thể phát biểu lại dưới dạng y như sau:
1 E(yi) = β0+ β1xi1+ β2xi2+ + βqxiq, i = 1, 2, , n.
2 var(yi) = σ2, i = 1, 2, , n.
3 cov(yi, yj) = 0, với mọi i 6= j
Biểu diễn dưới dạng ma trận, mô hình n quan trắc trong (2.1.1)sẽ là:
Cho mục đích ước lượng và kiểm định, chúng ta cần có n > q + 1.
2.1.2 Ước lượng bình phương bé nhất trong mô hình x cố định
Với giả định đầu tiên, ta có:
E(y ) = β + β x + β x + + β x
Trang 30Chúng ta muốn ước lượng các giá trị β và từ đó ước lượng E(yi) Nếu ước lượng được địnhnghĩa là: ˆβ0, ˆ β1, , ˆ βq thì ˆE(yi) = ˆβ0+ ˆβ1xi1+ ˆβ2xi2+ + ˆ βqxiq.
ˆ
E(yi)thường được ký hiệu là ˆyi
Ước lượng bình phương bé nhất của β0, β1, , βq là làm cực tiểu tổng bình phương độ lệch
giữa n giá trị quan sát y với các giá trị ˆyi được tiên đoán bởi mô hình Tức là chúng ta tìmˆ
Nếu chúng ta chỉ định hàng thứ i của X là x0
i = (1, xi1, xi2, , xiq), chúng ta có thể viết(2.1.4) là:
Giả sử b là một ước lượng có thể dẫn đến một giá trị nhỏ hơn của SSE so với ˆβ Chúng
ta cộng X(ˆ β − b)vào biểu thức trên để thấy liệu điều này có làm giảm SSE:
Trang 31SSE = [(y − X ˆβ) + X( ˆ β − b)]0[(y − X ˆ β) + X( ˆ β − b)].Khai triển, ta được:
= (y − X ˆ β)0(y − X ˆ β) + ( ˆ β − b)0X0X( ˆ β − b) + 2( ˆ β − b)0X0(y − X ˆ β)
= (y − X ˆ β)0(y − X ˆ β) + ( ˆ β − b)0X0X( ˆ β − b) + 2( ˆ β − b)0(X0y − X0X ˆ β).Số hạng thứ ba biến mất khi ta thay ˆβ = (X0X)−1X0y vào X0
X ˆ β Số hạng thứ hai có dạng
bậc hai xác định dương, và do đó SSE cực tiểu khi b = ˆβ Vậy không có giá trị b nào có
thể giảm SSE từ giá trị ˆβ
2.1.3 Ước lượng cho σ 2
Chúng ta thấy có n số hạng trong y0
y và q + 1 số hạng trong ˆβ
0
X0y Sự khác biệt là mẫu
số của s2 trong (2.1.8) Vì vậy bậc tự do cho SSE giảm đi q + 1.
2.1.4 Mô hình qui tâm
Để thuận tiện ta qui tâm các giá trị của x bằng cách trừ đi trung bình của chúng,
xi2/n , v.v [x1, x2, , xq là trung bình các cột của X trong (2.1.2)].
Mô hình cho mỗi yi trong (2.1.1) trở thành:
yi = α + β1(xi1− x1) + β2(xi2− x2) + + βq(xiq− xq) + i, (2.1.10)với
Để ước lượng giá trị
Trang 32chúng ta sử dụng các giá trị x đã được qui tâm trong ma trận:
Nếu E(y) = β0 + β1x1+ + βqxq được đánh giá tại x1 = x1, x2 = x2, , xq = xq, kết
quả giống như α trong (2.1.11) Vì vậy ta ước lượng α bởi y:
Chúng ta có thể biểu diễn ˆβ1 trong (2.1.13) dưới dạng phương sai và hiệp phương sai mẫu
Ma trận hiệp phương sai mẫu của y và các giá trị x là:
với
syy là phương sai của y,
syj là hiệp phương sai của y và xj,
sjj là phương sai của xj,
sjk là hiệp phương sai của xj và xk,
s0 = (sy1, sy2, , syq)
Trang 33các giá trị này được tính toán theo công thức trong (1.2.13) và (1.2.14).
Để biểu diễn ˆβ1 dưới dạng Sxx và syx trong (2.1.15), chúng ta thấy rằng các phần tử trên
đường chéo của X0
cXc biến đổi thành tổng bình phương Chẳng hạn, vị trí thứ hai trênđường chéo là:
n
P
i=1
(xi2− x2)2 = (n − 1)s22
Vị trí ngoài đường chéo của X0
cXc là tổng của tích, chẳng hạn phần tử ở vị trí (1, 2) là:
2.1.5 Kiểm định giả thiết
Trong phần này, chúng ta xem xét hai kiểm định cơ bản trên các giá trị của β Để có
được kiểm định F , ta giả sử rằng y có phân phối chuẩn n-chiều Nn(Xβ, σ2I)
2.1.5.1 Kiểm định hồi qui tổng thể
Giả thiết hồi qui tổng thể là không có giá trị nào của x tiên đoán y, được diễn tả là: