ứng dụng phân tích số liệu định tính nhiều chiều vào bài toán đánh giá chất lượng đào tạo của trường đại học

PHẠM THỊ THU SƯƠNG ỨNG DỤNG PHÂN TÍCH SỐ LIỆU ĐỊNH TÍNH NHIỀU CHIỀU VÀO BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG ĐÀO TẠO CỦA TRƯỜNG ĐẠI HỌC Chuyên ngành : Lý thuyết xác suất và thống kê toán học

Trang 1

PHẠM THỊ THU SƯƠNG

ỨNG DỤNG PHÂN TÍCH SỐ LIỆU ĐỊNH TÍNH NHIỀU CHIỀU VÀO BÀI TOÁN ĐÁNH GIÁ CHẤT LƯỢNG ĐÀO TẠO

CỦA TRƯỜNG ĐẠI HỌC

Chuyên ngành : Lý thuyết xác suất và thống kê toán học

Mã số : 60 46 15 LUẬN VĂN THẠC SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS TÔ ANH DŨNG

Thành phố Hồ Chí Minh - 2010

Trang 2

LỜI CẢM ƠN

Đầu tiên tôi xin gửi lời tri ân đến ba mẹ đã nuôi dưỡng, giáo dục, tạo điều kiện tốtnhất để tôi được học tập đến ngày hôm nay

Tôi xin gửi lời cảm ơn chân thành đến Thầy − Tiến sĩ Tô Anh Dũng đã tận tìnhhướng dẫn, chỉ bảo, truyền đạt những ý tưởng quý báu cho tôi trong quá trình học tập cũngnhư trong quá trình thực hiện luận văn

Tôi cũng xin bày tỏ lòng kính trọng và biết ơn đến Thầy − PGS.TS Nguyễn Bác Vănđã dạy cho chúng tôi - học viên khoá 17 - cách làm việc nghiêm túc và thấu đáo

Xin chân thành cảm ơn các Thầy Cô trong Khoa Toán−Tin học Trường Đại học Khoahọc Tự nhiên Tp.HCM, các Thầy Cô trong Bộ môn Xác suất Thống kê, Thầy − Tiến sĩ DươngTôn Đảm, đã tận tình giảng dạy, hướng dẫn, cung cấp cho tôi những kiến thức bổ ích trongnhững năm học cao học

Tôi cũng xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo Sau Đại học, Thưviện trường cùng Quý Thầy Cô, Cán bộ công nhân viên Trường Đại học Khoa học Tự nhiênTp.HCM đã giúp đỡ, tạo điều kiện tốt nhất cho tôi trong suốt thời gian học tại trường

Tôi xin chân thành cảm ơn Hiệu trưởng − PGS.TS Thái Bá Cần, Trưởng Phòng Đàotạo − TS.Nguyễn Tiến Dũng của Trường Đại học Sư phạm Kỹ thuật Tp.HCM đã giúp đỡ,tạo điều kiện cho tôi tham gia khoá học này

Cuối cùng, xin cảm ơn các bạn lớp Cao học Toán khoá 17, đặc biệt là các bạn chuyênngành Xác suất Thống kê đã luôn sẵn sàng giúp đỡ, động viên, chia sẽ những khó khăn vớitôi trong suốt thời gian học

Tp Hồ Chí Minh, tháng 09 năm 2010

Phạm Thị Thu Sương

Trang 3

MỤC LỤC

Trang

Lời cảm ơn 1

Mục lục 2

Lời giới thiệu 5

Chương I: Kiến thức Đại số và Xác suất Thống kê 6

§1.1 Ma trận 6

1.1.1 Biểu diễn ma trận dưới dạng các ma trận con 6

1.1.2 Ma trận xác định dương 6

1.1.3 Giá trị riêng và vector riêng 7

§1.2 Các đặc trưng của số liệu nhiều chiều 11

1.2.1 Trung bình và phương sai của biến ngẫu nhiên một chiều 11

1.2.2 Hiệp phương sai và hệ số tương quan của biến ngẫu nhiên hai chiều 11

1.2.2.1 Hiệp phương sai 11

1.2.2.2 Hệ số tương quan 12

1.2.3 Vector trung bình 13

1.2.4 Ma trận hiệp phương sai 14

1.2.5 Ma trận tương quan 15

1.2.6 Tổ hợp tuyến tính của các biến 16

1.2.6.1 Các tính chất của mẫu 16

1.2.6.2 Các tính chất của phân phối 19

§1.3 Phân phối chuẩn nhiều chiều 20

1.3.1 Hàm mật độ của phân phối chuẩn nhiều chiều 20

1.3.1.1 Hàm mật độ của phân phối chuẩn một chiều 20

1.3.1.2 Hàm mật độ của phân phối chuẩn nhiều chiều 20

1.3.1.3 Phương sai tổng quát 20

1.3.1.4 Tính đa dạng của các ứng dụng chuẩn nhiều chiều 21

1.3.2 Các tính chất của biến ngẫu nhiên có phân phối chuẩn nhiều chiều 21

Trang 4

1.3.3 Ước lượng trong chuẩn nhiều chiều 24

1.3.3.1 Ước lượng hợp lý cực đại 24

1.3.3.2 Phân phối của y và S 25

Chương II: Phân tích hồi qui 27

§2.1 Hồi qui đa biến 27

2.1.1 Mô hình hồi qui đa biến với x cố định 27

2.1.2 Ước lượng bình phương bé nhất trong mô hình x cố định 28

2.1.3 Ước lượng cho σ2 30

2.1.4 Mô hình qui tâm 30

2.1.5 Kiểm định giả thiết 32

2.1.5.1 Kiểm định hồi qui tổng thể 32

2.1.5.2 Kiểm định trên một tập con của β 33

2.1.6 R2 trong hồi qui với x cố định 34

2.1.7 Sự lựa chọn tập con phù hợp 35

2.1.7.1 Kiểm tra tất cả các tập con có thể 35

2.1.7.2 Sự lựa chọn trị nhảy cấp 35

2.1.8 Hồi qui đa biến với x ngẫu nhiên 36

§2.2 Hồi qui đa biến nhiều chiều 37

2.2.1 Mô hình hồi qui đa biến nhiều chiều với x cố định 37

2.2.2 Ước lượng bình phương bé nhất trong mô hình nhiều chiều 38

2.2.3 Các tính chất của ước lượng bình phương bé nhất ˆB 39

2.2.4 Một ước lượng cho Σ 39

2.2.5 Mô hình qui tâm 39

2.2.6 Kiểm định giả thiết trong hồi qui đa biến nhiều chiều 40

2.2.6.1 Kiểm định hồi qui tổng thể 40

2.2.6.2 Kiểm định trên một tập con các giá trị của x 42

2.2.7 Hồi qui đa biến nhiều chiều với x ngẫu nhiên 43

Chương III: Phân tích nhân tố 44

§3.1 Mô hình nhân tố trực giao 44

3.1.1 Định nghĩa mô hình và các giả thiết 44

Trang 5

3.1.2 Tính không duy nhất của các hệ số tải 48

§3.2 Ước lượng các hệ số tải và phương sai tương đối 50

3.2.1 Phương pháp thành phần chính 50

3.2.2 Phương pháp nhân tố chính 53

3.2.3 Phương pháp nhân tố chính lặp 55

3.2.4 Phương pháp hợp lý cực đại 55

§3.3 Chọn lựa số nhân tố 57

§3.4 Phép quay 59

3.4.1 Giới thiệu 59

3.4.2 Phép quay trực giao 59

3.4.2a Phương pháp đồ thị 60

3.4.2b Phép quay varimax 60

3.4.3 Phép quay xiên 60

3.4.4 Sự giải thích các nhân tố 61

§3.5 Giá trị nhân tố 62

Chương IV: Ứng dụng vào bài toán đánh giá chất lượng đào tạo của trường Đại học 64 4.1 Bài toán 64

4.2 Mô tả số liệu và Phân tích, đánh giá .64

4.3 Nhận xét 76

Kết luận 77

Tài liệu tham khảo 78

Trang 6

LỜI GIỚI THIỆU

Phân tích số liệu nhiều chiều được ứng dụng khá rộng rãi trong nhiều lĩnh vực như giáodục, hóa học, vật lý, địa chất, kỹ thuật, pháp luật, kinh doanh, ngôn ngữ học, sinh học, tâmlý học để đưa ra những đánh giá đánh tin cậy cho nhiều vấn đề dựa trên bộ số liệu phùhợp

Hiện nay, với sự hỗ trợ của máy điện toán, có rất nhiều phương pháp phân tích số liệunhiều chiều hiệu quả được xây dựng và ứng dụng Trong phạm vi luận văn này, chúng tôisẽ giới thiệu một số phương pháp phân tích số liệu nhiều chiều như phân tích hồi qui tuyếntính, phân tích nhân tố và áp dụng chúng vào bài toán đánh giá chất lượng đào tạo ở trườngĐại học Sư phạm Kỹ thuật Tp.HCM Luận văn gồm có 4 chương:

Chương I: Kiến thức đại số và xác suất thống kê Chương này trình bày các kiến thức cơ

sở cần cho các chương tiếp theo bao gồm: ma trận, các đặc trưng của số liệu nhiều chiều,phân phối chuẩn nhiều chiều

Chương II: Phân tích hồi qui nhiều chiều Trong chương này, chúng ta nghiên cứu hai

dạng phân tích hồi qui là hồi qui đa biến với x cố định và hồi qui đa biến với x ngẫu nhiêncho trường hợp một chiều và trường hợp nhiều chiều

Chương III: Phân tích nhân tố Chương này trình bày việc giảm số lượng biến bằng cách

sử dụng một số nhân tố ít hơn, sử dụng phép quay trực giao và phép quay xiên

Chương IV: Ứng dụng vào bài toán đánh giá chất lượng đào tạo của trường Đại học.

Chương này trình bày nhiều bộ số liệu thu thập được như số nhận xét của sinh viên về hoạtđộng giảng dạy của giảng viên đầu ba năm học 07-08, 08-09, và 09-10; số lượng sinh viênđầu vào từ năm 2001 đến 2008 và kết quả học tập trong ba năm học đầu tiên của số sinhviên này; kết quả khảo sát mức độ hài lòng của sinh viên sau khi tốt nghiệp trong bốn đợttháng 05/08, tháng 12/08, tháng 06/09 và tháng 12/09; kèm theo là kết quả phân tích đểđánh giá chất lượng đào tạo tại trường Đại học Sư phạm Kỹ thuật Tp.HCM, thông qua việcáp dụng phương pháp phân tích hồi qui và phương pháp phân tích nhân tố

Trang 7

CHƯƠNG I:

KIẾN THỨC ĐẠI SỐ VÀ XÁC SUẤT THỐNG KÊ

§ 1.1 MA TRẬN

1.1.1 Biểu diễn ma trận dưới dạng các ma trận con

Để thuận tiện ta thường chia nhỏ ma trận dưới dạng các ma trận con Chẳng hạn chia

nhỏ ma trận A thành bốn ma trận con như sau:

1.1.2 Ma trận xác định dương

Ma trận đối xứng A được gọi là xác định dương nếu x0

Tương tự, A là ma trận nửa xác định dương nếu x0

Trang 8

Các phần tử trên đường chéo aii của ma trận xác định dương là dương Tương tự cho

ma trận nửa xác định dương, aii≥ 0 với mọi i.

Nếu A = B0

B với B là n × p, có hạng p < n thì B0

B xác dịnh dương Thật vậy:

B là nửa xác định dương

Một ma trận xác định dương A có thể phân tách thành :

để tìm giá trị x tương ứng.

Phương trình |A − λI| = 0 gọi là phương trình đặc trưng Nếu A là n × n, A sẽ có n

vector riêng λ , λ , , λ Các giá trị λ không nhất thiết phân biệt hay khác 0.

Trang 9

Ta nhân hai vế của (1.1.5) với một vô hướng k, ta được:

Như vậy nếu x là một vector riêng của A thì kx cũng là một vector riêng Do đó ta có thể

chuẩn hóa vector riêng x: x0

x = 1

1.1.3.2 Vết và định thức của ma trận A

Giả sử ma trận vuông A có các giá trị riêng là λ1, λ2, , λn Lúc đó, ta có:

1.1.3.3 Ma trận xác định và nửa xác định dương

Giá trị riêng và vector riêng của ma trận xác định dương và nửa xác định dương có tínhchất:

1 Tất cả giá trị riêng của ma trận xác định dương là dương

2 Giá trị riêng của ma trận nửa xác định dương là dương hoặc bằng không Sốgiá trị riêng dương bằng hạng của ma trận

1.1.3.4 Ma trận tích AB

Nếu A và B là ma trận vuông và cùng kích cỡ thì các giá trị riêng của AB giống BA, mặc dù vector riêng thường khác nhau Nếu AB và BA là vuông, khác kích cỡ thì các giá trị riêng khác không của AB và BA là giống nhau.

Trang 10

1.1.3.6 Ma trận căn bậc hai

Nếu A là ma trận xác định dương, thì

1.1.3.7 Ma trận bình phương và ma trận nghịch đảo

Nếu ma trận vuông, đối xứng A có các giá trị riêng λ1, λ2, , λn và các vector riêng

tương ứng x1, x2, , xn thì A2 có các giá trị riêng λ2

1, λ2

2, , λ2

n với các vector riêng

vector riêng x1, x2, , xn

với C = (x1, x2, , xn) chứa các vector riêng chuẩn hoá của A (và của A 2 , A−1),

D2 = diag(λ2, λ2, , λ2) và D−1 = diag(1/λ1, 1/λ2, , 1/λn)

Trang 11

1.1.3.8 Phân tích giá trị suy biến

Chúng ta có thể biểu diễn ma trận thực A dưới hình thức các giá trị riêng và vector riêng của A0

A và AA0

Đặt A là ma trận n × p, có hạng k Phân tích giá trị suy biến của

A là:

với Un×k, Dk×k, và Vp×k Các phần tử trên đường chéo của ma trận D = diag(λ1, λ2, , λk)

là căn bậc hai của các giá trị riêng khác 0 của A0

A hay của AA0

; k cột của U là các vector

riêng chuẩn hoá của AA0

tương ứng các giá trị riêng λ2

1, λ22, , λ2k; k cột của V là các

vector riêng chuẩn hoá của A0

A tương ứng các giá trị riêng λ2

1, λ22, , λ2k Vì các cột của

U và V là các vector riêng chuẩn hoá của ma trận đối xứng, ta có U0

U = V0V = I

Trang 12

§ 1.2 CÁC ĐẶC TRƯNG CỦA SỐ LIỆU NHIỀU CHIỀU

1.2.1 Trung bình và phương sai của biến ngẫu nhiên một chiều

Biến ngẫu nhiên là biến mà giá trị phụ thuộc vào kết quả của một thí nghiệm ngẫunhiên

Trung bình phân phối của một biến ngẫu nhiên y là trung bình của tất cả các giá trị có thể có của y, được ký hiệu là µ, cũng được đề cập đến như giá trị kỳ vọng của y, E(y) Trung bình mẫu của một mẫu ngẫu nhiên cỡ n y1, y2, , yn là:

Tổng quát, y không bằng µ, tuy nhiên ta xem y là ước lượng tốt cho µ vì E(y) = µ và

Một số tính chất:

2 Nếu zi = ayi i = 1, 2, , n thì z = ay (1.2.3)

Phương sai: var(y) = σ2 = E(y − µ)2 Đây là độ lệch bình phương trung bình, biểu thị

mức độ phân tán các giá trị của y Phân tích, ta được:

1.2.2 Hiệp phương sai và hệ số tương quan của biến ngẫu nhiên hai chiều

1.2.2.1 Hiệp phương sai

Hai biến x và y được đo lường trên hai đơn vị khác nhau Hiệp phương sai của biến

Trang 13

ngẫu nhiên hai chiều (x, y) được định nghĩa là:

với µx và µy là trung bình của x và y tương ứng.

Phân tích, ta được:

σxy = E(xy) − µxµy.Một số tính chất:

1 E(x + y) = E(x) + E(y)

2 E(xy) = E(x)E(y) nếu x và y độc lập.

Hiệp phương sai mẫu được định nghĩa là:

1.2.2.2 Hệ số tương quan

Hệ số tương quan của hai biến ngẫu nhiên x và y là:

Cả hai hệ số tương quan này biến thiên từ −1 đến 1

Hệ số tương quan mẫu rxy là cosin của góc giữa hai vector Đặt θ là góc giữa hai vector a và b, ta có:

Trang 14

1.2.3 Vector trung bình

Giả sử mẫu gồm n cá thể, mỗi cá thể được đo lường p thành phần thì ta biểu diễn n

vector cá thể y1, y2, , yn là:

i=1yij/n là trung bình của n quan trắc trên biến thứ j.

n vector quan trắc y1, y2, , yn có thể biểu diễn dưới dạng ma trận dữ liệu Y như sau:

Hàng i của ma trận Y chỉ cá thể i, cột j của ma trận Y chỉ biến j.

Vector trung bình của phân phối hoặc kỳ vọng của y được định nghĩa là vector các kỳ vọng

của mỗi biến:

Trang 15

1.2.4 Ma trận hiệp phương sai

Ma trận hiệp phương sai mẫu S = (sjk) là ma trận gồm phương sai và hiệp phương sai

Trong S, phương sai mẫu của p biến nằm trên đường chéo, hiệp phương sai mẫu của

từng cặp biến nằm bên ngoài đường chéo

Phương sai mẫu của biến j : sjj = s2

j sử dụng cột j của Y:

Hiệp phương sai mẫu của biến thứ j và k, sjk được tính toán như trong (1.2.7), sử dụng

cột thứ j và thứ k của Y:

yiy0i− nyy0

(1.2.16)

vì (yi −y)0 = (yi1− y1, yi2 − y2, , yip− yp) Phần tử (1,1) của (yi −y)(yi − y)0 là

(yi1− y1)2, lấy tổng theo i trong (1.2.15) ta được s11 như trong (1.2.13) Tương tự, phần tử

(1,2) của (yi−y)(yi−y)0 là (yi1− y1)(yi2− y2)

Ma trận hiệp phương sai của phân phối là:

Trang 16

các phần tử ngoài đường chéo σjk là các hiệp phương sai phân phối các giá trị của biến y.

Ma trận hiệp phương sai phân phối trong (1.2.17) cũng được biểu diễn dưới dạng:

1.2.5 Ma trận tương quan

Hệ số tương quan mẫu giữa biến thứ j và thứ k được định nghĩa trong (1.2.9) là:

rp2

.

Ta có R là đối xứng vì rjk = rkj

Ma trận tương quan có thể suy ra từ ma trận hiệp phương sai và ngược lại ma trận hiệpphương sai có thể suy ra từ ma trận tương quan Thật vậy,

.

00

Trang 17

.

1.2.6 Tổ hợp tuyến tính của các biến

1.2.6.1 Các tính chất của mẫu

Chúng ta nghiên cứu kỳ vọng, phương sai và hiệp phương sai của tổ hợp tuyến tính cácbiến

Đặt a1, a2, , ap là các hằng số, ta xem xét tổ hợp tuyến tính các thành phần của vector

Trung bình mẫu của z bằng trung bình của n giá trị z1 = a0y1, z2 = a0y2, , zn = a0yn;

hay tổ hợp tuyến tính của y, vector trung bình mẫu của y1, y2, , yn:

Trang 19

với z là k × 1, A là k × p, và y là p × 1 (k ≤ p) Nếu zi = Ayi với mọi yi, i = 1, 2, , n

thì theo (1.2.29), vector trung bình mẫu của z là:

Trang 20

z = Ay + b, (1.2.41)

1.2.6.2 Các tính chất của phân phối

Đặt z = a0

y , với a là vector hằng.

Kỳ vọng của z là:

Phương sai của z là:

σ2z = var(a0y) = a0Σa (1.2.44)

Đặt w = b0

y , với b là vector hằng khác a.

Hiệp phương sai của z = a0

Trang 21

§ 1.3 PHÂN PHỐI CHUẨN NHIỀU CHIỀU

1.3.1 Hàm mật độ của phân phối chuẩn nhiều chiều

1.3.1.1 Hàm mật độ của phân phối chuẩn một chiều

Nếu một biến ngẫu nhiên y có phân phối chuẩn với kỳ vọng µ và phương sai σ2, thìhàm mật độ cho bởi:

2π

√

σ2e−(y−µ)2/2σ2, −∞ < y < ∞. (1.3.1)

Khi y có hàm mật độ (1.3.1), ta nói y có phân phối chuẩn N(µ, σ2)

1.3.1.2 Hàm mật độ của phân phối chuẩn nhiều chiều

Nếu y có phân phối chuẩn nhiều chiều với vector kỳ vọng µ và ma trận hiệp phương sai Σ, hàm mật độ cho bởi:

/σ2 = (y − µ)(σ2)−1(y − µ)trong số mũ của hàm mật độ chuẩn một chiều,

đo bình phương khoảng cách từ y đến µ trên đơn vị độ lệch tiêu chuẩn Tương tự, số hạng

(y − µ)0Σ−1(y − µ)trong số mũ của hàm mật độ chuẩn nhiều chiều (1.3.2) là bình phương

khoảng cách tổng quát từ y đến µ, hay còn gọi là khoảng cách Mahalanobis.

Trong (1.3.2), |Σ|1/2 xuất hiện tương tự như √σ2 trong (1.3.1)

1.3.1.3 Phương sai tổng quát

Chúng ta định nghĩa phương sai mẫu tổng quát là định thức của ma trận hiệp phương

sai: |S| Tương tự, |Σ| là phương sai phân phối tổng quát Nếu σ2 nhỏ trong chuẩn một

chiều, thì các giá trị của y tập trung gần trung bình Tương tự, giá trị của |Σ| nhỏ trong trường hợp nhiều chiều chỉ ra rằng các giá trị y tập trung gần µ trong không gian p chiều

hay có đa cộng tuyến giữa các biến (các biến có tương quan cao), trong trường hợp này số

Trang 22

chiều có ảnh hưởng thấp hơn p Trong trường hợp đa cộng tuyến, một hoặc nhiều giá trị

riêng của Σ sẽ gần 0 và |Σ| sẽ nhỏ, vì |Σ| là tích của các giá trị riêng.

1.3.1.4 Tính đa dạng của các ứng dụng chuẩn nhiều chiều

Việc sử dụng rộng rãi chuẩn nhiều chiều là do tính dễ dùng Từ giả định chuẩn nhiềuchiều, một loạt các thủ tục được thiết lập và có sẳn trong các gói phần mềm Việc thay thếchuẩn nhiều chiều là khá ít so với trong trường hợp một chiều Bởi vì không đơn giản đểsắp xếp các vector quan trắc nhiều chiều như trong quan trắc một chiều, không có nhiềuthủ tục phi tham số thích hợp cho dữ liệu nhiều chiều

Mặc dù dữ liệu thực tế thường không chính xác với chuẩn nhiều chiều, chuẩn nhiềuchiều cung cấp một xấp xỉ hữu ích cho phân phối thực sự

1.3.2 Các tính chất của biến ngẫu nhiên có phân phối chuẩn nhiều chiều

Các tính chất của một vector ngẫu nhiên y (p × 1) có phân phối chuẩn nhiều chiều

Np(µ, Σ) là:

1 Chuẩn của tổ hợp tuyến tính các biến trong y:

(a) Nếu a là một vector hằng, hàm tuyến tính a0

y = a1 y1+ a2y2+ + apyp có phân phốichuẩn một chiều:

Nếu y ∼ Np(µ, Σ), thì a0

y ∼ N (a0µ, a0Σa)

(b) Nếu A là ma trận hằng q × p hạng q, với q ≤ p, thì q tổ hợp tuyến tính trong Ay có

phân phối chuẩn nhiều chiều:

Nếu y ∼ Np(µ, Σ), thì Ay ∼ Nq(Aµ, AΣA0)

2 Biến tiêu chuẩn hóa:

Một vector tiêu chuẩn hóa z có được theo hai cách:

với Σ = T0

T có được bằng cách sử dụng thuật toán Cholesky trong phần (1.1.1), hoặc

với Σ1/2 là ma trận căn bậc hai đối xứng của Σ (định nghĩa trong (1.1.11)).

Lúc đó, z sẽ có phân phối chuẩn nhiều chiều:

Trang 23

Nếu y ∼ Np(µ, Σ), thì z ∼ Np(0, I).

3 Phân phối Chi bình phương:

Một biến ngẫu nhiên có phân phối chi bình phương với p bậc tự do được định nghĩa là

tổng bình phương p biến ngẫu nhiên chuẩn, độc lập, tiêu chuẩn hóa Do đó, nếu z là vector

tiêu chuẩn hóa được định nghĩa trong (1.3.3) hoặc (1.3.4), thì Pp

j=1

zj2 = z0zcó phân phối χ2

với p bậc tự do, định nghĩa là χ2

4 Chuẩn của phân phối biên duyên:

(a) Bất kỳ tập con của y có phân phối chuẩn nhiều chiều Chẳng hạn, đặt y1 = (y1, y2, , yr)0

là vector con chứa r phần tử đầu tiên của y và y2 = (yr+1, , yp)0 chứa p − r phần tử còn

lại Ta có, y, µ và Σ được chia nhỏ thành:

y =

y1

y2

, µ =

µ

1

µ2

, Σ =

Σ11 Σ12

,

với y1 và µ1 là r x 1 và Σ11 là r x r Lúc đó y1 có phân phối chuẩn nhiều chiều:

Trong ba tính chất tiếp theo, đặt vector quan trắc được tách thành hai vector con là y

và x, với y là p × 1 và x là q × 1 Ta có:

Trong tính chất 5, 6, 7 sau đây, ta giả sử rằng:

(a) Vector con y và x là độc lập nếu Σyx = 0.

(b) Hai biến thành phần yj và yk là độc lập nếu σjk = 0 Lưu ý điều này không đúng chocác biến ngẫu nhiên không chuẩn, như trong phần (1.2.2.1)

Trang 24

6 Phân phối có điều kiện:

Nếu y và x không độc lập, thì Σyx 6= 0, và phân phối có điều kiện của y cho trước x,

Lưu ý, E(y|x) là một vector của các hàm tuyến tính của x, trong khi cov(y|x) là một ma

trận không phụ thuộc x Ma trận ΣyxΣ−1xx trong (1.3.6) được gọi là ma trận các hệ số hồi

qui vì nó qui E(y|x) về x.

Ta mô tả tính chất (6) trong trường hợp chuẩn hai chiều:

Đặt u =

y

x

có phân phối chuẩn hai chiều với:

Định nghĩa f(y|x) = g(y, x)/h(x), với h(x) là hàm mật độ của x và g(y, x) là hàm mật độ đồng thời của y và x Ta có:

vì vế phải là tích, ta tìm một hàm của y và x độc lập với x và hàm mật độ của nó giống

tìm kiếm giá trị β để y − βx và x là độc lập.

Vì z = y − βx và x là chuẩn nên để z và x là độc lập, ta phải có cov(x, z) = 0 Để tìm

Trang 25

z = y − σyx

x

Theo tính chất 1a, hàm mật độ của y − (σyx/σ2

x)x là chuẩn với

x

7 Phân phối của tổng hai vector con:

Nếu y và x cùng kích cỡ (p x 1) và độc lập thì,

1.3.3 Ước lượng trong chuẩn nhiều chiều

1.3.3.1 Ước lượng hợp lý cực đại

Trong phân phối chuẩn nhiều chiều, phương pháp hợp lý cực đại thường được dùng để

ước lượng tham số Kỹ thuật này là: với các vector quan trắc y1, y2, , yn cho trước, tìm

các giá trị của µ và Σ để cực đại hàm mật độ đồng thời các giá trị của y, gọi là hàm hợp lý Đối với chuẩn nhiều chiều, ước lượng hợp lý cực đại của µ và Σ là:

Trang 26

với W = Pn

i=1

(yi−y)(yi−y)0 và S là ma trận hiệp phương sai mẫu định nghĩa trong (1.2.12)

và (1.2.15) Vì ˆΣ có số chia n thay vì n − 1, nên nó là chệch và ta thường sử dụng S thay

cho ˆΣ

Chúng ta lý giải y là ước lượng hợp lý cực đại của µ:

Vì các giá trị yi tạo thành một mẫu ngẫu nhiên, độc lập, và hàm mật độ đồng thời là tích

các hàm mật độ của các giá trị trong y Do đó, hàm hợp lý là:

2π)np|Σ|n/2e−Σni=1(yi−y)0Σ−1(yi−y)/2−n(y−µ)0Σ−1(y−µ)/2 (1.3.13)

Vì Σ−1 là xác định dương, ta có −n(y−µ)0

Σ−1(y−µ)/2 ≤ 0 và 0 < e−n(y−µ)0Σ−1(y−µ)/2 ≤ 1,

đạt cực đại khi số mũ là 0 Do đó, L cực đại khi ˆµ = y

Ước lượng hợp lý cực đại của ma trận tương quan Pρ trong (1.2.26) là ma trận tương quanmẫu:

yi/n, ta phân biệt hai trường hợp:

1 Khi y dựa trên mẫu ngẫu nhiên y1, y2, , yncó phân phối chuẩn nhiều chiều Np(µ, Σ), thì y ∼ Np(µ, Σ/n).

2 Khi y dựa trên mẫu ngẫu nhiên y1, y2, , yn có phân phối nhiều chiều không chuẩn

với vector kỳ vọng µ và ma trận hiệp phương sai Σ, thì với n lớn, y xấp xỉ Np(µ, Σ/n) Kết

quả này được biết là định lý giới hạn trung tâm nhiều chiều: Nếu y là vector trung bình của một mẫu ngẫu nhiên y1, y2, , yn từ phân phối có vector kỳ vọng µ và ma trận hiệp

phương sai Σ, thì khi n → ∞, phân phối của √n(y − µ) tiến đến N (0, Σ).

Trang 27

Có p phương sai và p

2

hiệp phương sai trong S Phân phối đồng thời của p(p + 1)/2 biến phân biệt này trong W = (n − 1)S = Pi(yi−y)(yi−y)0 là phân phối Wishart, ký

hiệu Wp(n − 1, Σ), với n − 1 bậc tự do Phân phối Wishart tương tự phân phối χ2 nhiều

chiều Như tính chất 3 của phần 1.3.2, một biến ngẫu nhiên χ2 được định nghĩa là tổngbình phương các biến ngẫu nhiên tiêu chuẩn độc lập có phân phối chuẩn một chiều:

Nếu y thay thế cho µ, thì Pi(yi − y)2/σ2 = (n − 1)s2/σ2 ∼ χ2(n − 1) Tương tự, định

nghĩa của một biến ngẫu nhiên Wishart là:

n

P

i=1

(yi− µ)(yi− µ)0 ∼ Wp(n, Σ), (1.3.14)

với y1, y2, , yn độc lập có phân phối Np(µ, Σ) Khi y thay thế cho µ, phân phối vẫn là

Wishart với ít hơn một bậc tự do:

Trang 28

CHƯƠNG II:

PHÂN TÍCH HỒI QUI

Chúng ta xem xét mối liên hệ tuyến tính giữa một hoặc nhiều biến y (biến phụ thuộc hay phản ứng) với một hoặc nhiều biến x (biến độc lập hay dự đoán) Chúng ta sử dụng một mô hình tuyến tính liên hệ y với x, điều này sẽ liên quan đến việc ước lượng và kiểm

định tham số trong mô hình

Một điều quan tâm sẽ là chọn biến nào vào trong mô hình Chúng ta có thể phân biệt batrường hợp theo số lượng biến:

1 Hồi qui tuyến tính đơn giản: một y và một x Ví dụ, chúng ta muốn dự đoán điểm trung

bình đại học dựa trên điểm trung bình ở trường trung học của người nộp đơn xin học

2 Hồi qui tuyến tính đa biến: một y và vài x Chúng ta cố gắng cải tiến tiên đoán của

chúng ta về điểm trung bình đại học bằng cách sử dụng nhiều hơn một biến độc lập nhưđiểm trung bình ở trường trung học, điểm chuẩn thử nghiệm hoặc đánh giá của trườngtrung học

3 Hồi qui tuyến tính đa biến nhiều chiều: vài y và vài x Chúng ta muốn tiên đoán vài

y (như là số năm đại học sinh viên sẽ hoàn tất hoặc điểm trung bình các môn khoa học,nghệ thuật và xã hội học) Các biến phụ thuộc này có thể hồi qui lại các biến độc lập (nhưlà kỹ năng toán học, thời gian kéo dài, thị giác và khéo tay)

Có hai dạng cơ bản của biến độc lập là cố định và ngẫu nhiên, phụ thuộc vào chủ định củanhà nghiên cứu hay không

§ 2.1 HỒI QUI ĐA BIẾN

2.1.1 Mô hình hồi qui đa biến với x cố định

Trong mô hình hồi qui với các giá trị x cố định, chúng ta mô tả mỗi y trong một mẫu

n quan trắc là một hàm tuyến tính theo x cộng thêm một sai số ngẫu nhiên :

y1 = β0+ β1x11+ β2x12+ + βqx1q+ 1

y2 = β0+ β1x21+ β2x22+ + βqx2q+ 2

Trang 29

yn = β0+ β1xn1+ β2xn2+ + βqxnq+ n

Số biến x được định nghĩa là q Các giá trị β được gọi là các hệ số hồi qui Các giả định

thêm vào:

1 E(i) = 0 với mọi i = 1, 2, , n.

2 var(i) = σ2 với mọi i = 1, 2, , n.

3 cov(i, j) = 0 với mọi i 6= j.

Giả định 1 diễn tả mô hình là tuyến tính, E(yi) = β0+ β1xi1+ β2xi2+ + βqxiq Giả

định 2 chỉ ra rằng var(yi) = σ2, vì các giá trị x cố định Giả định 3 áp đặt điều kiện các sai số là không tương quan và do đó các giá trị y cũng không tương quan, cov(yi, yj) = 0

Ba giả định trên có thể phát biểu lại dưới dạng y như sau:

1 E(yi) = β0+ β1xi1+ β2xi2+ + βqxiq, i = 1, 2, , n.

2 var(yi) = σ2, i = 1, 2, , n.

3 cov(yi, yj) = 0, với mọi i 6= j

Biểu diễn dưới dạng ma trận, mô hình n quan trắc trong (2.1.1)sẽ là:

Cho mục đích ước lượng và kiểm định, chúng ta cần có n > q + 1.

2.1.2 Ước lượng bình phương bé nhất trong mô hình x cố định

Với giả định đầu tiên, ta có:

E(y ) = β + β x + β x + + β x

Trang 30

Chúng ta muốn ước lượng các giá trị β và từ đó ước lượng E(yi) Nếu ước lượng được địnhnghĩa là: ˆβ0, ˆ β1, , ˆ βq thì ˆE(yi) = ˆβ0+ ˆβ1xi1+ ˆβ2xi2+ + ˆ βqxiq.

ˆ

E(yi)thường được ký hiệu là ˆyi

Ước lượng bình phương bé nhất của β0, β1, , βq là làm cực tiểu tổng bình phương độ lệch

giữa n giá trị quan sát y với các giá trị ˆyi được tiên đoán bởi mô hình Tức là chúng ta tìmˆ

Nếu chúng ta chỉ định hàng thứ i của X là x0

i = (1, xi1, xi2, , xiq), chúng ta có thể viết(2.1.4) là:

Giả sử b là một ước lượng có thể dẫn đến một giá trị nhỏ hơn của SSE so với ˆβ Chúng

ta cộng X(ˆ β − b)vào biểu thức trên để thấy liệu điều này có làm giảm SSE:

Trang 31

SSE = [(y − X ˆβ) + X( ˆ β − b)]0[(y − X ˆ β) + X( ˆ β − b)].Khai triển, ta được:

= (y − X ˆ β)0(y − X ˆ β) + ( ˆ β − b)0X0X( ˆ β − b) + 2( ˆ β − b)0X0(y − X ˆ β)

= (y − X ˆ β)0(y − X ˆ β) + ( ˆ β − b)0X0X( ˆ β − b) + 2( ˆ β − b)0(X0y − X0X ˆ β).Số hạng thứ ba biến mất khi ta thay ˆβ = (X0X)−1X0y vào X0

X ˆ β Số hạng thứ hai có dạng

bậc hai xác định dương, và do đó SSE cực tiểu khi b = ˆβ Vậy không có giá trị b nào có

thể giảm SSE từ giá trị ˆβ

2.1.3 Ước lượng cho σ 2

Chúng ta thấy có n số hạng trong y0

y và q + 1 số hạng trong ˆβ

0

X0y Sự khác biệt là mẫu

số của s2 trong (2.1.8) Vì vậy bậc tự do cho SSE giảm đi q + 1.

2.1.4 Mô hình qui tâm

Để thuận tiện ta qui tâm các giá trị của x bằng cách trừ đi trung bình của chúng,

xi2/n , v.v [x1, x2, , xq là trung bình các cột của X trong (2.1.2)].

Mô hình cho mỗi yi trong (2.1.1) trở thành:

yi = α + β1(xi1− x1) + β2(xi2− x2) + + βq(xiq− xq) + i, (2.1.10)với

Để ước lượng giá trị

Trang 32

chúng ta sử dụng các giá trị x đã được qui tâm trong ma trận:

Nếu E(y) = β0 + β1x1+ + βqxq được đánh giá tại x1 = x1, x2 = x2, , xq = xq, kết

quả giống như α trong (2.1.11) Vì vậy ta ước lượng α bởi y:

Chúng ta có thể biểu diễn ˆβ1 trong (2.1.13) dưới dạng phương sai và hiệp phương sai mẫu

Ma trận hiệp phương sai mẫu của y và các giá trị x là:



với

syy là phương sai của y,

syj là hiệp phương sai của y và xj,

sjj là phương sai của xj,

sjk là hiệp phương sai của xj và xk,

s0 = (sy1, sy2, , syq)

Trang 33

các giá trị này được tính toán theo công thức trong (1.2.13) và (1.2.14).

Để biểu diễn ˆβ1 dưới dạng Sxx và syx trong (2.1.15), chúng ta thấy rằng các phần tử trên

đường chéo của X0

cXc biến đổi thành tổng bình phương Chẳng hạn, vị trí thứ hai trênđường chéo là:

n

P

i=1

(xi2− x2)2 = (n − 1)s22

Vị trí ngoài đường chéo của X0

cXc là tổng của tích, chẳng hạn phần tử ở vị trí (1, 2) là:

2.1.5 Kiểm định giả thiết

Trong phần này, chúng ta xem xét hai kiểm định cơ bản trên các giá trị của β Để có

được kiểm định F , ta giả sử rằng y có phân phối chuẩn n-chiều Nn(Xβ, σ2I)

2.1.5.1 Kiểm định hồi qui tổng thể

Giả thiết hồi qui tổng thể là không có giá trị nào của x tiên đoán y, được diễn tả là:

Tiêu đề	Ứng dụng phân tích số liệu định tính nhiều chiều vào bài toán đánh giá chất lượng đào tạo của trường đại học
Tác giả	Phạm Thị Thu Sương
Người hướng dẫn	TS. Tô Anh Dũng
Trường học	Trường Đại Học Khoa Học Tự Nhiên, Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành	Lý thuyết xác suất và thống kê toán học
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2010
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	67
Dung lượng	487,28 KB