Độ lệch chuẩn là căn bậc hai của phương sai tổng thể hoặc là phương sai mẫu.Nếu mỗi y được nhân với một hằng số a thì phương sai tổng thể được nhân với a2varay = a2σ2.Tương tự, nếu zi =
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG TPHCM
Cán bộ hướng dẫn khoa học : PGS.TS Tô Anh Dũng
Cán bộ chấm nhận xét 1: TS Nguyễn Bá Thi
Cán bộ chấm nhận xét 2: PGS.TS Nguyễn Bích Huy
Luận văn thạc sĩ được bảo vệ tại trường Đại Học Bách Khoa, ĐHQG Tp HCM ngày
11 tháng 07 năm 2015
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm có:
1 PGS.TS Nguyễn Đình Huy
2 PGS.TS Nguyễn Bích Huy
3 TS Nguyễn Bá Thi
4 TS Lê Xuân Đại
5 TS Nguyễn Quốc Lân
Xác nhận của chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành
sau khi luận văn đã được sửa chữa (nếu có)
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
3 NGÀY GIAO NHIỆM VỤ: 19/01/2015
4 NGÀY HOÀN THÀNH NHIỆM VỤ: 14/06/2015
5 CÁN BỘ HƯỚNG DẪN: PGS.TS TÔ ANH DŨNG
Tp.HCM, ngày tháng năm
TOÁN ỨNG DỤNG
TRƯỞNG KHOA KHOA HỌC ỨNG DỤNG
PGS.TS HUỲNH QUANG LINH
Trang 4Tôi xin chân thành cảm ơn Ban giám hiệu trường THPT Nguyễn Thái Bình, quýdồng nghiệp đã tạo điều kiện tốt nhất cho hoàn thành việc lấy số liệu tại trường.Tôi xin chân thành cảm ơn các em học viên lớp cao học Toán ứng dụng, khóa 2013
đã động viên, giúp đỡ tôi tận tình trong quá trình học tập và làm luận văn
Tôi gửi lời biết ơn sâu sắc đến gia đình tôi, những người đã hết lòng lo lắng, quantâm, động viên tôi trong những lúc khó khăn nhất
Tp Hồ Chí Minh, ngày 14 tháng 06 năm 2015
Trang 5Tóm tắt luận văn thạc sĩ
Luận văn nêu lên cơ sở lý thuyết của phương pháp phân tích nhân tố, phương phápphân tích thành phần chính Từ đó so sánh sự giống nhau và khác nhau của haiphương pháp này
Luận văn ứng dụng phần mềm SPSS phân tích sự hài lòng của học sinh thông quachất lượng đào tạo của trường THPT Nguyễn Thái Bình, quận Tân Bình
Trang 6Tổng quan đề tài
1 Tính cấp thiết của đề tài
Thống kê được coi là một trong những công cụ quản lý vĩ mô quan trọng, cóvai trò cung cấp các thông tin thống kê trung thực, khách quan, chính xác, đầy
đủ, kịp thời Hiện nay, công tác thống kê có ý nghĩa rất quan trọng trong cácdoanh nghiệp ở tất cả các ngành Do đó thống kê đã trở thành công cụ khôngthể thiếu được trong hoạt động nghiên cứu cũng như trong công tác thực tiễn
Sử dụng thống kê trở nên cần thiết và phổ biến
Xuất phát từ những bài toán ứng dụng thực tiễn, ví dụ như: nghiên cứu thịtrường, sự hài lòng của khách hàng về một sản phẩm nào đó thuộc ngành kinh
tế, phân biệt nhóm bệnh trong ngành y học, xác định các yếu tốt quan trọngcủa các chất trong thực phẩm, đánh giá chất lượng đào tạo của một trường đạihọc, trong đó trọng tâm là các phương pháp thống kê nhiều chiều, bài toántrên được giải với nhiều phương pháp khác nhau
Phân tích số liệu thống kê nhiều chiều được áp dụng rất rộng rãi trong nhiềulĩnh vực như địa chất, sinh học, hóa học, y học, kinh doanh, giáo dục, đểđưa ra những đánh giá tin cậy cho nhiều vấn đề dựa trên bộ số liệu phù hợp.Phân tích số liệu thống kê nhiều chiều phân tích đồng thời nhiều đặc tính đolường trên các đơn vị nghiên cứu, phù hợp với tính chất đa diện của cuộc sống
Có rất nhiều phương pháp phân tích số liệu thống kê nhiều chiều hiệu quả đượcxây dựng và ứng dụng vào thực tế Trong phạm vi luận văn này, chúng tôi sẽgiới thiệu phương pháp phân tích nhân tố, phân tích thành phần chính, so sánhgiữa hai phương pháp và áp dụng chúng vào giải bài toán thực tế
2 Mục tiêu nghiên cứu
Làm rõ cơ sở lý thuyết của phương pháp phân tích nhân tố, phân tích thànhphần chính và so sánh sự khác biệt giữa hai phương pháp này
3 Nội dung nghiên cứu
• Tìm hiểu cơ sở lý thuyết về xác suất thống kê
• Tìm hiểu phương pháp phân tích nhân tố và phương pháp phân tích thànhphần chính
• Thu thập số liệu thống kê
• Tổng hợp phân tích và đánh giá thống kê
Trang 7Lời cam đoan
Trong quá trình thực hiện luận văn, tôi đã tham khảo những tài liệu trong mục tàiliệu tham khảo có nguồn gốc rõ ràng, tôi không sao chép luận văn của bất kỳ aikhác Tôi xin cam đoan rằng: Luận văn này được viết và tổng hợp tài liệu của bảnthân tôi dưới sự hướng dẫn của PGS.TS Tô Anh Dũng
Tp.HCM, ngày 14 tháng 06 năm 2015
LÊ THỊ HỒNG HẠNH
Trang 8Mục lục
1.1 Giá trị trung bình và phương sai của biến ngẫu nhiên một chiều 11
1.2 Hiệp phương sai và tương quan của biến ngẫu nhiên hai chiều 12
1.2.1 Hiệp phương sai 12
1.2.2 Sự tương quan 13
1.2.3 Vectơ trung bình 14
1.2.4 Ma trận hiệp phương sai 16
1.2.5 Ma trận tương quan 18
1.2.6 Tổ hợp tuyến tính giữa các biến 19
2 Phương pháp phân tích 23 2.1 Phân tích nhân tố 23
2.1.1 Giới thiệu 23
2.1.2 Mô hình nhân tố trực giao 24
2.2 Phân tích thành phần chính 40
2.2.1 Giới thiệu 40
2.2.2 Định nghĩa và nguồn gốc của thành phần chính 41
2.2.3 Tính chất của phân tích thành phần chính 44
2.2.4 Số lượng thành phần chính 50
2.2.5 Biễu diễn hình học 50
2.2.6 Tìm trục chính trong Rp 51
2.2.7 Tìm các thành phần chính trong Rn 55
2.2.8 Nội dung phân tích thành phần chính 56
2.3 So sánh giữa phương pháp phân tích thành phần chính và phương pháp phân tích nhân tố 57
3 Ứng dụng giải bài toán thực tế 60 3.1 Các tham số thống kê trong phân tích nhân tố 60 3.2 Kiểm tra sự tương quan giữa các biến và tính toán Cronbach alpha 60
Trang 93.3 Đặt vấn đề 60
3.4 Phân tích 61
3.4.1 Kiểm định thang đo 61
3.4.2 Các nhân tố chính của chất lượng đào tạo 61
3.4.3 Các nhân tố chính của sự hài lòng 62
3.4.4 Phân tích hồi quy 63
Trang 10Danh sách hình vẽ
1.1 Hình 1.1 14
2.1 Hình 2.1 36
2.2 Hình 2.2 38
2.3 Hình 2.3 41
2.4 Hình 2.4 42
2.5 Hình 2.5 49
2.6 Hình 2.6 52
Trang 11Danh sách bảng
3.1 Kết quả phân tích thang đo chất lượng đào tạo 623.2 Kết quả phân tích thang đo sự hài lòng của học sinh 623.3 Kết quả phân tích hồi quy về chất lượng đào tạo 633.4 Phiếu thăm dò chất lượng đào tạo trường THPT Nguyễn Thái Bình 663.5 Các biến quan sát đo lường chất lượng đào tạo 673.6 Các biến quan sát đo lường sự hài lòng của học sinh 67
Trang 12Hàm mật độ f (y) là tần số xuất hiện của biến ngẫu nhiên y Do đó, nếu f (y1) >
f (y2) thì các điểm lân cận của y1 xuất hiện nhiều hơn các điểm lân cận của y2Trung bình tổng thể của biến ngẫu nhiên được định nghĩa là trung bình tất cảcác giá trị có thể của y và được ký hiệu là µ Giá trị trung bình này còn được gọi
là giá trị kỳ vọng của y hoặc E (y) Trung bình mẫu của mẫu ngẫu nhiên n biếnquan sát y1, y2, , yn được tính theo công thức
y = 1n
Trung bình mẫu có tính chất tương tự Nếu zi = ayi, i = 1, 2, , n, thì
Phương sai của tổng thể được định nghĩa là
var(y) = σ2 = E(y − µ)2 và σ2 = E y2 − µ2.Phương sai mẫu được định nghĩa
Trang 13Độ lệch chuẩn là căn bậc hai của phương sai tổng thể hoặc là phương sai mẫu.Nếu mỗi y được nhân với một hằng số a thì phương sai tổng thể được nhân với a2
var(ay) = a2σ2.Tương tự, nếu zi = ayi, i = 1, 2, , n thì phương sai mẫu của z được tính theo côngthức
1.2 Hiệp phương sai và tương quan của biến ngẫu nhiên hai
chiều
1.2.1 Hiệp phương sai
Nếu hai biến x và y được đo lường trên cùng một đơn vị nghiên cứu, ta có biến ngẫunhiên hai chiều (x, y)
Hiệp phương sai tổng thể được định nghĩa
cov (x, y) = σxy = E [(x − µx) (y − µy)] , (1.7)với µx và µy tương ứng là trung bình của x và y Nếu x và y cùng trên hoặc dướigiá trị trung bình thì tích (x − µx) (y − µy) sẽ dương và giá trị trung bình của tíchnày sẽ dương Ngược lại, tích (x − µx) (y − µy) sẽ âm và giá trị trung bình của tíchnày sẽ âm
Hiệp phương sai tổng thể có thể được biểu diễn dưới dạng
σxy = E (xy) − µxµy.Nếu x và y là biến ngẫu nhiên hai chiều thì
Trang 141.2.2 Sự tương quan
Hiệp phương sai phụ thuộc vào thang đo của x và y, rất khó để so sánh hiệp phươngsai giữa các cặp khác nhau của các biến Để tìm thước đo của mối quan hệ tuyếntính bất biến khi thay đổi tỷ lệ, ta có thể chuẩn hóa hiệp phương sai bằng cách chiacho độ lệch chuẩn của hai biến Sự chuẩn hóa hiệp phương sai này được gọi là tươngquan Tương quan tổng thể của hai biến x và y là
ρxy = corr (x, y) = σxy
σxσy =
E [(x − µx) (y − µy)]
qE(x − µx)2
qE(y − µy)2
Tương quan này nằm trong khoảng −1 và 1
Tương quan mẫu rxy có liên quan đến cosin của góc giữa hai vectơ Đặt θ là gócgiữa vectơ a và b Vectơ từ điểm cuối của a đến điểm cuối của b là vectơ c = b − a.Khi đó
cosθ = a
/a + b/b − (b − a)/(b − a)
2
q(a/a)(b/b)
= a
/a + b/b − (b/b + a/a − 2a/b)
2
q(a/a)(b/b)
/bq(a/a)(b/b)
(1.14)
Khi cos 900 = 0, từ (1.14) a/
b = 0 khi θ = 900 Do đó a và b vuông góc nhau khi
a/b = 0, hai vectơ avà b cũng được gọi là trực giao
Từ (1.14), đặt n vectơ quan sát (x1, y1) , (x2, y2) , , (xn, yn) theo hai chiều được biểudiễn như hai vectơ x/ = (x1, x2, , xn) và y/= (y1, y2, , yn) theo n chiều, và quitâm x và y, nghĩa là x − xj và y − yj Khi đó cosin của góc θ (1.14) bằng tươngquan mẫu giữa x và y
/(y − yj)p
[(x − xj)/(x − xj)] [(y − yj)/(y − yj)]
Trang 15Hình 1.1: Vectơ a và b trong không gian 3 chiều.
Do đó nếu góc θ giữa hai vectơ qui tâm x − xj và y − yj nhỏ để cos θ gần 1, rxy
sẽ gần 1 Nếu hai vectơ vuông góc, cos θ và rxy bằng 0 Nếu hai vectơ ngược hướngnhau, rxy sẽ bằng −1
1.2.3 Vectơ trung bình
Đặt y là một vectơ ngẫu nhiên của p biến đo trên cùng một đơn vị mẫu Nếu có n
cá thể trong mẫu, n vectơ quan sát được ký hiệu là y1, y2, , yn,
Vectơ trung bình mẫu y là trung bình của n vectơ quan sát hoặc tính toán bằnggiá trị trung bình của p biến riêng biệt
y = 1n
Trang 16liệt kê trong ma trận Y :
. .
i yi1 yi2 yij yip
.E(yp)
với µj là trung bình tổng thể của biến thứ j
Có thể biểu diễn giá trị kỳ vọng của mỗi yj trong y là µj, nghĩa là E yj = µj Do
đó giá trị kỳ vọng của y (trên tất cả các mẫu có thể) là
.E(yp)
Trang 17Vì vậy, y là ước lượng không chệch của µ.
1.2.4 Ma trận hiệp phương sai
Ma trận hiệp phương sai mẫu S = (sjk) là ma trận của phương sai mẫu và hiệpphương sai của p biến :
Có 3 hướng tính S Cách thứ nhất ta chỉ đơn giản tính toán trên các phần tử riêng
lẽ sjk Phương sai mẫu của biến thứ j, sjj = s2j được tính như (1.4) hoặc (1.5), sửdụng cột thứ j của Y
Trong (1.23) phương sai sjj được biểu diễn như s2j, bình phương độ lệch chuẩn sj,
S đối xứng vì sjk = skj trong (1.25) Tên gọi khác của ma trận hiệp phương sai là
ma trận phương sai, ma trận phương sai – hiệp phương sai hay ma trận phân tán
Ma trận hiệp phương sai mẫu S cũng có thể biểu diễn theo các vectơ quan sát:
Trang 18Tương tự, phần tử ở vị trí (1, 2) của (yi − y) (yi− y)/ là (yi 1− y1)(yi 2− y2), vàkhi tính tổng là s12 trong (1.25) Do đó, (1.27) tương đương với (1.23) và (1.25),tương tự (1.28) tương đương (1.24) và (1.26).
Có thể biểu diễn S trực tiếp từ ma trận Y trong (1.17) Vế phải của (1.26),X
Các phần tử trên đường chéo σjj = σ2j là các phương sai tổng thể của y, các phần
tử không nằm trên đường chéo σjk là các hiệp phương sai của tất cả các cặp có thể
có của y
Ma trận hiệp phương sai tổng thể cũng có thể được biểu diễn
Σ = Eh(y − µ) (y − µ)/i, (1.31)tương tự như (1.27) cho ma trận hiệp phương sai mẫu Ma trận p × p chiều(y − µ) (y − µ)/ là một ma trận ngẫu nhiên Giá trị kỳ vọng của một ma trậnngẫu nhiên được định nghĩa như là ma trận của các giá trị kỳ vọng của các phần
tử tương ứng Để thấy tích (1.31) của phương sai tổng thể và hiệp phương sai của
p biến như (1.30), lưu ý rằng
Trang 20Ma trận tương quan có thể tính được từ ma trận hiệp phương sai và ngược lại Địnhnghĩa
zi = a1yi1+ a2yi2+ + apyip
= a/yi, i = 1, 2, , n (1.40)Trung bình mẫu của z có thể được tính bằng cách lấy trung bình n các giá trị
z1 = a/y1, z2 = a/y2, , zn= a/yn hay là tổ hợp tuyến tính củay, trung bình mẫucủa vectơ y1, y2, , yn
z = 1n
Trang 21Lưu ý rằng s2z = a/Sa tương tự như kết quả trong (1.6), s2z = a2s2, với zi = ayi,
i = 1, 2, , n, và s2 là phương sai của y1, y2, , yn
Vì phương sai luôn không âm, ta có s2z ≥ 0, và do đó a/Sa ≥ 0, với mỗi a Vì thế
S ít nhất là xác định dương Nếu các biến liên tục và không quan hệ tuyến tính, và
/Sbr
Ta có
z = a
/ 1
a/2
!
y = Ay
zi = Ayi, i = 1, 2, , nTrung bình của z trong mẫu có thể được tính từ y
Trang 22Do đó
Sz = a
/ 1
a/2
!
S (a1, a2) = ASA0 (1.48)Nếu ta có k phép biến đổi tuyến tính,
z1 = a11y1+ a12y2+ + a1pyp = a/1y
z2 = a21y1+ a22y2+ + a2pyp = a/2y
zk = ak1y1+ ak2y2+ + akpyp = a/kyhay trong ký hiệu ma trận
Trang 231.2.6.2 Thuộc tính tổng thể
Đặt z = a/y với a là một vectơ hằng số Trung bình tổng thể của z là
E(z) = E(a/y) = a/E(y) = a/µ (1.56)
và phương sai tổng thể là
σz2 = var(a/y) = a/Σa (1.57)Đặt ω = b/y, với b là vectơ hằng số khác vectơ a Hiệp phương sai tổng thể của
(a/Σa)b/Σb
Nếu Ay đại diện nhiều tổ hợp tuyến tính, vectơ trung bình tổng thể và ma trậnhiệp phương sai là
Sự biến đổi tuyến tính tổng quát hơn z = Ay + b có vectơ trung bình tổng thể và
ma trận hiệp phương sai
E(Ay + b) = AE(y) + b = Aµ + b, (1.62)
Trang 24hệ giữa các nhóm biến có liên hệ qua lại lẫn nhau được xem xét và được trình bàydưới dạng một số ít các nhân tố cơ bản.
Phân tích nhân tố là một kỹ thuật phụ thuộc lẫn nhau trong đó toàn bộ các mốiliên hệ lẫn nhau sẽ được nghiên cứu
Phân tích nhân tố được sử dụng trong các trường hợp sau:
• Nhận diện các khía cạnh hay nhân tố giải thích được các liên hệ tương quantrong một tập biến
• Nhận diện một tập hợp gồm một số lượng biến mới tương đối ít không có tươngquan với nhau để thay thế tập hợp biến gốc có tương quan với nhau để thựchiện một phân tích đa biến tiếp theo sau Chẳng hạn như sau khi nhận diệncác nhân tố thuộc về nhân tố ta có thể sử dụng chúng như những biến độclập để giải thích những khác biệt giữa người trung thành và người không trungthành
• Để nhận ra một tập hợp gồm một số ít các biến nổi trội từ một tập hợp nhiềubiến để sử dụng trong các phân tích đa biến Ví dụ như từ một số khá nhiềucác câu phát biểu về lối sống (biến gốc), ta chọn ra một số ít biến được sử dụngnhư những biến độc lập để giải thích những khác biệt giữa những nhóm người
có hành vi khác nhau
Phương pháp phân tích nhân tố được ứng dụng trong các lĩnh vực nghiên cứu kinh
tế và xã hội Trong kinh doanh, phân tích nhân tố có thể được ứng dụng trong nhiềutrường hợp:
• Phân tích nhân tố có thể sử dụng trong phân khúc thị trường để nhận ra cácbiến quan trọng để phân nhóm người tiêu dùng
Trang 25• Trong nghiên cứu sản phẩm, ta có thể sử dụng phân tích nhân tố để xác địnhthuộc tính các nhãn hiệu có ảnh hưởng đến lựa chọn của người tiêu dùng.Phương pháp phân tích nhân tố được sử dụng để phân tích số lượng lớn các biếnphụ thuộc để phát hiện một số khía cạnh của các biến độc lập (gọi là nhân tố) ảnhhưởng đến các biến phụ thuộc mà không cần trực tiếp phân tích các biến độc lập.
Nó cho phép một nhà phân tích để giảm số lượng các yếu tố được nghiên cứu vàquan sát cách thức chúng được liên kết với nhau
2.1.2 Mô hình nhân tố trực giao
2.1.2.1 Định nghĩa mô hình và các giả định
Giả định cho một mẫu ngẫu nhiên y1, y2 , yn từ một tổng thể thuần nhất vớivectơ trung bình µ và ma trận hiệp phương sai Σ Mô hình phân tích nhân tố biểudiễn mỗi biến như là một sự kết hợp tuyến tính của các nhân tố chung cơ bản
f1, f2, , fm và sai số ứng với mỗi biến là duy nhất Cho y1, y2 , yp trong bất kỳquan sát của vectơ y, khi đó
y1− µ1 = λ11f1+ λ12f2+ + λ1mfm+ ε1
y2− µ2 = λ21f1+ λ22f2+ + λ2mfm+ ε2
yp − µp = λp1f1+ λp2f2+ + λpmfm+ εp
Lý tưởng nhất, m nhỏ hơn đáng kể so với p Xem f trong (2.1) như là các biến ngẫunhiên sinh ra y Hệ số λij được gọi là các hệ số tải và đóng vai trò là trọng lượng,cho thấy mỗi yi phụ thuộc như thế nào vào f Với giả định thích hợp, λi j chỉ ra tầmquan trọng của nhân tố fj thứ j đến biến yi thứ i và có thể được dùng giải thíchcho fj
Giả định rằng j = 1, 2, , m, E (fi) = 0, var (fi) = 1, và cov (fi, fk) = 0, j 6= k Giảđịnh εi, i = 1, 2, , p cũng tương tự, ngoại trừ mỗi εi có một phương sai khác nhau,khi đó phần dư của yi không giống với các biến khác Vì thế E (εi) = 0, var (εi) = ψi
và cov (εi, εk) = 0, i 6= k, cov (εi, fj) = 0, với mọi i và j Xem ψi là một phương saiđặc trưng
Các giả định này là kết quả tự nhiên của mô hình cơ bản (2.1) và là mục tiêu củaphân tích nhân tố Vì E (yi− µi) = 0, ta cần E (fi) = 0, j = 1, 2, , m Giả địnhcov (fi, fk) = 0 trong biểu diễn của y như là hàm của một vài nhân tố Giả địnhvar (fi) = 1, var (εi) = ψi, cov (fi, fk) = 0 và cov (εi, fj) = 0 sẽ cho một biểu thứcđơn giản cho phương sai của yi
var (yi) = λ2i 1+ λ2i 2+ + λ2i m+ ψi, (2.2)đóng vai trò quan trọng trong nghiên cứu Lưu ý rằng giả định cov (εi, εk) = 0 baohàm các nhân tố giải thích cho tất cả các tương quang của y, nghĩa là tất cả cácbiến của y có điểm chung Vì vậy sự nhấn mạnh trong phân tích nhân tố là mô hìnhhiệp phương sai hoặc tương quan của y
Trang 26Mô hình (2.1) có thể được viết dưới dạng ma trận
trong đó y = (y1, y2, , yp)/, µ = (µ1, µ2, , µp)/, f = (f1, f2, , fm)/, ε = (ε1, ε2, , εp)/và
Trang 27Ký hiệu cov (f , ε) là ma trận hình chữ nhật gồm hiệp phương sai của f và của ε:
Theo (2.2) nhấn mạnh phân tích nhân tố là mô hình hiệp phương sai trong các biến
y Mong muốn biểu diễn 1
2p (p − 1)các hiệp phương sai (và p các phương sai) của cácbiến y1, y2, , yp theo một cấu trúc đơn giản bao gồm pm hệ số tải λij và p phươngsai đặc trưng ψi; Nghĩa là ta mong muốn biểu diễn Σ theo Λvà Ψ Ta có thể sửdụng mô hình (2.3) và các giả định (2.7), (2.9), (2.10) Vì µ không ảnh hưởng đếnphương sai và hiệp phương sai của y, ta có từ (2.3)
Σ = cov (y) = cov (Λf + ε)
Từ (2.10), Λf và ε không tương quan; Do đó ma trận hiệp phương sai của tổngbằng tổng các ma trận hiệp phương sai
Σ = cov (y) = cov (Λf + ε)
σ12= cov (y1, y2) = λ11λ21+ λ12λ22,với (λ11, λ12) là hàng đầu tiên của Λ và (λ21, λ22) là hàng thứ hai của Λ Nếu y1 và
y2 có nhiều điểm chung, chúng sẽ có hệ số tải giống nhau trên hai nhân tố f1 và
f2; Nghĩa là (λ11, λ12) sẽ tương tự như (λ21, λ22) Trong trường hợp này, λ11λ21 hoặc
λ12λ22 sẽ cao Ngược lại, nếu y1 và y2 có ít điểm chung, thì hệ số tải của λ11 và λ21trên f1 sẽ khác nhau và hệ số tải của λ12 và λ22 trên f2 tương tự cũng khác nhau.Trong trường hợp này, tích của λ11λ21 và λ12λ22 sẽ có xu hướng nhỏ
Có thể tìm hiệp phương sai của y với f theo λ Ví dụ, cov (y1, f2) Từ (2.1), y1−µ1 =
λ11f1 + λ12f2 + + λ1mfm + ε1 Từ (2.7), f2 không tương quan với các fj và từ(2.10), f2 không tương quan với ε1 Do đó
Trang 28vì var(f2) = 1 Do đó các hệ số tải đại diện các hiệp phương sai của các biến với cácnhân tố Tổng quát,
cov (yi, fi) = λi j, i = 1, 2, , p; j = 1, 2, , m (2.12)
Vì λi j là phần tử thứ (i j) của Λ, ta có thể viết (2.12) dưới dạng
Nếu các biến chuẩn hóa được sử dụng, (2.11) được thay thế bởi Pρ= ΛΛ/+ Ψ và
hệ số trở nên tương quang :
corr (yi, fj) = λi j (2.14)Trong (2.2), ta có một phân hoạch phương sai của biến yi thành một thành phầntheo các nhân tố chung, được gọi là phương sai tương đối, và thành phần duy nhấtcòn lại của yi, được gọi là phương sai đặc trưng :
sơ đồ, Σ = ΛΛ/+ Ψ có hình dạng như sau
Các phần tử trên đường chéo của Σ có thể mô hình hóa dễ dàng bằng cách điềuchỉnh các phần tử trên đường chéo của Ψ, nhưng ΛΛ/ là một cấu hình đơn giản củacác phần tử không nằm trên đườngchéo Vì thế khía cạnh quan trọng của mô hìnhliên quan đến các hiệp phương sai, và điều này là sự nhấn mạnh chính của phântích nhân tố
2.1.2.2 Tính không duy nhất của các hệ số tải
Các hệ số tải trong (2.3) có thể được nhân bởi một ma trận trực giao mà không làm
Trang 29suy giảm khả năng tái lập ma trận hiệp phương sai trong Σ = ΛΛ/+ Ψ Để nhậnthấy điều này, đặt T là một ma trận trực giao tùy ý, ta có T T/ = I, đưa T T/ = Ivào trong mô hình cơ bản (2.3) :
Nhân tố mới f∗ = T/f trong (2.18) thỏa các giả định (2.6), (2.7) và (2.10); Nghĩa
là E(f∗) = 0, cov(f∗) = I và cov (f∗, ε) = 0
Phương sai tương đối h2i = λ2i1+ λ2i2, + λ2im, i = 1, 2, , p, như định nghĩa trong(2.15), cũng không bị ảnh hưởng bởi phép biến đổi Λ∗ = ΛT Phương sai tương đối
h2i là tổng bình phương hàng thứ i của Λ Nếu ký hiệu hàng thứ i của Λ là λ/i, thì
h2i = λ/iλi Hàng thứ i của Λ∗ = ΛT là λ/∗i = λ/iT và phương sai tương đối tươngứng là
h∗2i = λ∗/i λ∗i = λ/iT T/λi = λ/iλi = h2i
Vì thế phương sai tương đối vẫn giữ nguyên đối với hệ số tải mới Lưu ý rằng
h2i = λ2i1 + λ2i2, + λ2im = λ/iλi là khoảng cách từ điểm gốc đến điểm λ/i =(λi1, λi2, , λim) trong không gian m chiều của hệ số nhân tố tải Vì khoảng cách
λ/iλi giống với khoảng cách λ∗/i λ∗i, điểm λ∗i được quay từ điểm λi
2.1.2.3 Ước lượng của hệ số tải và phương sai tương đối
2.1.2.3.a Phương pháp thành phần chính
Trong phương pháp phân tích nhân tố, phương pháp thành phần chính cho ướclượng hệ số tải, ta không tính toán bất kỳ thành phần chính nào
Trang 30Từ một mẫu ngẫu nhiên y1, y2, , yn, ta được ma trận hiệp phương mẫu S và tìmmột ước lượng bΛ sẽ xấp xỉ (2.11) với S thay thế cho Σ
Ta dùng kí hiệu θi cho các giá trị riêng thay cho λi để tránh nhầm lẫn với kí hiệu
λi j được dùng cho hệ số tải Để phân tích CDC/ trong (2.21) thành bΛ bΛ/, ta nhậnthấy rằng khi các trị riêng θi của ma trận S nửa xác định dương luôn dương hoặcbằng 0, D được phân tích thành D thành
D = D1/2D1/2,với
Trang 31với bΛ là ma trận cấp p × m, C1 là ma trận cấp p × m, D11/2 là ma trận m × m.Minh họa bλij trong (2.24) với p = 5 và m = 2
λ21 λˆ22ˆ
λ31 λˆ32ˆ
λ41 λˆ42ˆ
θ1c21 pθ2c22p
θ1c31 pθ2c32p
θ1c41 pθ2c42p
Các cột của bΛ tương ứng là các vectơ riêng của S, để hệ số tải trên nhân tố thứ
j tương ứng là hệ số thành phần chính thứ j Các nhân tố liên quan đến m thànhphần chính đầu tiên, cách giải thích này giống cách giải thích các thành phần chính.Nhưng sau khi quay các hệ số tải, giải thích các nhân tố sẽ khác
Phần tử chéo thứ i của bΛ bΛ/ là tổng bình phương hàng thứ i của bΛ hoặc cλ/iλbi =
Trong phương pháp ước lượng này, tổng bình phương các hàng và các cột của bΛ lầnlượt bằng với các phương sai tương đối và giá trị riêng Từ (2.26) và (2.15), phươngsai tương đối thứ i được ước lượng bởi
Trang 32là tổng bình phương của hàng thứ i của bΛ Tổng bình phương cột thứ j của bΛ làgiá trị riêng thứ j của S:
θj
Nếu các biến không cân xứng , ta có thể sử dụng các biến chuẩn hóa và làm việc với
ma trận tương quan R Các giá trị riêng và các vectơ riêng của R được sử dụng đểthay thế các giá trị riêng và các vectơ riêng của S trong (2.24) để ước lượng hệ sốtải Trong thực hành, R được dùng nhiều hơn S và được mặc định trong hầu hếtcác gói phần mềm Nhấn mạnh của phân tích nhân tố là tái lập lại ma trận hiệpphương sai và ma trận tương quan hơn là phương sai, dùng ma trận R trong phântích nhân tố thích hợp hơn thành phần chính Trong ứng dụng, ma trận R thườngcho kết quả tốt hơn S Nếu ta phân tích R, tỉ lệ tương ứng (2.32) là
với p là số lượng các biến
Ta có thể đánh giá mức độ thích hợp của mô hình phân tích nhân tố bằng cách sosánh hai vế của (2.27) Ma trận sai số
E = S −Λ bbΛ/+ bψ
Trang 33có các phần tử trên đường chéo bằng 0 và các phần tử còn lại khác 0 Bất đẳng thứccho sự ràng buộc về độ lớn của các phần tử trong E
b
Λ bΛ/+ bΨnhỏ và thích hợp tốt
2.1.2.3.b Phương pháp nhân tố chính
Trong cách tiếp cận thành phần chính để ước lượng hệ số tải, ta bỏ qua Ψ và phântích S hoặc R Phương pháp nhân tố chính (còn được gọi là phương pháp trụcchính) sử dụng ước lượng ban đầu bΨ và phân tích S − bΨ hoặc R − bΨ
S − bΨ ∼= bΛ bΛ/, (2.35)
R − bΨ ∼= bΛ bΛ/, (2.36)với bΛ là ma trận p × p và được tính toán như trong (2.24) bằng cách dùng trị riêng
và vectơ riêng của S − bΨ hoặc R − bΨ
Phần tử thứ i trên đường chéo của S − bΨ được tính bởi sii− bψi, là phương saitương đối thứ i, bh2i = sii− bψi (do (2.30)) Tương tự, các phần tử trên đường chéocủa R − bΨ là phương sai tương đối bh2i = 1 − bψi Với các giá trị trên đường chéo này,
Một ước lượng tổng thể ban đầu cho một phương sai tương đối trong R − bΨ là
bh2i = R2i, bình phương hệ số tương quan bội giữa yi và p − 1 biến khác,
bh2i = R2i = 1 − 1
với rii là phần tử thứ i trên đường chéo của R−1
Từ S − bΨ, ước lượng ban đầu của phương sai tương đối tương tự (2.39) là
b
h2i = sii− 1
Trang 34với sii là phần tử thứ i trên đường chéo của S và sii là phần tử thứ i trên đườngchéo của S−1 (2.40) bằng với
b
h2i = sii− 1
sii = siiR2i, (2.41)
Để sử dụng (2.39) hoặc (2.40), R hoặc S phải không suy biến Nếu R suy biến, ta
có thể dùng giá trị tuyệt đối hoặc lấy căn bặc hai của tương quan lớn nhất tronghàng thứ i của R như là một ước lượng của phương sai tương đối
Sau khi ước lượng phương sai tương đối, ta tính toán trị riêng và vectơ riêng của
S − bΨ hoặc R − bΨ và dùng (2.24) ước lượng nhân tố tải, bΛ Từ đó các hàng vàcác cột của bΛ có thể sử dụng để tính tương ứng các trị riêng mới và các phương saitương đối Tổng bình phương cột thứ j của bΛ là giá trị riêng thứ j của S − bΨ hoặc
R − bΨ, và tổng bình phương hàng thứ i của bΛ là phương sai tương đối của yi Tỉ
lệ của phương sai có được từ nhân tố thứ j là
θjtr
P
i=1
θi,
với θj là giá trị riêng thứ j của S − bΨ hoặc R − bΨ
2.1.2.3.c Phương pháp lặp nhân tố chính
Phương pháp nhân tố chính có thể dễ dàng được lặp để cải tiến ước lượng củaphương sai tương đối Sau khi có bΛ từ S − bΨ hoặc R − bΨ trong (2.35) hoặc (2.36), dùng ước lượng phương sai tương đối ban đầu, ta có thể ước lượng được phươngsai tương đối mới từ hệ số tải của bΛ bằng cách dùng (2.28),
Phương pháp nhân tố chính và phương pháp lặp nhân tố chính sẽ cho kết quả gầnvới phương pháp thành phần chính khi một trong hai điều sau đúng
1 Tương quan khá lớn, với giá trị kết quả m nhỏ
2 Số lượng các biến p lớn
2.1.2.3.d Phương pháp hợp lý cực đại
Giả định rằng y1, y2, , yn quan sát tạo thành một mẫu ngẫu nhiên từ Np(µ, Σ),
Trang 35khi đó Λ và Ψ có thể được ước lương bằng phương pháp hợp lý chực đại Ước lượngb
Bốn tiêu chuẩn chọn số lượng nhân tố m
1 Chọn m bằng với số lượng của các nhân tố cần thiết cho phương sai để đạt đến80% tỉ lệ định sẵn, tổng phương sai tr (S) hoặc tr (R)
2 Chọn m bằng với số lượng của các giá trị riêng lớn hơn giá trị riêng trung bình.Với R, giá trị riêng trung bình là 1; Với S, giá trị riêng trung bình là
p
X
j=1
θip
3 Dùng thống kê kiểm định điểm dựa trên đồ thị các giá trị riêng của S hoặc R.Nếu đồ thị giảm mạnh, trước là một đường thẳng có độ dốc nhỏ hơn, chọn mbằng với số lượng các giá trị riêng trước khi đồ thị bắt đầu giảm mạnh
4 Kiểm định giả thiết m là số lượng đúng của các nhân tố, H0 : Σ = ΛΛ/+ Ψ,với Λ là ma trận p × m
Phương pháp 1 đặc biệt áp dụng cho phương pháp thành phần chính Từ (2.32), tỉ
lệ của tổng phương sai mẫu do nhân tố thứ j của S là
p , như trong (2.33) Sự đóng góp của tất cả m nhân tố lên tr (S)hoặc p là
Trang 36dụ tỷ lệ 80% sẽ đạt được một giá trị thấp hơn giá trị m hơn là trường hợp của Shoặc R, và cách tốt hơn chọn m bằng với giá trị tỷ lệ phần trăm đầu tiên vượt quá100%.
Trong phương pháp lặp nhân tố chính, m được chỉ rõ trước khi lặp, và có đượcX
ibh2isau khi lặp X
ibh2i = trS − bΨ Để chọn m trước khi lặp, nên cân nhắc chọn cácgiá trị riêng của S hoặc R, như trong phương pháp thành phần chính
Phương pháp 2 là một tiêu chuẩn phổ biến lâu dài và mặc định trong nhiều góiphần mềm Mặc dù dựa trên phỏng đoán, nhưng trong thực tế nó làm việc rất tốt.Phương pháp 2 gợi ý dùng R − bΨ để chọn m bằng với số các trị riêng dương Tuynhiên, tiêu chuẩn này sẽ cho kết quả quá nhiều các nhân tố, vì tổng của các trị riêngdương vượt trội hơn tổng của các phương sai tương đối
Trong phương pháp 4 ta kiểm định
H0 : Σ = ΛΛ/+ Ψ so với H1 : Σ 6= ΛΛ/+ Ψ,với Λ là ma trận p × m
2.1.2.5 Phép quay
2.1.2.5.a Giới thiệu
Trong 2.1.2.2, hệ số nhân tố tải (các hàng của Λ) trong mô hình tổng thể là duynhất chỉ đến khi nhân với một ma trận trực giao để quay các hệ số tải Hệ số tảiđược quay giữ được các thuộc tính thiết yếu của hệ số tải ban đầu; Chúng tái lập
ma trận hiệp phương sai và thỏa các giả định cơ bản Ma trận ước lượng nhân tốtải bΛ có thể được quay tương tự để tính được bΛ∗ = bΛT , với T là ma trận trực giao
Vì T T/ = I , hệ số tải được quay cho ước lượng tương tự của ma trận hiệp phươngsai :
S ∼= bΛ∗Λb∗/+ bΨ = bΛT T/Λb/+ bΨ = bΛ bΛ/+ bΨ (2.46)Theo phương diện hình học, hệ số tải trong hàng thứ i của ma trận bΛ tạo thành tọa
độ điểm trong không gian hệ số tải tương ứng với yi Phép quay p điểm cho tọa độtương ứng với các trục mới (các nhân tố) nhưng vẫn giữ được hiện trạng hình họcnguyên vẹn Ta mong tìm được một hệ tọa độ mới mà các nhân tố được giả thíchnhiều hơn Với mục đích này, mục tiêu của phép quay là đặt các trục gần nhiềuđiểm càng tốt Nếu có các cụm điểm (tương ứng các nhóm của biến y), ta tìm cách
di chuyển các trục đi qua hoặc gần cụm điểm này Điều này sẽ liên kết mỗi nhómbiến với một nhân tố (trục) và làm cho việc giải thích khách quan hơn Các trục kếtquả đại diện cho các nhân tố tự nhiên
Nếu ta đạt được một phép quay mà mỗi điểm gần với một trục, mỗi biến có tảitrọng cao đối với nhân tố tương ứng với trục và có tải trọng thấp với các nhân tốcòn lại Đây gọi là cấu trúc đơn giản Ta chỉ quan sát các biến có liên quan đến mỗinhân tố và nhân tố được định nghĩa hay được đặt tên phù hợp
Để xác định các nhóm tự nhiên của các biến, ta tìm một phép quay mà mô hìnhgiải thích cho hệ số tải, trong đó các biến có tải trọng cao chỉ duy nhất trên một