Biểu thức trên cho thấy khả năng bảo tồn sự biến động của các cá thể cũng như các biến đã được mô tả trong X bởi vectơ c.2.3 Phương pháp phân tích thành phần chính 2.3.1 Phép chiếu lên k
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
************
ĐOÀN THỊ THE
PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ ỨNG DỤNG VỚI
SPSS
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán Ứng dụng
HÀ NỘI - 2018
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
KHOA TOÁN
************
ĐOÀN THỊ THE
PHƯƠNG PHÁP PHÂN TÍCH THÀNH PHẦN CHÍNH VÀ ỨNG DỤNG VỚI
Trang 3LỜI CẢM ƠN
Để hoàn thành tốt khóa luận tốt nghiệp với đề tài “Phương pháp phân tích thành phần chính và ứng dụng với spss”, tôi đã nhận được rất nhiều sự hướng dẫn,
giúp đỡ tận tình của các thầy cô, bạn bè
Tôi chân thành cảm ơn thầy giáo – PGS.TS Trần Trọng Nguyên Thầy đã trựctiếp chỉ bảo, tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu, thực hiện đề tài.Tôi chân thành cảm ơn quý Thầy, Cô trong Khoa Toán, Trường Đại học Sưphạm Hà nội 2, đặc biệt là tổ Ứng dụng đã tạo điều kiện và thời gian cho tôi trongsuốt quá trình nghiên cứu Thầy cô cũng là những người truyền đạt cho tôi nhữngkiến thức nền tảng để thực hiện khóa luận này
Tôi xin cảm ơn những người thân, bạn bè luôn bên tôi, động viên tôi học tập vàhoàn thành khóa luận
Do lần đầu tiên làm quen với công tác nghiên cứu khoa học hơn nữa do thời gian
và kiến thức chuyên môn còn hạn chế nên mặc dù đã có nhiều cố gắng song khóaluận không tránh khỏi những thiếu sót, tôi rất mong sự góp ý, chỉ bảo thêm của quýthầy cô và các bạn sinh viên
Tôi xin chân thành cảm ơn!
Sinh viênĐoàn Thị The
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu độc lập của cá nhân tôi với sự cố vấncủa thầy giáo PGS.TS Trần Trọng Nguyên Tất cả các nguồn tài liệu đã được công
bố đầy đủ, nội dung của khóa luận là trung thực
Sinh viênĐoàn Thị The
Trang 5MỤC LỤC
LỜI MỞ ĐẦU 1
Chương 1 Kiến thức chuẩn bị 3
1.1 Momen quán tính 3
1.1.1 Momen quán tính của chất điểm, hệ chất điểm đối với tâm 3
1.1.2 Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng 3
1.2 Tích vô hướng của hai vectơ 3
1.3 Biến ngẫu nhiên và các đặc trưng của biến ngẫu nhiên 4
1.3.1 Biến ngẫu nhiên 4
1.3.2 Các đặc trưng số của biến ngẫu nhiên 5
1.3.3 Ma trận hiệp phương sai, ma trận hệ số tương quan 7
1.4 Giá trị riêng, vectơ riêng, vết của ma trận vuông 7
1.4.1 Giá trị riêng, vectơ riêng của ma trận 7
1.4.2 Vết của ma trận (Trace A) 7
Chương 2 Lý thuyết phân tích thành phần chính (PCA) 9
2.1 Mô tả số liệu 9
2.1.1 Số liệu và các đặc trưng 9
2.1.2 Không gian các cá thể ( E p ) 11
2.1.3 Không gian các biến ( F n ) 12
2.2 Tạo biến – phép chiếu lên không gian tuyến tính 12
2.2.1 Tạo biến mới 12
2.2.2 Phép chiếu lên không gian tuyến tính 13
2.3 Phương pháp phân tích thành phần chính 14
2.3.1 Phép chiếu lên không gian con 14
2.3.2 Trục chính, nhân tố chính và các thành phần chính 15
2.3.3 Xác định và chọn số thành phần chính 16
2.4 Phân tích thành phần chính với ma trận hệ số tương quan 17
2.5 Phân tích kết quả phân tích thành phần chính 18
2.5.1 Các kiểm định chung 18
2.5.2 Tương quan của các thành phần và các biến ban đầu định danh các thành phần chính 19
Trang 62.5.3 Phép quay các trục trong không gian ảnh 20
2.5.4 Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính 21
2.5.5 Phân tích các biến trong Rn 22
2.6 Tiêu chuẩn chọn số thành phần chính cho một phân tích 23
Chương 3 SPSS và ứng dụng trong phân tích thành phần chính 25
3.1 Giới thiệu phần mềm SPSS 25
3.1.1 Tổng quan 25
3.1.2 Giới thiệu phần mềm SPSS 25
3.2 Phân tích thành phần chính với SPSS 29
Bài toán 1 29
Bài toán 2 41
KẾT LUẬN 47
TÀI LIỆU THAM KHẢO 48
Trang 7+ Giúp giảm số chiều của dữ liệu.
+ Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gianmới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương khônggian cũ
+ Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ.+ Trong không gian mới các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn
PCA được áp dụng để phân tích dữ liệu trong rất nhiều lĩnh vực như nôngnghiệp, kinh tế, y tế và các ngành khoa học khác
Với mong muốn được tìm hiểu sâu hơn về lý thuyết phân tích thành phần chính
và cách thức phân tích dữ liệu bằng phương pháp phân tích thành phần chính trongspss tôi đã chọn đề tài “Phương pháp phân tích thành phần chính và ứng dụng vớispss”
2 Mục đích nghiên cứu
Tìm hiểu về một phương pháp phân tích dữ liệu thống kê nhiều chiều
3 Nhiệm vụ nghiên cứu
Nghiên cứu về ý tưởng của phương pháp phân tích thành phần chính và ứng dụngcủa mô hình này kết hợp sử dụng phần mềm thống kê SPSS để phân tích một số bộ
dữ liệu cụ thể
4 Phương pháp nghiên cứu
Một số phương pháp nghiên cứu được sử dụng trong khóa luận đó là:
Trang 8Phân tích, tổng hợp các tài liệu về phương pháp phân tích thành phần chính
Thu thập và xử lý dữ liệu nhiều chiều bằng phương pháp phân tích thành phầnchính trên SPSS
5 Cấu trúc của khóa luận
Nội dung của khóa luận gồm 3 chương:
Chương 1: “Các kiến thức chuẩn bị” trình bày các khái niệm toán học, thống kê
có liên quan đến phân tích thành phần chính
Chương 2: “ Lý thuyết phân tích thành phần chính” thể hiện ý tưởng của phươngpháp phân tích thành phần chính và phân tích kết quả phân tích thành phần chính.Chương 3: “SPSS và ứng dụng trong phân tích thành phần chính” giới thiệu vềphần mềm SPSS và các bước thực hiện phân tích thành phần chính với một số bàitoán phân tích dữ liệu cụ thể
Trang 91.1.1 Momen quán tính của chất điểm, hệ chất điểm đối với tâm
Momen quán tính của chất điểm m đối với tâm O là đại lượng được định nghĩa
điểm m đến tâm O
Momen quán tính của hệ chất điểm { m i } đối với tâm O
khoảng cách từ chất điểm m iđến tâm O.
Trọng tâm G của hệ chất điểm là vị trí thỏa mãn hệ thức
1.1.2 Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng
Momen quán tính của chất điểm m đối với đường thẳng d
điểm m đến đường thẳng d
Momen quán tính của hệ chất điểm m i đối với đường thẳng d
cách từ chất điểm m i đến đường thẳng (d).
1.2 Tích vô hướng của hai vectơ
Định nghĩa 1.1 Cho hai vectơ và khác , là góc hợp bởi và Tích vô hướng của hai vectơ và được ký hiệu là là một số, được xác định bởi
.Nếu thì
Nếu thì
Trang 10Biểu thức tọa độ của tích vô hướng:
+ Trong không gian 2 chiều: 1 2 , 1 2 thì 1 1 u2v2
Trong mặt phẳng Ox x2 , cho điểm M x1, x2 , đường thẳng có vectơ chỉ
phương
1 2 ,|| và G là hình chiếu của M xuống
Hình 1.1
Khi đó: OG OM cos x11 x22
+ Trong không gian p chiều: M x1, x2 ,., x p , 1 2 ,p
)
thì
OG OM cos x x22 x p
Chú ý: Nếu 2 vectơ và là hai vectơ đơn vị thì
Do đó trong không gian p chiều với 1 2 ,p ) và 1 2 , p )là các vectơđơn vị, là góc hợp bởi giữa và thì cos 11 22 pp
1.3 Biến ngẫu nhiên và các đặc trưng của biến ngẫu nhiên
1.3.1 Biến ngẫu nhiên
Định nghĩa 1.2 (biến ngẫu nhiên một chiều):
Cho không gian xác suất (, P) Một biến ngẫu nhiên với giá trị thực là một hàm số
đo được trên một không gian xác suất, X : (,P) R
Định nghĩa 1.3 (biến ngẫu nhiên nhiều chiều): Cho X1, X2 , ,
X n
là các biến ngẫu
Trang 11nhiên một chiều xác định trên không gian xác suất (, P) Với mỗi , ta có thể
làm phép tương ứng với một điểm
gian Ơ-clit n chiều
X () (X1(), X2 (), , X n
())
của không
Trang 12Ánh xạ lập bởi các vectơ ngẫu nhiên
ngẫu nhiên n chiều
X1, X2 , ,
X n
được gọi là một biến
1.3.2 Các đặc trưng số của biến ngẫu nhiên
1.3.2.1 Kỳ vọng
Định nghĩa 1.4 (Kỳ vọng toán của biến ngẫu nhiên một chiều)
Trên không gian xác suất , F, P cho biến ngẫu nhiên X có hàm phân phối xác suất F(x) Kỳ vọng toán của X là một số ký hiệu là E(X) hay và được định nghĩanhư sau:
tồn tại kỳ vọng thì ER được xác định như sau:
Nếu X ,Y là hai biến ngẫu nhiên rời rạc thì E R x i , y j pij
1.3.2.2 Phương sai, độ lệch chuẩn
Định nghĩa 1.5 Phương sai của biến ngẫu nhiên X được ký hiệu là V (X) (var(X))hay 2
(X) và được xác định như sau:
Trang 14Định nghĩa 1.6 Căn bậc hai của phương sai của biến ngẫu nhiên X được gọi là độ
lệch tiêu chuẩn của biến ngẫu nhiên X, nó được ký hiệu là (X) hay s X và
1.3.2.3 Hiệp phương sai
Định nghĩa 1.7 Hiệp phương sai của hai biến ngẫu nhiên
cov(X, Y) và được xác định như sau:
Trang 15ký hiệu và xác định như sau
r nằm trong khoảng ( 1,1)
r r(X, Y) cov(X, Y) X .Y
Trang 16Ý nghĩa: Thể hiện độ mạnh mối quan hệ tuyến tính giữa X và Y
r 1 thì tương quan tuyến tính của hai biến thuận chặt chẽ
r 1 thì tương quan tuyến tính của hai biến nghịch chặt chẽ
r 0 thì hai biến không tương quan với nhau
1.3.3 Ma trận hiệp phương sai, ma trận hệ số tương quan
Ma trận hiệp phương sai:
cov(X1, X1) cov(X1, X2 ) cov(X1, Xn )
1.4 Giá trị riêng, vectơ riêng, vết của ma trận vuông
1.4.1 Giá trị riêng, vectơ riêng của ma trận
gọi là đa thức đặc trưng của ma
Các nghiệm thực của đa thức đặc trưng
A
P A () gọi là các giá trị riêng của ma trận
Ứng với mỗi giá trị riêng 0 ta xét hệ | A 0 I | u 0 (1)
Các vectơ khác không là nghiệm của hệ (1) gọi là các vectơ riêng của ma trận Aứng với giá trị riêng 0
i1 với i là các giá trị riêng của A
+ Cho A, B là các ma trận vuông cùng cấp, c là hằng số, khi đó:
Trang 17tr(A B) tr(A) tr(B); tr(c.A) c.tr(A)
+ tr(AB) tr(B A) với A là ma trận n hàng, m cột, còn B là ma trận n hàng, m cột.+ A là ma trận vuông cấp n bất kỳ, P là ma trận vuông cấp n khả nghịch Liên hợpcủa A theo P là PAP1 thì tr(A) tr(PAP1)
+ tr(A) tr(AT )
+ Nếu A là một ma trận đối xứng và B là ma trận phản đối xứng thì tr(AB) 0
Trang 18Chương 2 Lý thuyết phân tích thành phần chính (PCA)
là vectơ các giá trị của các
biến quan sát được ở cá thể thứ i
X j là cột thứ j của X bao gồm giá trị của một biến tại tất cả các cá thể
Trang 192.1.1.3 Trung tâm của đám mây số liệu và ma trận trung tâm hóa
Mỗi cá thể được xem là một điểm trong không gian R p , n điểm tạo nên một tập hợpgọi là một “đám mây số liệu” Điểm trung tâm của đám mây số liệu là g X T
(yij ) là ma trận trung tâm hóa (có các cột là tọa độ của các vectơ
chênh lệch của các cá thể với vectơ g )
2.1.1.4 Ma trận hiệp phương sai và ma trận hệ số tương quan
Đây là đặc trưng quan trọng nói đến mức phân tán của mỗi biến và độ liên hệ giữa chúng
Ma trận hiệp phương sai (Var(X)):
Trang 20Thì Z j được gọi là các biến đã được chuẩn hóa của biến X j
Trang 21Nếu chỉ quan tâm đến độ phân tán của các biến có thể chọn ma trận M D 1/s2 ( đây
là ma trận có đường chéo là nghịch đảo của các phương sai của các biến )
Ta có thể biến đổi từ khoảng cách M sang khoảng cách Ơ-clit bằng cách thay
Trang 22- Nếu M E thì tổng quán tính là tổng phương sai của các biến.
- Nếu M D 1/s2 thì tổng quán tính là tổng các phần tử trên đường chéo ma trận Rhay chính bằng p
Nếu chọn khoảng cách Ơ-clit cho không gian các cá thể thì tổng quán tính là tổng các phần tử trên đường chéo của V
2.1.3 Không gian các biến ( F n )
Chuẩn của các vectơ cột chính là phương sai của các cột này (S2j)
Đối với các biến ta quan tâm đến quan hệ tương quan của chúng Tương quan của các biến có thể biểu diễn hình học bởi góc giữa các vectơ trong không gian En
Trang 23Đây chính là hệ số tương quan tuyến tính của Xk và Xu, hệ số này có tính chất đối xứng.
2.2 Tạo biến – phép chiếu lên không gian tuyến tính
2.2.1 Tạo biến mới
Trang 24Trong phân tích thống kê, ta tổng hợp thông tin để theo đó có được những hiểu biết
về tổng thể mà mỗi cá thể không thể hiện được bằng cách tạo ra các biến mới là tổhợp tuyến tính của các biến ban đầu
2.2.2 Phép chiếu lên không gian tuyến tính
Trong không gian các biến F, phép tổ hợp tuyến tính các vectơ X j ( j 1 p ) tạo
nên các vectơ mới trong F Với các vectơ này các cá thể trong E được biểu diễn bằng các vectơ mới trong E’ có số chiều nhỏ hơn E rất nhiều, chúng chính là hìnhchiếu của các vectơ ban đầu trên hệ tọa độ mới của F
Một điểm (một dòng của X) với cá thể i: X *
có ảnh qua phép chiếu trên trục là
f i Trên trục xác định vectơ chỉ phương , || M lúc đó *
tương ứng vớimột giá trị c i d(O,f i ) Với n cá thể, ta có n giá trị c1,c2 , ,c nlập nên một vectơ
với u Ma là một vectơ trong F, c là hình chiếu của X trên u
Như vậy, c là tổ hợp tuyến tính của các cột trong ma trận X
Metric của a là a T Ma thì metric của u là u T M 1u
V (c) cT Dc (Xu)T D(Xu) uT X T DXu u T Vu
Trang 25Biểu thức trên cho thấy khả năng bảo tồn sự biến động của các cá thể cũng như các biến đã được mô tả trong X bởi vectơ c.
2.3 Phương pháp phân tích thành phần chính
2.3.1 Phép chiếu lên không gian con
2.3.1.1 Phép chiếu lên không gian con
Xét P là phép chiếu các cá thể nên không gian con r chiều
Với phép chiếu P, mỗi vectơ dòng của X sẽ được biến đổi thành một vectơ trong F r
2.3.1.2 Phép chiếu vuông góc các cá thể lên không gian con
Xét không gian con E, p chiều của các cá thể x
P là một phép chiếu M vuông góc nếu (G là không gian con có số chiều lớn nhất bằng p) và Px, x Px 0
P là một phép chiếu M vuông góc đến không gian con Fr thì P có các tính chất sau :+ P2 P ( P lũy đẳng)
Giả sử W là không gian ảnh các dòng của X, các vectơ trong W có dạng Xu
P là một phép biến đổi tuyến tính (E : W) nên Px Xb
P phải thỏa mãn điều kiện x Px vuông góc với mọi vectơ của W nên
Xu i , x Px
Trang 27TraceVMP Trace ( VMa(a T Ma)1 a T M )=
1 Trace(a Trace(VMaa T T MVMa)
Ma là giá trị riêng của
VM Giá trị riêng này chính là quán tính của đám mây ảnh trên trục chứa vectơ chỉ
Trang 28phương a.
Trang 29Kết luận: Không gian r chiều F r cần tìm có cơ sở là r vectơ chỉ phương tươngứng với r giá trị riêng lớn nhất (theo thứ tự giảm dần của ma trận VM)
Các vectơ riêng a của VM được gọi là các trục chính
2.3.2.2 Nhân tố chính
Với trục chính a, ta xác định một vectơ u Ma gọi là nhân tố chính
Từ VMa a ta có MVMa
Ma
hay MVu u nên u là vectơ riêng của MV
tương ứng với giá trị riêng của MV
Bảng 2.1: Mối liên hệ giữa trục chính, nhân tố chính và các thành phần chính
Trang 30Để tìm trục chính ta cần giải phương trình VMa= a (VM E)a 0
Phương trình trên có nghiệm khác 0 khi và chỉ khi |VM-E | = 0, định thức
|VM-E | là đa thức bậc p của
Thuật toán tìm các giá trị riêng:
Tiếp tục thuật toán trên với A(k) sau khi đã có
của phương trình đặc trưng nói trên
k 1 giá trị riêng và k 1 vectơ riêng
2.4 Phân tích thành phần chính với ma trận hệ số tương quan
Trong rút gọn đám mây số liệu hay phân tích thành phần chính với ma trận hệ sốtương quan người ta sử dụng metric M = D1/ 2 Điều này tương đương với dùngMetric M =E đối với bảng số liệu đã chuẩn hóa (Z) tương ứng với bảng số liệu banđầu (X)
Vì ma trận hiệp phương sai của bảng số liệu đã trung tâm hóa và chuẩn hóa chính
là ma trận hệ số tương quan R, nên các nhân tố chính sẽ là các vectơ riêng của R.Vectơ u được xác định nhờ phương trình Ru u , với ||
Thành phần chính đầu tiên c là tổ hợp tuyến tính của các biến đã được chuẩn hóa
có độ phân tán cực đại c Xu Người ta chứng minh được tổng bình phương các hệ
số tương quan tuyến tính của c với các cột của ma trận X cực đại, tức là
p
j1r (c, X j
)
đạt giá trị cực đại
Trang 31Điều này có nghĩa là các vectơ thành phần chính c có liên hệ chặt chẽ nhất với các biến ban đầu.
Trang 32 Phân tích nhân tố bằng phương pháp thành phần chính là việc thay thế p biến ban đầu, có quan hệ tương quan với nhau bằng một số biến mới là tổ hợp tuyến tínhcủa chúng Các biến này không tương quan với nhau sao cho giữ được sự khác biệttối đa giữa các các thể nhưng lại đảm bảo được sự liên hệ tối đa của chính các biếnban đầu Đây thực chất là một cách phân tích nhân tố tuyến tính nhờ các phép biếnđổi tuyến tính.
2.5 Phân tích kết quả phân tích thành phần chính
Nếu p biến hoàn toàn độc lập thì việc phân tích nhân tố bằng phương pháp thànhphần chính không đem lại lợi ích gì vì nếu ma trận hệ số tương quan là ma trận đơn
vị thì mỗi vectơ của X là một thành phần chính và hầu như chúng vuông góc vớinhau Mỗi biến phản ánh một mặt độc lập của các cá thể, không có gì phải phântích, trong trường hợp này, bỏ đi biến nào ta mất đi hoàn toàn thông tin về các cáthể có trong biến đó Do đó giả thuyết quan trọng của phân tích nhân tố chính là cácbiến có quan hệ tương quan tuyến tính với nhau
2.5.1 Các kiểm định chung
Trong phân tích nhân tố bằng phương pháp thành phần chính người ta thực hiệncác kiểm định về sự hợp lý của các biến tham gia phân tích Hai kiểm định thườngdùng là kiểm định khi bình phương qua thống kê Bartlett và KMO
ma trận hệ số tương quan giữa các biến
Thống kê này phân phối Khi bình phương với p(p-1)/2 bậc tự do
Trang 33+ Kiểm định KMO (Kaiser-Mayer-Olkin):
Trang 342 2
rij
Với p biến: KMO = j 1 i j
rij ijTrong đó: rij
j 1 i j j1 i j
là hệ số tương quan của các biến
a* là các hệ số của ma trận hệ số tương quan riêng phần của các cặp biến trong điềukiện của tất cả các biến khác (anti-image correlation)
Yêu cầu KMO > 0,5
Ma trận Anti-image correlation: Đây là ma trận đóng vai trò quan trọng trong việc lựa chọn các biến cho quá trình phân tích
Anti i, j
a* 1,i j KMO(i),i j
2.5.2 Tương quan của các thành phần và các biến ban đầu định danh các thành phần chính
Tương quan của các biến gốc và các thành phần chính:
Để phản ánh mức tương quan này ta tính r(c,Xj) là hệ số tương quan của các thành phần chính với các biến ban đầu
Chọn Metric D1/s2 hay chọn metric M=E cho số liệu trung tâm hóa Z Ta có:
u T Z T DZ Z T DZu
r(c, X ) j j j
Trang 35Phân tích trên chỉ thực sự có ý nghĩa khi ta so sánh hai thành phần chính, Giả sử
c1,c2 là hai thành phần chính ứng với giá trị riêng lớn nhất, một biến V sẽ có hai hệ
số tương quan r1
, r2 theo hai thành phần chính này Hai hệ số này biểu diễn bởi mộtđiểm trên hệ trục tọa độ hai chiều, ví dụ ( hình 2.1)
Hình 2.1
Trong ví dụ này, ta nhận thấy c1
có quan hệ với X j chặt chẽ hơn c2
, nó mangnhiều thông tin về X j hơn c
Trang 362.5.3 Phép quay các trục trong không gian ảnh
Trang 37Trong không gian ảnh r chiều tạo bởi r trục chính, mỗi cá thể sẽ biểu diễn bởi rgiá trị trên r biến mới (các trục chính) Hỗ trợ việc định danh các thành phần chínhngười ta sử dụng các phép quay hệ trục trong không gian ảnh sao cho các biến cótọa độ lớn càng lớn hơn, đồng thời các biến có tọa độ nhỏ càng nhỏ hơn
Các phép quay thường dùng là:
- Varimax: một phép quay trực giao với các trục với mục đích giảm số biến có hệ
số tương quan cao với mỗi thành phần chính để có thể dễ dàng hơn trong việc địnhdanh các thành phần chính
- Quartimax: phép quay trực giao các trục chính với mục đích giảm số trục chínhtương quan với mỗi biến gốc để dễ dàng hơn trong việc giải thích, nhận diện các cáthể qua các quan sát
- Equamax: Phép quay kết hợp varimax và quartimax với mục đích tìm các liên hệđơn giản nhất có thể giữa các biến gốc và các thành phần chính
- Direct oblimin: Vẫn với mục đích trên, phép quay không trực giao này yêu cầumột giá trị tham số quay ban đầu Giá trị tham số này bằng 0 sẽ làm cho lời giải làcác trục ít vuông góc nhất có thể
- Promax: Phép quay không trục giao thuận tiện với cơ sở dữ liệu lớn Hệ số(Kappa ) cần chọn là bậc lũy thừa trong khi lập ma trận quay từ ma trận 1/2(tích của ma trận vectơ riêng và ma trận đường chéo căn bậc hai các giá trị riêng)
2.5.4 Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính
Ta nói rằng c1 quan hệ chặt chẽ với Xj có nghĩa là các cá thể có tọa độ lớn trêntrục thứ nhất được đặc trưng bởi một giá trị lớn hơn giá trị trung bình (người ta nói rằng gốc của trục này chính là tâm của đám mây số liệu)
Các đại lượng đặc trưng cho các cá thể:
Trang 382
2
Có thể tính cho mỗi trục như vậy mức đóng góp của các cá thể trên trục đó Nếu c k
là thành phần chính thì c i là giá trị của thành phần chính này tương ứng với cá thể
+ Tổng mức phản ánh cá thể i trong không gian chiếu (QLT)
Tổng lượng thông tin phản ánh được qua r thành phần chính đối với cá thể i là:
r
QLTr(i)= CO2 k (i)
k 1
Phân tích thành phần chính đối với các biến về mặt hình thức hoàn toàn giốngnhư đối với các cá thể Điểm khác biệt là trong phân tích này người ta không sửdụng khoảng cách Ơ-clit mà sử dụng khoảng cách giữa các biến dựa trên hệ sốtương quan Khoảng cách giữa hai cột j và h được tính theo công thức:
Trang 39Ta có: d 2
X ,
X 21 r
j h jh
Trang 40* Quan hệ giữa các điểm dòng trong R p và các điểm cột trong Rn
Quán tính của X và XT chiếu lên trục thứ k bằng nhau và bằng
2.6 Tiêu chuẩn chọn số thành phần chính cho một phân tích
2.6.1 Tiêu chuẩn lý thuyết
Thông thường ta sẽ dùng r thành phần chính tương ứng với r giá trị riêng đầu tiênxếp theo thứ tự giảm dần 1 , 2 ,…,
n
với điều kiện các giá trị riêng r1 , r2 ,….,
p sai khác nhau không đáng kể Nó hàm ý rằng các nhân tố tiếp theo không phảnánh được các đặc trưng khác nhau của các cá thể
Giả thuyết được kiểm định là: