Chương 2 Lý thuyết phân tích thành phần chính PCA Trong đó p là trọng số của mỗi cá thể đại diện cho một dòng chúng thường là các i tần suất dòng trong bảng số liệu thô Nếu mỗi dòng của
Trang 1VỚI SPSS
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: Toán Ứng dụng
HÀ NỘI - 2018
Trang 3LỜI CẢM ƠN
Để hoàn thành tốt khóa luận tốt nghiệp với đề tài “Phương pháp phân tích thành phần chính và ứng dụng với spss”, tôi đã nhận được rất nhiều sự hướng dẫn,
giúp đỡ tận tình của các thầy cô, bạn bè
Tôi chân thành cảm ơn thầy giáo – PGS.TS Trần Trọng Nguyên Thầy đã trực tiếp chỉ bảo, tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu, thực hiện đề tài Tôi chân thành cảm ơn quý Thầy, Cô trong Khoa Toán, Trường Đại học Sư phạm Hà nội 2, đặc biệt là tổ Ứng dụng đã tạo điều kiện và thời gian cho tôi trong suốt quá trình nghiên cứu Thầy cô cũng là những người truyền đạt cho tôi những kiến thức nền tảng để thực hiện khóa luận này
Tôi xin cảm ơn những người thân, bạn bè luôn bên tôi, động viên tôi học tập và hoàn thành khóa luận
Do lần đầu tiên làm quen với công tác nghiên cứu khoa học hơn nữa do thời gian
và kiến thức chuyên môn còn hạn chế nên mặc dù đã có nhiều cố gắng song khóa luận không tránh khỏi những thiếu sót, tôi rất mong sự góp ý, chỉ bảo thêm của quý thầy cô và các bạn sinh viên
Tôi xin chân thành cảm ơn!
Sinh viên Đoàn Thị The
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu độc lập của cá nhân tôi với sự cố vấn của thầy giáo PGS.TS Trần Trọng Nguyên Tất cả các nguồn tài liệu đã được công
bố đầy đủ, nội dung của khóa luận là trung thực
Sinh viên
Đoàn Thị The
Trang 5MỤC LỤC
LỜI MỞ ĐẦU 1
Chương 1 Kiến thức chuẩn bị 3
1.1 Momen quán tính 3
1.1.1 Momen quán tính của chất điểm, hệ chất điểm đối với tâm 3
1.1.2 Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng 3
1.2 Tích vô hướng của hai vectơ 3
1.3 Biến ngẫu nhiên và các đặc trưng của biến ngẫu nhiên 4
1.3.1 Biến ngẫu nhiên 4
1.3.2 Các đặc trưng số của biến ngẫu nhiên 5
1.3.3 Ma trận hiệp phương sai, ma trận hệ số tương quan 7
1.4 Giá trị riêng, vectơ riêng, vết của ma trận vuông 7
1.4.1 Giá trị riêng, vectơ riêng của ma trận 7
1.4.2 Vết của ma trận (Trace A) 7
Chương 2 Lý thuyết phân tích thành phần chính (PCA) 9
2.1 Mô tả số liệu 9
2.1.1 Số liệu và các đặc trưng 9
2.1.2 Không gian các cá thể ( p E ) 11
2.1.3 Không gian các biến ( n F ) 12
2.2 Tạo biến – phép chiếu lên không gian tuyến tính 12
2.2.1 Tạo biến mới 12
2.2.2 Phép chiếu lên không gian tuyến tính 13
2.3 Phương pháp phân tích thành phần chính 14
2.3.1 Phép chiếu lên không gian con 14
2.3.2 Trục chính, nhân tố chính và các thành phần chính 15
2.3.3 Xác định và chọn số thành phần chính 16
2.4 Phân tích thành phần chính với ma trận hệ số tương quan 17
2.5 Phân tích kết quả phân tích thành phần chính 18
2.5.1 Các kiểm định chung 18
2.5.2 Tương quan của các thành phần và các biến ban đầu định danh các thành phần chính 19
Trang 62.5.3 Phép quay các trục trong không gian ảnh 20
2.5.4 Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính 21
2.5.5 Phân tích các biến trong n R 22
2.6 Tiêu chuẩn chọn số thành phần chính cho một phân tích 23
Chương 3 SPSS và ứng dụng trong phân tích thành phần chính 25
3.1 Giới thiệu phần mềm SPSS 25
3.1.1 Tổng quan 25
3.1.2 Giới thiệu phần mềm SPSS 25
3.2 Phân tích thành phần chính với SPSS 29
Bài toán 1 29
Bài toán 2 41
KẾT LUẬN 47
TÀI LIỆU THAM KHẢO 48
Trang 7LỜI MỞ ĐẦU
1 Lý do chọn đề tài
Trong công tác nghiên cứu thực nghiệm, ta thu thập được những bộ dữ liệu thường được thể hiện dưới dạng bảng các giá trị số của nhiều cá thể Chúng tạo thành “đám mây số liệu” khá phức tạp và việc tìm hiểu thông tin từ đó gặp khó khăn Một trong những phương pháp hiệu quả trong xử lý số liệu nhiều chiều là phương pháp phân tích thành phần chính – Principal component analysis (PCA) Ý tưởng của phương pháp này là:
+ Giúp giảm số chiều của dữ liệu
+ Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ
+ Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ + Trong không gian mới các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn
PCA được áp dụng để phân tích dữ liệu trong rất nhiều lĩnh vực như nông nghiệp, kinh tế, y tế và các ngành khoa học khác
Với mong muốn được tìm hiểu sâu hơn về lý thuyết phân tích thành phần chính
và cách thức phân tích dữ liệu bằng phương pháp phân tích thành phần chính trong spss tôi đã chọn đề tài “Phương pháp phân tích thành phần chính và ứng dụng với spss”
2 Mục đích nghiên cứu
Tìm hiểu về một phương pháp phân tích dữ liệu thống kê nhiều chiều
3 Nhiệm vụ nghiên cứu
Nghiên cứu về ý tưởng của phương pháp phân tích thành phần chính và ứng dụng của mô hình này kết hợp sử dụng phần mềm thống kê SPSS để phân tích một số bộ
dữ liệu cụ thể
4 Phương pháp nghiên cứu
Một số phương pháp nghiên cứu được sử dụng trong khóa luận đó là:
Trang 8Phân tích, tổng hợp các tài liệu về phương pháp phân tích thành phần chính
Thu thập và xử lý dữ liệu nhiều chiều bằng phương pháp phân tích thành phần chính trên SPSS
5 Cấu trúc của khóa luận
Nội dung của khóa luận gồm 3 chương:
Chương 1: “Các kiến thức chuẩn bị” trình bày các khái niệm toán học, thống kê
có liên quan đến phân tích thành phần chính
Chương 2: “ Lý thuyết phân tích thành phần chính” thể hiện ý tưởng của phương pháp phân tích thành phần chính và phân tích kết quả phân tích thành phần chính Chương 3: “SPSS và ứng dụng trong phân tích thành phần chính” giới thiệu về phần mềm SPSS và các bước thực hiện phân tích thành phần chính với một số bài toán phân tích dữ liệu cụ thể
Trang 9Chương 1 Kiến thức chuẩn bị
1.1 Momen quán tính
1.1.1 Momen quán tính của chất điểm, hệ chất điểm đối với tâm
Momen quán tính của chất điểm m đối với tâm O là đại lượng được định nghĩa
1.1.2 Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng
Momen quán tính của chất điểm m đối với đường thẳng d
2 /(d)
1.2 Tích vô hướng của hai vectơ
Định nghĩa 1.1 Cho hai vectơ u và vkhác 0, là góc hợp bởi u và v Tích vô hướng của hai vectơ u và vđược ký hiệu là u v là một số, được xác định bởi
| u || v | cos
Nếu u v thì u v 0
Nếu u v || thì u v | u || v |
Trang 10Biểu thức tọa độ của tích vô hướng:
+ Trong không gian 2 chiều: u(u , u )1 2 , v(v , v )1 2 thì u v u v1 1u v2 2
Trong mặt phẳng Ox x1 2, cho điểm M x x 1, 2,đường thẳng có vectơ chỉ phương
Chú ý: Nếu 2 vectơ u và v là hai vectơ đơn vị thì u v cos
Do đó trong không gian p chiều với u( 1, 2, ,p) và v( 1, 2, ,p) là các vectơ đơn vị, là góc hợp bởi giữa u và v thì cos 1 1 2 2 p p
1.3 Biến ngẫu nhiên và các đặc trƣng của biến ngẫu nhiên
1.3.1 Biến ngẫu nhiên
Định nghĩa 1.2 (biến ngẫu nhiên một chiều):
Cho không gian xác suất ( , P) Một biến ngẫu nhiên với giá trị thực là một hàm số
đo được trên một không gian xác suất, X : ( , P) R
Định nghĩa 1.3 (biến ngẫu nhiên nhiều chiều): Cho X X1, 2, ,X là các biến ngẫu n
nhiên một chiều xác định trên không gian xác suất ( , P) Với mỗi , ta có thể làm phép tương ứng với một điểm X( ) (X1( ), X2( ), , X n( )) của không gian Ơ-clit n chiều
Trang 11Ánh xạ n lập bởi các vectơ ngẫu nhiên X X1, 2, ,X được gọi là một biến n
ngẫu nhiên n chiều
1.3.2 Các đặc trưng số của biến ngẫu nhiên
1.3.2.1 Kỳ vọng
Định nghĩa 1.4 (Kỳ vọng toán của biến ngẫu nhiên một chiều)
Trên không gian xác suất ,F P, cho biến ngẫu nhiên X có hàm phân phối xác suất F(x) Kỳ vọng toán của X là một số ký hiệu là E(X) hay và được định nghĩa như sau:
R tồn tại kỳ vọng thì ER được xác định như sau:
Nếu X Y, là hai biến ngẫu nhiên rời rạc thì i, j ij
1.3.2.2 Phương sai, độ lệch chuẩn
Định nghĩa 1.5 Phương sai của biến ngẫu nhiên X được ký hiệu là V (X) (var(X)) hay 2(X) và được xác định như sau:
2 2
Trang 12Định nghĩa 1.6 Căn bậc hai của phương sai của biến ngẫu nhiên X được gọi là độ
lệch tiêu chuẩn của biến ngẫu nhiên X, nó được ký hiệu là (X)hays và X
1.3.2.3 Hiệp phương sai
Định nghĩa 1.7 Hiệp phương sai của hai biến ngẫu nhiên X Y, được ký hiệu là
cov(X, Y) và được xác định như sau:
Định nghĩa 1.8 Hệ số tương quan tuyến tính giữa hai biến ngẫu nhiênX và Y được
ký hiệu và xác định như sau (X, Y) cov(X, Y)
Trang 13Ý nghĩa: Thể hiện độ mạnh mối quan hệ tuyến tính giữa X và Y
r 1 thì tương quan tuyến tính của hai biến thuận chặt chẽ
r 1 thì tương quan tuyến tính của hai biến nghịch chặt chẽ
r0 thì hai biến không tương quan với nhau
1.3.3 Ma trận hiệp phương sai, ma trận hệ số tương quan
Ma trận hiệp phương sai:
cov(X , X ) cov(X , X ) cov(X , X )
n n
1.4 Giá trị riêng, vectơ riêng, vết của ma trận vuông
1.4.1 Giá trị riêng, vectơ riêng của ma trận
Ứng với mỗi giá trị riêng 0ta xét hệ | A0I | u0 (1)
Các vectơ khác không là nghiệm của hệ (1) gọi là các vectơ riêng của ma trận A ứng với giá trị riêng 0
với i là các giá trị riêng của A
+ Cho A, B là các ma trận vuông cùng cấp, c là hằng số, khi đó:
Trang 15Chương 2 Lý thuyết phân tích thành phần chính (PCA)
Trong đó p là trọng số của mỗi cá thể đại diện cho một dòng (chúng thường là các i
tần suất dòng trong bảng số liệu thô)
Nếu mỗi dòng của X tương ứng duy nhất một cá thể thì trọng số của các cá thể như
Trang 162.1.1.3 Trung tâm của đám mây số liệu và ma trận trung tâm hóa
Mỗi cá thể được xem là một điểm trong không gian p
R , n điểm tạo nên một tập hợp gọi là một “đám mây số liệu” Điểm trung tâm của đám mây số liệu là T
2.1.1.4 Ma trận hiệp phương sai và ma trận hệ số tương quan
Đây là đặc trưng quan trọng nói đến mức phân tán của mỗi biến và độ liên hệ giữa chúng
Ma trận hiệp phương sai (Var(X)):
Ma trận hệ số tương quan:
Gọi ma trận D 1/ s là ma trận đường chéo với các thành phần là 1/Se(X )j 1/ sj
1
2 1/
hay Z YD 1/S
Ta có RY Z1 (Y DY) YT 1Z Z Y T( 1) (Y DY) YT T 1Z Z DZ T
Trang 17Vì Z có vectơ trung tâm là vectơ 0 nên R cũng chính là ma trận hiệp phương sai của
là ma trận có đường chéo là nghịch đảo của các phương sai của các biến )
Ta có thể biến đổi từ khoảng cách M sang khoảng cách Ơ-clit bằng cách thay
Trang 18Nếu thay tâm g bởi một điểm a nào đó thì theo công thức Huyghens
,cos
2.2 Tạo biến – phép chiếu lên không gian tuyến tính
2.2.1 Tạo biến mới
Trang 19Trong phân tích thống kê, ta tổng hợp thông tin để theo đó có được những hiểu biết
về tổng thể mà mỗi cá thể không thể hiện được bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến ban đầu
2.2.2 Phép chiếu lên không gian tuyến tính
Trong không gian các biến F, phép tổ hợp tuyến tính các vectơ X j ( j1 p) tạo nên các vectơ mới trong F Với các vectơ này các cá thể trong E được biểu diễn bằng các vectơ mới trong E’ có số chiều nhỏ hơn E rất nhiều, chúng chính là hình chiếu của các vectơ ban đầu trên hệ tọa độ mới của F
Một điểm (một dòng của X) với cá thể i: *
với u Ma là một vectơ trong F, c là hình chiếu của X trên u
Như vậy, c là tổ hợp tuyến tính của các cột trong ma trận X
Metric của a là T
a Ma thì metric của u là u M u T 1
(c) cT (Xu)T (Xu) uT T T
Trang 20Biểu thức trên cho thấy khả năng bảo tồn sự biến động của các cá thể cũng như các biến đã được mô tả trong X bởi vectơ c
2.3 Phương pháp phân tích thành phần chính
2.3.1 Phép chiếu lên không gian con
2.3.1.1 Phép chiếu lên không gian con
Xét P là phép chiếu các cá thể nên không gian con r chiều
Với phép chiếu P, mỗi vectơ dòng của X sẽ được biến đổi thành một vectơ trong F r
qua công thức *
f PX hay f i T X P i T
2.3.1.2 Phép chiếu vuông góc các cá thể lên không gian con
Xét không gian con E, p chiều của các cá thể x
P là một phép chiếu M vuông góc nếu (G là không gian con có số chiều lớn nhất bằng p) và Px x, Px0
P là một phép chiếu M vuông góc đến không gian con Fr thì P có các tính chất sau : + P2 P ( P lũy đẳng)
Giả sử W là không gian ảnh các dòng của X, các vectơ trong W có dạng Xu
P là một phép biến đổi tuyến tính (E : W) nên PxXb
P phải thỏa mãn điều kiện xPx vuông góc với mọi vectơ của W nên
Xu x i, Px 0 với mọi i 1, , n
Trang 21Trace Trace
a MVMa
a Ma
là giá trị riêng của
VM Giá trị riêng này chính là quán tính của đám mây ảnh trên trục chứa vectơ chỉ phương a
Trang 22Kết luận: Không gian r chiều F cần tìm có cơ sở là r rvectơ chỉ phương tương ứng với rgiá trị riêng lớn nhất (theo thứ tự giảm dần của ma trận VM)
Các vectơ riêng a của VM được gọi là các trục chính
2.3.2.2 Nhân tố chính
Với trục chính a, ta xác định một vectơ uMa gọi là nhân tố chính
Từ VMaa ta có MVMaMa hay MVuu nên u là vectơ riêng của MV tương ứng với giá trị riêng của MV
Trang 23Để tìm trục chính ta cần giải phương trình VMa=a (VM E)a0
Phương trình trên có nghiệm khác 0 khi và chỉ khi |VM-E| = 0, định thức
|VM-E| là đa thức bậc p của
Thuật toán tìm các giá trị riêng:
Tiếp tục thuật toán trên với A(k)
sau khi đã có k1 giá trị riêng và k1 vectơ riêng của phương trình đặc trưng nói trên
2.4 Phân tích thành phần chính với ma trận hệ số tương quan
Trong rút gọn đám mây số liệu hay phân tích thành phần chính với ma trận hệ số tương quan người ta sử dụng metric M = D1/s2 Điều này tương đương với dùng Metric M =E đối với bảng số liệu đã chuẩn hóa (Z) tương ứng với bảng số liệu ban đầu (X)
Vì ma trận hiệp phương sai của bảng số liệu đã trung tâm hóa và chuẩn hóa chính
là ma trận hệ số tương quan R, nên các nhân tố chính sẽ là các vectơ riêng của R Vectơ u được xác định nhờ phương trìnhRuu, với || u || 1
Thành phần chính đầu tiên c là tổ hợp tuyến tính của các biến đã được chuẩn hóa
có độ phân tán cực đại cXu Người ta chứng minh được tổng bình phương các hệ
số tương quan tuyến tính của c với các cột của ma trận X cực đại, tức là
Trang 24 Phân tích nhân tố bằng phương pháp thành phần chính là việc thay thế p biến ban đầu, có quan hệ tương quan với nhau bằng một số biến mới là tổ hợp tuyến tính của chúng Các biến này không tương quan với nhau sao cho giữ được sự khác biệt tối đa giữa các các thể nhưng lại đảm bảo được sự liên hệ tối đa của chính các biến ban đầu Đây thực chất là một cách phân tích nhân tố tuyến tính nhờ các phép biến đổi tuyến tính
2.5 Phân tích kết quả phân tích thành phần chính
Nếu p biến hoàn toàn độc lập thì việc phân tích nhân tố bằng phương pháp thành phần chính không đem lại lợi ích gì vì nếu ma trận hệ số tương quan là ma trận đơn
vị thì mỗi vectơ của X là một thành phần chính và hầu như chúng vuông góc với nhau Mỗi biến phản ánh một mặt độc lập của các cá thể, không có gì phải phân tích, trong trường hợp này, bỏ đi biến nào ta mất đi hoàn toàn thông tin về các cá thể có trong biến đó Do đó giả thuyết quan trọng của phân tích nhân tố chính là các biến có quan hệ tương quan tuyến tính với nhau
2.5.1 Các kiểm định chung
Trong phân tích nhân tố bằng phương pháp thành phần chính người ta thực hiện các kiểm định về sự hợp lý của các biến tham gia phân tích Hai kiểm định thường dùng là kiểm định khi bình phương qua thống kê Bartlett và KMO
Trong đó W là tổng trọng số của X, p là số biến dùng phân tích, |R| là định thức của
ma trận hệ số tương quan giữa các biến
Thống kê này phân phối Khi bình phương với p(p-1)/2 bậc tự do
Trang 25Với mỗi biến j: KMOj =
2 ij
a là các hệ số của ma trận hệ số tương quan riêng phần của các cặp biến trong điều
kiện của tất cả các biến khác (anti-image correlation)
Yêu cầu KMO > 0,5
Ma trận Anti-image correlation: Đây là ma trận đóng vai trò quan trọng trong việc lựa chọn các biến cho quá trình phân tích
,
Anti i j
*
ij 1,(i),i j
a i j KMO
Tương quan của các biến gốc và các thành phần chính:
Để phản ánh mức tương quan này ta tính r(c,Xj) là hệ số tương quan của các thành phần chính với các biến ban đầu
Chọn Metric D1/s2 hay chọn metric M=E cho số liệu trung tâm hóa Z Ta có:
j
c DZ c DZ r
c DZ r
Trang 26r r theo hai thành phần chính này Hai hệ số này biểu diễn bởi một
điểm trên hệ trục tọa độ hai chiều, ví dụ ( hình 2.1)
Hình 2.1
Trong ví dụ này, ta nhận thấy 1
c có quan hệ với X j chặt chẽ hơn c2, nó mang nhiều thông tin về X j hơn c2
Trang 27Trong không gian ảnh rchiều tạo bởi rtrục chính, mỗi cá thể sẽ biểu diễn bởi r giá trị trên r biến mới (các trục chính) Hỗ trợ việc định danh các thành phần chính người ta sử dụng các phép quay hệ trục trong không gian ảnh sao cho các biến có tọa độ lớn càng lớn hơn, đồng thời các biến có tọa độ nhỏ càng nhỏ hơn
Các phép quay thường dùng là:
- Varimax: một phép quay trực giao với các trục với mục đích giảm số biến có hệ
số tương quan cao với mỗi thành phần chính để có thể dễ dàng hơn trong việc định danh các thành phần chính
- Quartimax: phép quay trực giao các trục chính với mục đích giảm số trục chính tương quan với mỗi biến gốc để dễ dàng hơn trong việc giải thích, nhận diện các cá thể qua các quan sát
- Equamax: Phép quay kết hợp varimax và quartimax với mục đích tìm các liên hệ đơn giản nhất có thể giữa các biến gốc và các thành phần chính
- Direct oblimin: Vẫn với mục đích trên, phép quay không trực giao này yêu cầu một giá trị tham số quay ban đầu Giá trị tham số này bằng 0 sẽ làm cho lời giải là các trục ít vuông góc nhất có thể
- Promax: Phép quay không trục giao thuận tiện với cơ sở dữ liệu lớn Hệ số (Kappa ) cần chọn là bậc lũy thừa trong khi lập ma trận quay từ ma trận 1/2
(tích của ma trận vectơ riêng và ma trận đường chéo căn bậc hai các giá trị riêng)
2.5.4 Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính
Ta nói rằng c1 quan hệ chặt chẽ với Xj có nghĩa là các cá thể có tọa độ lớn trên trục thứ nhất được đặc trưng bởi một giá trị lớn hơn giá trị trung bình (người ta nói rằng gốc của trục này chính là tâm của đám mây số liệu)
Các đại lượng đặc trưng cho các cá thể:
+ Trọng số (POID): POD i k m i /n
+ Khoảng cách đến tâm của đám mây điểm (INR):
2 ij 1
(X , g)
p i