1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp phân tích thành phần chính và ứng dụng với SPSS

54 95 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 1,7 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chương 2 Lý thuyết phân tích thành phần chính PCA Trong đó p là trọng số của mỗi cá thể đại diện cho một dòng chúng thường là các i tần suất dòng trong bảng số liệu thô Nếu mỗi dòng của

Trang 1

VỚI SPSS

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Chuyên ngành: Toán Ứng dụng

HÀ NỘI - 2018

Trang 3

LỜI CẢM ƠN

Để hoàn thành tốt khóa luận tốt nghiệp với đề tài “Phương pháp phân tích thành phần chính và ứng dụng với spss”, tôi đã nhận được rất nhiều sự hướng dẫn,

giúp đỡ tận tình của các thầy cô, bạn bè

Tôi chân thành cảm ơn thầy giáo – PGS.TS Trần Trọng Nguyên Thầy đã trực tiếp chỉ bảo, tận tình hướng dẫn tôi trong suốt quá trình nghiên cứu, thực hiện đề tài Tôi chân thành cảm ơn quý Thầy, Cô trong Khoa Toán, Trường Đại học Sư phạm Hà nội 2, đặc biệt là tổ Ứng dụng đã tạo điều kiện và thời gian cho tôi trong suốt quá trình nghiên cứu Thầy cô cũng là những người truyền đạt cho tôi những kiến thức nền tảng để thực hiện khóa luận này

Tôi xin cảm ơn những người thân, bạn bè luôn bên tôi, động viên tôi học tập và hoàn thành khóa luận

Do lần đầu tiên làm quen với công tác nghiên cứu khoa học hơn nữa do thời gian

và kiến thức chuyên môn còn hạn chế nên mặc dù đã có nhiều cố gắng song khóa luận không tránh khỏi những thiếu sót, tôi rất mong sự góp ý, chỉ bảo thêm của quý thầy cô và các bạn sinh viên

Tôi xin chân thành cảm ơn!

Sinh viên Đoàn Thị The

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của cá nhân tôi với sự cố vấn của thầy giáo PGS.TS Trần Trọng Nguyên Tất cả các nguồn tài liệu đã được công

bố đầy đủ, nội dung của khóa luận là trung thực

Sinh viên

Đoàn Thị The

Trang 5

MỤC LỤC

LỜI MỞ ĐẦU 1

Chương 1 Kiến thức chuẩn bị 3

1.1 Momen quán tính 3

1.1.1 Momen quán tính của chất điểm, hệ chất điểm đối với tâm 3

1.1.2 Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng 3

1.2 Tích vô hướng của hai vectơ 3

1.3 Biến ngẫu nhiên và các đặc trưng của biến ngẫu nhiên 4

1.3.1 Biến ngẫu nhiên 4

1.3.2 Các đặc trưng số của biến ngẫu nhiên 5

1.3.3 Ma trận hiệp phương sai, ma trận hệ số tương quan 7

1.4 Giá trị riêng, vectơ riêng, vết của ma trận vuông 7

1.4.1 Giá trị riêng, vectơ riêng của ma trận 7

1.4.2 Vết của ma trận (Trace A) 7

Chương 2 Lý thuyết phân tích thành phần chính (PCA) 9

2.1 Mô tả số liệu 9

2.1.1 Số liệu và các đặc trưng 9

2.1.2 Không gian các cá thể ( p E ) 11

2.1.3 Không gian các biến ( n F ) 12

2.2 Tạo biến – phép chiếu lên không gian tuyến tính 12

2.2.1 Tạo biến mới 12

2.2.2 Phép chiếu lên không gian tuyến tính 13

2.3 Phương pháp phân tích thành phần chính 14

2.3.1 Phép chiếu lên không gian con 14

2.3.2 Trục chính, nhân tố chính và các thành phần chính 15

2.3.3 Xác định  và chọn số thành phần chính 16

2.4 Phân tích thành phần chính với ma trận hệ số tương quan 17

2.5 Phân tích kết quả phân tích thành phần chính 18

2.5.1 Các kiểm định chung 18

2.5.2 Tương quan của các thành phần và các biến ban đầu định danh các thành phần chính 19

Trang 6

2.5.3 Phép quay các trục trong không gian ảnh 20

2.5.4 Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính 21

2.5.5 Phân tích các biến trong n R 22

2.6 Tiêu chuẩn chọn số thành phần chính cho một phân tích 23

Chương 3 SPSS và ứng dụng trong phân tích thành phần chính 25

3.1 Giới thiệu phần mềm SPSS 25

3.1.1 Tổng quan 25

3.1.2 Giới thiệu phần mềm SPSS 25

3.2 Phân tích thành phần chính với SPSS 29

Bài toán 1 29

Bài toán 2 41

KẾT LUẬN 47

TÀI LIỆU THAM KHẢO 48

Trang 7

LỜI MỞ ĐẦU

1 Lý do chọn đề tài

Trong công tác nghiên cứu thực nghiệm, ta thu thập được những bộ dữ liệu thường được thể hiện dưới dạng bảng các giá trị số của nhiều cá thể Chúng tạo thành “đám mây số liệu” khá phức tạp và việc tìm hiểu thông tin từ đó gặp khó khăn Một trong những phương pháp hiệu quả trong xử lý số liệu nhiều chiều là phương pháp phân tích thành phần chính – Principal component analysis (PCA) Ý tưởng của phương pháp này là:

+ Giúp giảm số chiều của dữ liệu

+ Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ

+ Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ + Trong không gian mới các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn

PCA được áp dụng để phân tích dữ liệu trong rất nhiều lĩnh vực như nông nghiệp, kinh tế, y tế và các ngành khoa học khác

Với mong muốn được tìm hiểu sâu hơn về lý thuyết phân tích thành phần chính

và cách thức phân tích dữ liệu bằng phương pháp phân tích thành phần chính trong spss tôi đã chọn đề tài “Phương pháp phân tích thành phần chính và ứng dụng với spss”

2 Mục đích nghiên cứu

Tìm hiểu về một phương pháp phân tích dữ liệu thống kê nhiều chiều

3 Nhiệm vụ nghiên cứu

Nghiên cứu về ý tưởng của phương pháp phân tích thành phần chính và ứng dụng của mô hình này kết hợp sử dụng phần mềm thống kê SPSS để phân tích một số bộ

dữ liệu cụ thể

4 Phương pháp nghiên cứu

Một số phương pháp nghiên cứu được sử dụng trong khóa luận đó là:

Trang 8

Phân tích, tổng hợp các tài liệu về phương pháp phân tích thành phần chính

Thu thập và xử lý dữ liệu nhiều chiều bằng phương pháp phân tích thành phần chính trên SPSS

5 Cấu trúc của khóa luận

Nội dung của khóa luận gồm 3 chương:

Chương 1: “Các kiến thức chuẩn bị” trình bày các khái niệm toán học, thống kê

có liên quan đến phân tích thành phần chính

Chương 2: “ Lý thuyết phân tích thành phần chính” thể hiện ý tưởng của phương pháp phân tích thành phần chính và phân tích kết quả phân tích thành phần chính Chương 3: “SPSS và ứng dụng trong phân tích thành phần chính” giới thiệu về phần mềm SPSS và các bước thực hiện phân tích thành phần chính với một số bài toán phân tích dữ liệu cụ thể

Trang 9

Chương 1 Kiến thức chuẩn bị

1.1 Momen quán tính

1.1.1 Momen quán tính của chất điểm, hệ chất điểm đối với tâm

Momen quán tính của chất điểm m đối với tâm O là đại lượng được định nghĩa

1.1.2 Momen quán tính của chất điểm, hệ chất điểm đối với đường thẳng

Momen quán tính của chất điểm m đối với đường thẳng d

2 /(d)

1.2 Tích vô hướng của hai vectơ

Định nghĩa 1.1 Cho hai vectơ uvkhác 0,  là góc hợp bởi uv Tích vô hướng của hai vectơ uvđược ký hiệu là u v là một số, được xác định bởi

| u || v | cos

Nếu uv thì u v  0

Nếu u v || thì u v  | u || v |

Trang 10

Biểu thức tọa độ của tích vô hướng:

+ Trong không gian 2 chiều: u(u , u )1 2 , v(v , v )1 2 thì u vu v1 1u v2 2

Trong mặt phẳng Ox x1 2, cho điểm M x x 1, 2,đường thẳng  có vectơ chỉ phương

Chú ý: Nếu 2 vectơ uv là hai vectơ đơn vị thì u v  cos 

Do đó trong không gian p chiều với u( 1, 2, ,p) và v( 1, 2, ,p) là các vectơ đơn vị,  là góc hợp bởi giữa uv thì cos     1 1 2 2   p p

1.3 Biến ngẫu nhiên và các đặc trƣng của biến ngẫu nhiên

1.3.1 Biến ngẫu nhiên

Định nghĩa 1.2 (biến ngẫu nhiên một chiều):

Cho không gian xác suất ( , P) Một biến ngẫu nhiên với giá trị thực là một hàm số

đo được trên một không gian xác suất, X : ( , P) R

Định nghĩa 1.3 (biến ngẫu nhiên nhiều chiều): Cho X X1, 2, ,X là các biến ngẫu n

nhiên một chiều xác định trên không gian xác suất ( , P) Với mỗi , ta có thể làm phép tương ứng với một điểm X( ) (X1( ), X2( ), , X n( )) của không gian Ơ-clit n chiều

Trang 11

Ánh xạ   n lập bởi các vectơ ngẫu nhiên X X1, 2, ,X được gọi là một biến n

ngẫu nhiên n chiều

1.3.2 Các đặc trưng số của biến ngẫu nhiên

1.3.2.1 Kỳ vọng

Định nghĩa 1.4 (Kỳ vọng toán của biến ngẫu nhiên một chiều)

Trên không gian xác suất ,F P,  cho biến ngẫu nhiên X có hàm phân phối xác suất F(x) Kỳ vọng toán của X là một số ký hiệu là E(X) hay  và được định nghĩa như sau:

R tồn tại kỳ vọng thì ER được xác định như sau:

Nếu X Y, là hai biến ngẫu nhiên rời rạc thì    i, j ij

1.3.2.2 Phương sai, độ lệch chuẩn

Định nghĩa 1.5 Phương sai của biến ngẫu nhiên X được ký hiệu là V (X) (var(X)) hay 2(X) và được xác định như sau:

   

     

2 2

Trang 12

Định nghĩa 1.6 Căn bậc hai của phương sai của biến ngẫu nhiên X được gọi là độ

lệch tiêu chuẩn của biến ngẫu nhiên X, nó được ký hiệu là (X)hays và X

1.3.2.3 Hiệp phương sai

Định nghĩa 1.7 Hiệp phương sai của hai biến ngẫu nhiên X Y, được ký hiệu là

cov(X, Y) và được xác định như sau:

Định nghĩa 1.8 Hệ số tương quan tuyến tính giữa hai biến ngẫu nhiênXY được

ký hiệu và xác định như sau (X, Y) cov(X, Y)

Trang 13

Ý nghĩa: Thể hiện độ mạnh mối quan hệ tuyến tính giữa X và Y

r 1 thì tương quan tuyến tính của hai biến thuận chặt chẽ

r 1 thì tương quan tuyến tính của hai biến nghịch chặt chẽ

r0 thì hai biến không tương quan với nhau

1.3.3 Ma trận hiệp phương sai, ma trận hệ số tương quan

Ma trận hiệp phương sai:

cov(X , X ) cov(X , X ) cov(X , X )

n n

1.4 Giá trị riêng, vectơ riêng, vết của ma trận vuông

1.4.1 Giá trị riêng, vectơ riêng của ma trận

Ứng với mỗi giá trị riêng 0ta xét hệ | A0I | u0 (1)

Các vectơ khác không là nghiệm của hệ (1) gọi là các vectơ riêng của ma trận A ứng với giá trị riêng 0

  với i là các giá trị riêng của A

+ Cho A, B là các ma trận vuông cùng cấp, c là hằng số, khi đó:

Trang 15

Chương 2 Lý thuyết phân tích thành phần chính (PCA)

Trong đó p là trọng số của mỗi cá thể đại diện cho một dòng (chúng thường là các i

tần suất dòng trong bảng số liệu thô)

Nếu mỗi dòng của X tương ứng duy nhất một cá thể thì trọng số của các cá thể như

Trang 16

2.1.1.3 Trung tâm của đám mây số liệu và ma trận trung tâm hóa

Mỗi cá thể được xem là một điểm trong không gian p

R , n điểm tạo nên một tập hợp gọi là một “đám mây số liệu” Điểm trung tâm của đám mây số liệu là T

2.1.1.4 Ma trận hiệp phương sai và ma trận hệ số tương quan

Đây là đặc trưng quan trọng nói đến mức phân tán của mỗi biến và độ liên hệ giữa chúng

Ma trận hiệp phương sai (Var(X)):

Ma trận hệ số tương quan:

Gọi ma trận D 1/ s là ma trận đường chéo với các thành phần là 1/Se(X )j 1/ sj

1

2 1/

 hay ZYD 1/S

Ta có RY Z1 (Y DY) YT 1ZZ Y T( 1) (Y DY) YT T 1ZZ DZ T

Trang 17

Vì Z có vectơ trung tâm là vectơ 0 nên R cũng chính là ma trận hiệp phương sai của

là ma trận có đường chéo là nghịch đảo của các phương sai của các biến )

Ta có thể biến đổi từ khoảng cách M sang khoảng cách Ơ-clit bằng cách thay

Trang 18

Nếu thay tâm g bởi một điểm a nào đó thì theo công thức Huyghens

,cos

2.2 Tạo biến – phép chiếu lên không gian tuyến tính

2.2.1 Tạo biến mới

Trang 19

Trong phân tích thống kê, ta tổng hợp thông tin để theo đó có được những hiểu biết

về tổng thể mà mỗi cá thể không thể hiện được bằng cách tạo ra các biến mới là tổ hợp tuyến tính của các biến ban đầu

2.2.2 Phép chiếu lên không gian tuyến tính

Trong không gian các biến F, phép tổ hợp tuyến tính các vectơ X j ( j1 p) tạo nên các vectơ mới trong F Với các vectơ này các cá thể trong E được biểu diễn bằng các vectơ mới trong E’ có số chiều nhỏ hơn E rất nhiều, chúng chính là hình chiếu của các vectơ ban đầu trên hệ tọa độ mới của F

Một điểm (một dòng của X) với cá thể i: *

với uMa là một vectơ trong F, c là hình chiếu của X trên u

Như vậy, c là tổ hợp tuyến tính của các cột trong ma trận X

Metric của a là T

a Ma thì metric của u là u M u T 1

(c) cT (Xu)T (Xu) uT T T

Trang 20

Biểu thức trên cho thấy khả năng bảo tồn sự biến động của các cá thể cũng như các biến đã được mô tả trong X bởi vectơ c

2.3 Phương pháp phân tích thành phần chính

2.3.1 Phép chiếu lên không gian con

2.3.1.1 Phép chiếu lên không gian con

Xét P là phép chiếu các cá thể nên không gian con r chiều

Với phép chiếu P, mỗi vectơ dòng của X sẽ được biến đổi thành một vectơ trong F r

qua công thức *

fPX hay f i TX P i T

2.3.1.2 Phép chiếu vuông góc các cá thể lên không gian con

Xét không gian con E, p chiều của các cá thể x

P là một phép chiếu M vuông góc nếu (G là không gian con có số chiều lớn nhất bằng p) và Px x, Px0

P là một phép chiếu M vuông góc đến không gian con Fr thì P có các tính chất sau : + P2 P ( P lũy đẳng)

Giả sử W là không gian ảnh các dòng của X, các vectơ trong W có dạng Xu

P là một phép biến đổi tuyến tính (E : W) nên PxXb

P phải thỏa mãn điều kiện xPx vuông góc với mọi vectơ của W nên

Xu x i, Px 0 với mọi i  1, , n

Trang 21

Trace Trace

a MVMa

a Ma

 là giá trị riêng của

VM Giá trị riêng này chính là quán tính của đám mây ảnh trên trục chứa vectơ chỉ phương a

Trang 22

Kết luận: Không gian r chiều  F cần tìm có cơ sở là r rvectơ chỉ phương tương ứng với rgiá trị riêng lớn nhất (theo thứ tự giảm dần của ma trận VM)

Các vectơ riêng a của VM được gọi là các trục chính

2.3.2.2 Nhân tố chính

Với trục chính a, ta xác định một vectơ uMa gọi là nhân tố chính

Từ VMaa ta có MVMaMa hay MVuu nên u là vectơ riêng của MV tương ứng với giá trị riêng  của MV

Trang 23

Để tìm trục chính ta cần giải phương trình VMa=a (VME)a0

Phương trình trên có nghiệm khác 0 khi và chỉ khi |VM-E| = 0, định thức

|VM-E| là đa thức bậc p của 

Thuật toán tìm các giá trị riêng:

Tiếp tục thuật toán trên với A(k)

sau khi đã có k1 giá trị riêng và k1 vectơ riêng của phương trình đặc trưng nói trên

2.4 Phân tích thành phần chính với ma trận hệ số tương quan

Trong rút gọn đám mây số liệu hay phân tích thành phần chính với ma trận hệ số tương quan người ta sử dụng metric M = D1/s2 Điều này tương đương với dùng Metric M =E đối với bảng số liệu đã chuẩn hóa (Z) tương ứng với bảng số liệu ban đầu (X)

Vì ma trận hiệp phương sai của bảng số liệu đã trung tâm hóa và chuẩn hóa chính

là ma trận hệ số tương quan R, nên các nhân tố chính sẽ là các vectơ riêng của R Vectơ u được xác định nhờ phương trìnhRuu, với || u || 1

Thành phần chính đầu tiên c là tổ hợp tuyến tính của các biến đã được chuẩn hóa

có độ phân tán cực đại cXu Người ta chứng minh được tổng bình phương các hệ

số tương quan tuyến tính của c với các cột của ma trận X cực đại, tức là

Trang 24

 Phân tích nhân tố bằng phương pháp thành phần chính là việc thay thế p biến ban đầu, có quan hệ tương quan với nhau bằng một số biến mới là tổ hợp tuyến tính của chúng Các biến này không tương quan với nhau sao cho giữ được sự khác biệt tối đa giữa các các thể nhưng lại đảm bảo được sự liên hệ tối đa của chính các biến ban đầu Đây thực chất là một cách phân tích nhân tố tuyến tính nhờ các phép biến đổi tuyến tính

2.5 Phân tích kết quả phân tích thành phần chính

Nếu p biến hoàn toàn độc lập thì việc phân tích nhân tố bằng phương pháp thành phần chính không đem lại lợi ích gì vì nếu ma trận hệ số tương quan là ma trận đơn

vị thì mỗi vectơ của X là một thành phần chính và hầu như chúng vuông góc với nhau Mỗi biến phản ánh một mặt độc lập của các cá thể, không có gì phải phân tích, trong trường hợp này, bỏ đi biến nào ta mất đi hoàn toàn thông tin về các cá thể có trong biến đó Do đó giả thuyết quan trọng của phân tích nhân tố chính là các biến có quan hệ tương quan tuyến tính với nhau

2.5.1 Các kiểm định chung

Trong phân tích nhân tố bằng phương pháp thành phần chính người ta thực hiện các kiểm định về sự hợp lý của các biến tham gia phân tích Hai kiểm định thường dùng là kiểm định khi bình phương qua thống kê Bartlett và KMO

Trong đó W là tổng trọng số của X, p là số biến dùng phân tích, |R| là định thức của

ma trận hệ số tương quan giữa các biến

Thống kê này phân phối Khi bình phương với p(p-1)/2 bậc tự do

Trang 25

Với mỗi biến j: KMOj =

2 ij

a là các hệ số của ma trận hệ số tương quan riêng phần của các cặp biến trong điều

kiện của tất cả các biến khác (anti-image correlation)

Yêu cầu KMO > 0,5

 Ma trận Anti-image correlation: Đây là ma trận đóng vai trò quan trọng trong việc lựa chọn các biến cho quá trình phân tích

 ,

Anti i j

*

ij 1,(i),i j

a i j KMO

Tương quan của các biến gốc và các thành phần chính:

Để phản ánh mức tương quan này ta tính r(c,Xj) là hệ số tương quan của các thành phần chính với các biến ban đầu

Chọn Metric D1/s2 hay chọn metric M=E cho số liệu trung tâm hóa Z Ta có:

j

c DZ c DZ r

c DZ r

Trang 26

r r theo hai thành phần chính này Hai hệ số này biểu diễn bởi một

điểm trên hệ trục tọa độ hai chiều, ví dụ ( hình 2.1)

Hình 2.1

Trong ví dụ này, ta nhận thấy 1

c có quan hệ với X j chặt chẽ hơn c2, nó mang nhiều thông tin về X j hơn c2

Trang 27

Trong không gian ảnh rchiều tạo bởi rtrục chính, mỗi cá thể sẽ biểu diễn bởi r giá trị trên r biến mới (các trục chính) Hỗ trợ việc định danh các thành phần chính người ta sử dụng các phép quay hệ trục trong không gian ảnh sao cho các biến có tọa độ lớn càng lớn hơn, đồng thời các biến có tọa độ nhỏ càng nhỏ hơn

Các phép quay thường dùng là:

- Varimax: một phép quay trực giao với các trục với mục đích giảm số biến có hệ

số tương quan cao với mỗi thành phần chính để có thể dễ dàng hơn trong việc định danh các thành phần chính

- Quartimax: phép quay trực giao các trục chính với mục đích giảm số trục chính tương quan với mỗi biến gốc để dễ dàng hơn trong việc giải thích, nhận diện các cá thể qua các quan sát

- Equamax: Phép quay kết hợp varimax và quartimax với mục đích tìm các liên hệ đơn giản nhất có thể giữa các biến gốc và các thành phần chính

- Direct oblimin: Vẫn với mục đích trên, phép quay không trực giao này yêu cầu một giá trị tham số quay ban đầu Giá trị tham số này bằng 0 sẽ làm cho lời giải là các trục ít vuông góc nhất có thể

- Promax: Phép quay không trục giao thuận tiện với cơ sở dữ liệu lớn Hệ số (Kappa ) cần chọn là bậc lũy thừa trong khi lập ma trận quay từ ma trận   1/2

(tích của ma trận vectơ riêng và ma trận đường chéo căn bậc hai các giá trị riêng)

2.5.4 Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính

Ta nói rằng c1 quan hệ chặt chẽ với Xj có nghĩa là các cá thể có tọa độ lớn trên trục thứ nhất được đặc trưng bởi một giá trị lớn hơn giá trị trung bình (người ta nói rằng gốc của trục này chính là tâm của đám mây số liệu)

Các đại lượng đặc trưng cho các cá thể:

+ Trọng số (POID): POD i k m i /n

+ Khoảng cách đến tâm của đám mây điểm (INR):

2 ij 1

(X , g)

p i

Ngày đăng: 11/09/2019, 10:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w