Quán tính đám mây điểm theo các độ đo khác nhau:Quán tính tại tâm của đám mây điểm tương ứng với ma trận X xác định theo công thức: Ig =traceMV trong đó V là ma trận hiệp phương sai của
Trang 1Chương 7: Phân tích nhân tố
Trang 2Mở đầu
1 2
… i
….
n
Cá thể i X(i) Rp
Cần nhận biết sự giống (khác) nhau từ đó phân nhóm, xếp hạng
Trang 3• Vấn đề khi phân tích các cá thể với p biến:
- Các biến tương quan tuyến tính lẫn nhau
Trang 4Xác định r véc tơ n chiều đôi một trực giao có dạng
Mỗi véc tơ Uk gọi là một nhân tố (hay còn gọi là một biến
Trang 5Thông tin về biến động của tổng thể
• Thông tin về biến động của tổng thể = Sự khác biệt của các cá thể
• Khác biệt của 2 cá thể = Khoảng cách
Xác định khoảng cách
Trang 67.1.2 Bài toán với các biến
……
Xp
Biến j X(j) Rn
Trang 77.2 Phân tích nhân tố (EFA)
bằng phương pháp thành phần chính
7.2.1 Bài toán: Tìm hệ trục tọa độ r- vuông góc sao cho hình chiếu của n
cá thể lên không gian tạo bởi hệ trục này bảo tồn được tối đa sự khác biệt của các cá thể ban đầu
Xuất phát của bài toán này là bài toán giảm số chiều của không gian
7.2.2 Cấu trúc: Mỗi chiều của không gian chiếu tương ứng một véc tơ
chỉ phương k – gọi là một trục chính {k } trực giao.
Mỗi cá thể (i) có ảnh trên trục chính k : cik Ck =(cik) gọi là thành phần chính thứ k.
Phép biến đổi tuyến tính: Ck=Xuk = uk1X1 + uk2X2 +…+ ukpXp
uk gọi là nhân tố chính thứ k.
Tìm {k } hoặc {uk } sao cho độ biến động của {Ck } lớn nhất
Trang 97.3.1.2 Ma trận trọng số: Ma trận trong số D của các quan sát là ma trận
đường chéo cấp nxn Với đường chéo chính là các trọng số của các cá thể
Trang 107.3.1.3 Tâm đám mây số liệu và ma trận
trung tâm hóa
Tâm đám mây số liệu: Trung bình các véc tơ dòng
Mô tả đại số:
Gọi I là véc tơ n chiều có tất cả các thành phần bằng 1
Tâm đám mây số liệu là véc tơ:
Ma trận trung tâm hóa (Y) là ma trận lập từ X với tất
cả các véc tơ dòng trừ véc tơ trung bình của chúng
Trang 117.3.1.4 Ma trận hiệp phương sai và ma trận hệ số tương quan
Tương quan biến động của các cá thể: ma trận hệ số tương quan và ma trận hiệp phương sai.
j
x X z
s
Trang 13Mở rộng công thức trên với trọng số của các biến {aj }
Với A là ma trận đường chéo có các phần tử {aj }
Trang 147.3.2.2 Khoảng cách M (Meteric M)
Tổng quát (7.6) với M là ma trận xác định dương hay đơn giản hơn là ma trận đường chéo dương- gọi là ma trận độ đo Khoảng cách giữa hai điểm
trong không gian tuyến tính xác định theo độ đo M là d(X1,X2) với:
Tương ứng tích vô hướng của hai véc tơ là:
Và chuẩn của véc tơ X là:
Trang 15Minh họa khoảng cách
• Xét 3 DN trong tập hợp n DN cùng ngành với 3 chỉ tiêu
ID LĐ (ng) VON (ty) CN (công nghệ)
Chọn M và tính Khoảng cách giữa các DN với 3 chỉ tiêu này
-Mỗi chỉ tiêu chọn 1 trọng số dương (tổng bằng 100): xác định M
-Mỗi chỉ tiêu tính giá trị trung bình, min, max (của n DN)? Cần làm gì để xác định M
Trang 167.3.2.3 Quán tính
Để đặc trưng cho sức ì của một đám mây điểm người ta sử dụng một đại lượng gọi là quán tính (hay tổng quán tính) Quán tính tại tâm g của 1 đám mây điểm được xác định như sau:
Với mọi a của Fp, Ig thỏa mãn Ig Ia
Ngoài ra:
Với M = E, p i 1/n biểu thức trên cho thấy 2 lần tổng quán tính bằng bình
phương khoảng cách giữa điểm của đám mây.
Trang 17Quán tính đám mây điểm theo các độ đo khác nhau:
Quán tính tại tâm của đám mây điểm tương ứng với ma trận X xác định theo công thức: Ig =trace(MV) trong đó V là ma trận hiệp phương sai của X
Trong bài toán phân tích nhân tố có 2 độ đo thường được lựa chọn.
- Với M=E:
- Với M=D1/s :
Sử dụng M = E: phân tích theo ma trận hiệp phương sai
Sử dụng M = D1/s: phân tích theo ma trận hệ số tương quan
g
p
j j
Trang 187.3.3 Không gian biến
Không gian sinh từ các biến trong phân tích nhân tố ký hiệu En gồm các véc tơ với các giá trị nhận được từ n cá thể độc lập.
Trong En khoảng cách được định nghĩa khác với khoảng cách trong Fp
Lý do chính là các biến nói chung có thứ nguyên khác nhau Với các biến thông thường người ta quan tâm đến quan hệ của chúng Vì lý
do đó các độ đo quan hệ được sử dụng nhiều hơn Các khoảng cách thông thường là:
- Hệ số tương quan (tuyến tính, hạng)
- Chỉ số đo độ tương tự
- Chỉ số đo độ khác biệt
- Chỉ số đo độ độc lập
Trang 197.4 TẠO BIẾN, PHÉP CHIẾU TRONG KHÔNG GIAN
TUYẾN TÍNH
7.4.1 Tạo biến mới
Các thành phần chính C (biến mới) được thiết lập như các tổ hợp tuyến tính của các biến Xj.
Mối quan hệ giữa giữa C và các biến Xj thể hiện qua các hệ số tổ hợp
tuyến tính (U)
Việc lựa chọn các thành phần chính qui về việc tìm phép biến đổi p véc tơ
X trong En thành một số véc tơ trong Rn, mỗi véc tơ là 1 thành phần chính C
Việc tạo biến thực hiện nhờ phép chiếu trong không gian tuyến tính.
7.4.2 Phép chiếu
Phép chiếu P trong không gian tuyến tính RP lên một không gian con Rk có thể mô tả như sau:
Trang 20Trường hợp chiếu A (B) lên R1 : Ảnh của điểm A trong Rp chiếu lên R1 sinh bởi véc tơ chỉ phương a1 là fA (fB) Nếu trên 1 xác định một điểm gốc 0
và một độ dài đơn vị thì trên trục này A (B) sẽ có giá trị cA (cB):
cA
x 0
A x
fA
x 1
1
AB x
fB
fA
CB
Trang 21Hình ảnh phép chiếu tuyến tính trong không gian 2 chiều
Trang 22Gọi u là véc tơ các hệ số tổ hợp X thành C thì có thể biểu diễn u=Ma với M là ma trận độ đo trong Rk
Trong (7.12) a là véc tơ chỉ phương của trục , u là véc tơ các hệ
số tổ hợp X thành C Quan hệ a và u như sau:
Phương sai mỗi thành phần chính C là mức bảo toàn quán tính của đám mây điểm trên trục chính tương ứng Có thể tính
được giá trị này như sau:
V(C) =CTDC=(Xu)T D(Xu)=uT XT DXu=uT (V+ggT )u
Với X đã trung tâm hóa ta có: V(C) =uTVu (7.13)
Trang 237.5 PHÂN TÍCH THÀNH PHẦN CHÍNH
7.5.1 Phép chiếu lên không gian con
Phép chiếu P từ Rp lên Rk với k<<p với mỗi phép chiếu P, ảnh của cá thể i trên Rk là fi thì: fi =PXi*
Phép chiếu P, M –vuông góc từ Rp lên Rk là phép chiếu sao cho với a là một véc tơ sinh ra F: (Px, x-Px)M = 0
Trang 24Với phép chiếu vuông góc P áp dụng cho ma trận qui tâm X, ma trận hiệp phương sai của đám mây ảnh có thể xác định theo công thức:
V(XPT) = (XPT)TD (XPT) = PVPT
Suy ra quán tính của đám mây ảnh là:
Trace(PVPTM) = Trace(VMP)
Bài toán tìm P: Tìm phép chiếu P sao cho với k cho trước Trace(VMP) lớn nhất.
Định lý: Với r=k không gian con F k có quán tính đám mây ảnh lớn nhất theo k thì không gian con có r=k+1, F k+1 có quán tính đám mây ảnh lớn nhất là tổng vuông góc của F 1 có quán tính đám mây ảnh lớn nhất với không gian con F k
Hệ quả: Có thể tìm không gian con k chiều để phép chiếu có phương sai đám
mây ảnh lớn nhất bằng cách tìm lần lượt các trục (R 1 ) đối một vuông góc có
Trang 25Xác định P: gọi W là không gian các dòng của X Tìm P sao cho
(x-Px) vuông góc với mọi véc tơ trong W
Với P là phép chiếu tuyến tính thì ảnh của x có dạng Px=xb Nếu
W chứa các véc tơ dạng xu thì:
( xui)TM( x-Px)=0 với mọi ui
Tức là: xTMx= xTMPx
XTM X= XTMXb b= (XTMX)-1XTM X Tìm được b tức là tìm được P.
Xb= X(XTMX)-1XTM X = [X(XTMX)-1XTM] X
P= X(XTMX)-1XTM
Có thể xác nhận P thỏa mãn các tính chất 1, 2
Trang 267.5.2 Trục chính, thành phần chính và nhân tố chính
7.5.2.1 Trục chính
Với a là một véc tơ chỉ phương trong Fp, có thể viết lại P như sau:
P= a(aTMa)-1aTM (do Px: trục sinh ra bởi a)
Quán tính đám mây ảnh trên trục tương ứng là:
Trace(VMP) = Trace(VM a(aTMa)-1aTM)
Trang 27Lời giải bài toán
Chú ý: Nếu a là nghiệm của Aa= a thì ka cũng là nghiệm của
phương trình này, để a xác định người ta chọ a có ||a||=1
0 )
Ma a (
Ma 2 ) MVMa a
( MVMa 2
) Ma a
( a
Ma a
MVMa a
2 T
T T
T T
a
MVMa a
T
Maa
MVMaa
Trang 28MVu=u (mỗi tương ứng với một u và ngược lại)
Dễ thấy nếu ||a||=1 thì ||u||=1
Vì các trục chính đôi một vuông góc các nhân tố chính u cũng
Trang 297.5.2.3 Phương sai của thành phần chính
Thành phần chính (Ci) là các véc tơ nhận được từ phép biến đổi (phép chiếu) X lên các trục i:
Ci =Xui [tổng quát C=Xu]
Tính chất: + V(C )=
CM: V(C)= CTMC = uTXTM Xu = uTVu
Thay: Vu=M-1u:
V(C)= uTM-1u =aTMTM-1Ma= aTMa= ||a||=
+ C là véc tơ riêng của XMXTD
CM: MVu =u, trong đó V=XTDX
MXTDXu=u XMXTDXu=Xu Thay Xu = C ta có: XMXTDC=C
Trang 30Thành phần phân tích Phương trình xác định Độ đo
Nhân tố chính u MVu = u Chuẩn M-1
Thành phần chính c XMXTc = c D- trực giao
Các liên hệ c =Xu, ; u=Ma
Tóm tắt phân tích thành phần chính
Trang 317.5.3 Xác định và chọn số thành phần chính
(đọc giáo trình trg 425-428)
Trang 327.5.4 Tái hiện dữ liệu
• k<p : Định lý EKar-Yuong: Tổng r số hạng đầu trong các biểu thức trên chính
là xấp xỉ tốt nhất r chiều của X.
Dữ liệu gốc (X1, X2, ,Xp)
Xi* Rp
Ảnh dữ liệu gốc (C1, C2, ,Ck)
T j
j u M c u M u
1 T j
1 T
j
c X
Trang 337.6 PHÂN TÍCH THÀNH PHẦN CHÍNH VỚI MA
TRẬN HỆ SỐ TƯƠNG QUAN
Trong các Metric hay được sử dụng, để có thể bỏ qua thứ nguyên (đơn vị đo) của các biến, người ta thường chọn một kiểu đo trên
cơ sở chuẩn hoá Lý do này làm cho việc chọn Metric M = D1/s trở
thành thông dụng Có thể nói việc sử dụng Metric này tương đương với
việc rút gọn đám mây số liệu (hay còn gọi là phân tích thành phần
chính với ma trận hệ số tương quan).
Thành phần chính đầu tiên c là tổ hợp tuyến tính của các biến
đã được chuẩn hoá có độ phân tán cực đại: c = Xu Người ta chứng
minh được tổng bình phương các hệ số tương quan tuyến tính của c với các cột cuả ma trận X (các biến phân tích) là cực đại Nó được
đo bởi tương ứng.
r c X
Trang 34Phân tích thành phần chính
• Phân tích nhân tố bằng phương pháp thành phần chính là việc thay thế p biến ban đầu, có quan hệ tương quan với nhau, bằng một số các biến mới là
tổ hợp tuyến tính của chúng.
• Các biến này không tương quan với nhau sao cho giữ được sự khác biệt tối đa giữa các cá thể,
nhưng lại đảm bảo được sự liên hệ tối đa của
chính các biến ban đầu
• Đây thực chất là một cách phân tích nhân tố tuyến tính, nhờ phép biến đổi tuyến tính.
Trang 35Phân tích nhân tố bằng phương pháp thành phần chính
Trang 367.7 PHÂN TÍCH KẾT QUẢ PHÂN TÍCH THÀNH PHẦN CHÍNH
7.1 Các kiểm định chung
+ Kiểm định Bartlett:
H0: Ma trận hệ số tương quan R=E (phân tích nhân tố không phù hợp)
H1: Ma trận hệ số tương quan R≠E (phân tích nhân tố phù hợp)
Trang 37+ Kiểm định KMO (Kaiser- Mayer – Olkin)
Kiểm định KMO sử dụng để kiểm tra tính phù hợp của mẫu đối với phân
r KMO
Trang 38+ Lựa chọn biến với Communality và KMOj
- Sử dụng thông tin từ bảng Communalities: Bảng này cung cấp thông
tin về tỷ lệ phương sai của từng biến chiết xuất được trong phân tích Biến có tỷ lệ chiết xuất nhỏ (<= 0.1) được khuyến cáo nên loại khỏi phân tích
- Sử dụng thông tin từ ma trận Anti-Image correlaion:
• Một phân tích tốt cần có các hệ số ngoài đường chéo chính nhỏ
• Đường chéo ma trận này chính là các hệ số KMOj Các biến nên chọn theo thứ tự giảm dần của các hệ số này.
Trang 39Sử dụng tệp Cars.sav minh họa các thông tin phân tích
Thủ tục: FACTOR /VARIABLES mpg engine horse weight
accel
• Bảng giá trị riêng (i) và tỷ lệ bảo toàn phương sai
Trang 40Thông tin kiểm định KMO
KMOj
Trang 417.2 Tương quan của các thành phần và các biến ban đầu định
j j
Trang 42Với c1 và c2 là hai thành phần
chính tương ứng với hai giá trị riêng
lớn nhất, mỗi biến Xj sẽ có tương
ứng hai hệ số tương quan r1 và r2
theo hai thành phần chính này Hai
hệ số này biểu diễn bởi 1 điểm trên
Có thể chọn biến phân tích từ đây hoặc
từ bảng Communalities 1 biến có hệ số Component quá nhỏ trên tất cả các trục thì nên loại khỏi phân tích
Có thể chọn biến phân tích từ đây hoặc
từ bảng Communalities 1 biến có hệ số Component quá nhỏ trên tất cả các trục thì nên loại khỏi phân tích
R(C 1 , Miles per Gallon)= - 0.874
Trang 437.3 Tương quan của các thành phần và các biến ban đầu định danh các thành phần chính
+ Tỷ lệ đóng góp của biến Xj cho thành phần chính thứ k
Thành phần chính thứ k (Ck) có phương sai k thỏa mãn:
tỷ lệ đóng góp của biến Xj cho trục chính thứ k:
Trang 44
+ Định danh thành phần chính (trường hợp có hơn 1 thành phần chính)
Sử dụng tỷ lệ đóng góp của biến Xj cho trục chính thứ k (hoặc |r(ck, Xj)|) :
r 2 tỷ lệ r 2 tỷ lệ Miles per Gallon 0.764 0.196 0.050 0.070Engine Displacement 0.912 0.234 0.018 0.025
biến định danh cho C
Trang 45• Phép quay các trục trong không gian ảnh (hỗ trợ định danh các thành phần chính)
Varimax: Một phép quay trực giao
Số biến có hệ số tương quan cao với mỗi thành phần chính ít nhất,
Quartimax: Một phép quay trực giao
Số trục chính có hệ số tương quan cao với mỗi biến gốc ít nhất,
Equarrmax: Một phép quay trực giao
Kết hợp Varimax và Quartimax,
Direct Omlimin: phép quay không trực giao
Vẫn với mục đích trên (Varimax và Quartimax)
Yêu cầu một giá trị tham số quay ban đầu (mặc định là bằng 0) Giá trị tham
số này bằng 0 sẽ làm cho lời giải là các trục ít vuông góc nhất có thể SPSS cho phép chọn tham số quan ban đầu nhỏ hơn 0,8
Promax: Phép quay không trực giao
Thuận tiện với cơ sở dữ liệu lớn
Yêu cầu xác định Hệ số (Kappa: cần chọn là bậc lũy thừa trong khi lập ma trận quay từ ma trận Lamda: =-1/2 : tích của ma trận véc tơ riêng và ma trận đường chéo căn bậc 2 của các giá trị riêng)
Xem thí dụ trang 436-437
Trang 467.4 Các hệ số phản ánh liên hệ của các cá thể và các thành phần chính
- Trọng số (POID): PODk(i) = mi /n (chung cho tất cả các thành phần chính)
- Khoảng cách đến tâm của đám mây điểm (INR i ):
- Đóng góp tương đối của cá thể i cho thành phần chính thứ k (CTR):
i
i k k
k
p c CTR i
Trang 47Kỹ thuật phân tích thành phần chính trên SPSS
• Với file … sav (hhexp98.sav) Từ màn hình Editor:
1 Chọn: Analyse\ Dimension Reduction\Factor hộp thoại: Factor analyse
2 Chọn: - Các biến phân tích từ cửa số biến chuyển vào hộp Variables
- Chọn biến xác định phạm vi phân tích (nếu cần) và chỉ định điều kiện (sử dụng nút Value)
Trang 48Kỹ thuật phân tích thành phần chính trên SPSS
• Với file … sav (hhexp98.sav) Từ màn hình Editor:
3 Chọn: Descriptives (mô tả thổng kê)
Mô tả các biến Giải pháp xuất phát
Ma trận hệ số tương quan ước lượng từ kết quả
phân tích nhân tố (Reproduced)
Ma trận Anti- Image
Trang 49Kỹ thuật phân tích thành phần chính trên SPSS
• Với file … sav (hhexp98.sav) Từ màn hình Editor:
4 Chọn: Extraction
Chọn phương pháp phân tích
Chọn cơ sở phân tích và hiển thị
Chọn tiêu chuẩn trích xuất nhân tố
- Dựa trên giá trị riêng của R (COV)
- Xác định số nhân tố cần chọn
Chọn số bước lặp cho khi giải bài toán
Trang 50Kỹ thuật phân tích thành phần chính trên SPSS
• Với file … sav (hhexp98.sav) Từ màn hình Editor:
5 Chọn: Rotation (phép qua trục tọa độ trong không gian ảnh)
Các phương pháp quay trục tọa độ
được giải thích chi tiết trong GT (trang
436)
Chọn hiển thị bằng bảng hoặc biểu đồ
Trang 51Kỹ thuật phân tích thành phần chính trên SPSS
• Với file … sav (hhexp98.sav) Từ màn hình Editor:
5 Chọn: Score (ghi giá trị C và u)
- Ghi lại các thành phần chính như các biến mới
Trong tệp dữ liệu
Chọn phương pháp tính
- Hiển thị trong Output các véc tơ nhân tố
tương ứng với các thành phần chính đã ghi
Trang 52Kỹ thuật phân tích thành phần chính trên SPSS
• Với file … sav (hhexp98.sav) Từ màn hình Editor:
6 Kiểm tra một số quan hệ
• Kiểm tra các hệ số Component, Phương trình phân rã phương sai các biến phân tích Thí dụ: Với các biến phân tích (comped98 educyr98 hhsize ricexpd nonrice educnexp), chọn 2 thành phần chính, ghi các thành phần chính và hiển thị các hệ số (u) Kết quả:
Trang 55• Các thủ tục tương ứng với các phương pháp phân tích nhân tố với Stata
Kỹ thuật phân tích thành phần chính trên Stata
Trang 56Bài tập thực hành
• Sử dụng file hhexp98vn.sav, Chọn 1 tỉnh/TP theo có mã tỉnh/TP theo mã sinh viên
(Danh sách lớp học phần)
- Phân tích nhân tố trên Spss với các biến:
• ricexpd, nonrice, totnfdx1, totnfdhp, otheredu, educnexp, insrx12m, hhexp12m, durbuser, tobacco, rentexp3.
+ Ghi lại các biến mới và hiển thị các nhân tố chính
+ Hệ số tương quan của các biến với các thành phần chính
+ Định danh các thành phần chính (sử dụng phép quay trục tọa độ nếu cần thiết)
+ Tính toán lại giá trị thống kê KMO và Bartlett
+ Kiểm tra một quan hệ: Thành phần chính hồi qui theo các biến phân tích