Luận văn thạc sĩ chuyên ngành Xác xuát -thống kê -Chuyên đề :Khảo sát tính phụ thuộc giữa nhiều tập biến
Trang 1Chương 1
Mở đầu
Mỗi hàng của ma trận dữ liệu X cấp n x p được coi như một cá thể đặc trưng bởi p giá trị theo thứ tự của p biến, còn mỗi cột diễn tả ø quan trắc trên n cá thể của biến tương ứng Trong không gian R?, ta đưa vào tích vô hướng xác định bởi ma trận px p xác định dương M Nếu u € R? là một véc tơ M-chuẩn hóa, thì XMu là thành phần của ma trận X theo trục u Để định nghĩa các đặc trưng của các biến ta xét không gian (R",D), với D = diag(đ, ,đ„)
n xác định dương và $7 d; = 1 Khi đó gọi Xụ; là hàng thứ h của X, ta định
i=1
nghĩa E(XMu) ae dX (n)Mu Tu nay ta giả thiết mọi ma trận dữ liệu được
h=1
quy tâm, tức kỳ vọng nói trên luôn luôn bằng 0 Khi đó ta định nghĩa
Var(XMu) = J an(X (n)Mu)? = ||XMul = UMX'DXMU
h=1
Phân tích thành phần chính (TPC) một ma trận dữ liệu X cấp ø x p là một
phương pháp rất thông dụng trong thống kê nhiều chiều Người ta muốn tìm
thành phần XMh; của ma trận X theo một trục bị € R?, b1 Mbi = 1, sao cho
Var(XMb;¡) = |XMb¡ lộ, lớn nhất có thể được, đó là thành phần chính thứ
nhất Tiếp đó, người ta tìm thành phần XMb; sao cho ||XMba|lŸ, lớn nhất
Trang 2CHUONG 1 MG DAU 2
có thể được nhưng với ràng buộc bạ € bị, đó là thành phần chính thứ hai,
. Như vậy, thành tích của phân tích TPC là, cứ cho ma trận dữ liệu X, sẽ phát hiện một hệ trục {bị, bạ, } M-trực chuẩn trong R?, với tính chất đặc
trưng là, gọi Aj = Var(XMbi), À3 = Var(XMb;), , ma trận hiệp phương
sai X'DX sẽ có phân tích phổ với các giá trị riêng A? > A3 > và các véc
tơ riêng tương ứng bị, bạ, Phân tích giá trị kỳ dị của ma trận x SẼ CÓ các giá trị kỳ dị theo thứ tự là Ai > À¿ > > 0 và các véc tơ kỳ dị bên phải tương ứng bị, b›, Tổng quát, với ma trận X„x„„ bất kỳ, ta nói (a, b) là một
bộ véc tơ kỳ dị trái, phải ứng với giá trị kỳ dị A (> 0) nếu X'DXMb = \2b
và XMX 'Da = A?a, aDa = b'Mb = 1
Mở rộng ý tưởng trên đây về phân tích thành phần chính một ma trận dữ
liệu, Lafosse (1997) đã đặt vấn đề phát hiện mối phụ thuộc của một ma trận
dữ liệu X cấp » x p theo một ma trận dữ liệu Y cấp ø xạ Ở đây ta có hai ánh
xạ X và Y vào không gian R”, từ các không gian R? và R# được trang bị các
tích vô hướng M và N theo thứ tự Theo quan điểm tối ưu, trước hết phải tìm
hai véc tơ chuẩn hóa, ai € RP và bị € R# sao cho Cov(XMai, YNb¡) lớn nhất
có thể được Tiếp đó, tìm các véc tơ chuẩn héa ag € a†M và bạ € bi sao
cho Cov(XMa¿;,YNb;) lớn nhất có thể được, Như vậy, vấn đề toán học là
cực đại hóa liên tiếp hàm số a'MX'DYNb, và lời giải được cho bởi phân tích giá trị kỳ dị của ma trận X'DY; (ai, bị), (a›, bạ), chính là các bộ véc tơ kỳ
di trái, phải tương ứng lần lượt với các giá trị kỳ dị À¡ = Cov(XMai, YNb¡),
Às = Cov(XMa;,YNb), , À¡ >Às> >0
Sau đó Lafosse và Hanafi (1997), Hanafi và Lafosse (2001) đã đặt vấn
dé rộng hơn, là phát hiện mối phụ thuộc giữa một bộ ma trận dữ liệu (Xi., Xi), X; có cấp n x pị, với một ma trận đữ liệu Ynxq, Cac khong gian tương ứng là (R”,M;) và (R!,N), ¿ = 1, ,! Hai ông đã tìm các
Trang 3CHƯƠNG 1 MỞ ĐẦU 3
véc tơ chuẩn hóa aj € (RP,M;), ¡ = 1, ,! và bị € (R%N) sao cho
l
` Cov?(X;M;a¡¡, YNb¡) lớn nhất có thể được, sau đó tìm các véc tơ chuẩn
i=1
1
hoa aig € aj", i=1, ,1 va be € by sao cho So Cov? (X;Miaiz, YNb2) lớn
nhất có thể được, Như vậy, vấn đề dẫn đến cực đại hóa liên tiếp ham số
i=l
Trong bài này chúng tôi nhằm vào ømặt oán bọc lý thuyết của uấn đề
phat biện mối pbụ tbuộc giữa các ma trận dữ liệu, đó là bài toán cực đại
hóa từng buớc một hàm số ma trận /(ei, ,e;,b), với công cụ giải bài toán
là phân tích giá trị kỳ dị Các nghiệm từng bước của bài toán cực đại hóa sẽ thỏa những hệ thức đặc biệt Khi áp dụng vào các ma trận dữ liệu, các hệ thức này có ý nghĩa thống kê rõ ràng