Luận văn thạc sĩ chuyên ngành Xác xuát -thống kê -Chuyên đề :Khảo sát tính phụ thuộc giữa nhiều tập biến
Trang 1Chương 3
Phân tích sự phụ thuộc giữa hai ma trận dữ liệu
3.1 Các khái niệm để xử lý một ma trận dữ liệu
Cho ma trận dữ liệu thực X cấp n x p
Xa) Viế X= | ; | thin hàng của X gọi là n cá thể, cá thể là véc tơ trong
Xn)
(R”,M) với M là ma trận cấp p x p xác định dương
Viết X = (X¡ X¿) thì p cột của X gọi là p biến, biến là véc tơ trong (R",D) với D là ma trận cấp n x n xác định dương
n Xét D = diag(di, dn), di > 0, dn > 0, S> dy = 1, voi dy là trọng lượng
h=1
gán cho cá thể thứ h, h =1, ,m
Lap bé ba (X,M,D)
28
Trang 2CHƯONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU29
3.1.1 Trung bình và phương sai của biến
Ty
Cho bién x = | : | € (R",D)
Dy
n
e Trung bình của biến x là So ann
heat
n
Xét các biến quy tâm, tức là ` phai =0
h=1
Xu) CoiX=| : là đám mây n cá thể Xụ), ,Xựy, cá thé X(,) mang
X (n)
trọng lượng dụ, h = 1, ,n Khi đó, trọng tâm của đám mây X là
n
So dX (ny =(mị mạ) với mị là trung bình của biến thứ ¿ (cột thứ ¡ n=l
Cua X); 2 Slice wee
e Hiép phuong sai
Xét hai bién quy tamx= | : | vay=] : | Khi đó:
n
Cov(x,y) = (x,y)p = x/Dy = » dụ#bUh
h=1
n
Var(x) = Cov(x, x) = (x,x)p = x'Dx = ||x||R = 3 dụa?
h=1
e Hệ số tương quan giữa hai biến quy tâm x,y
Cov(x,y) p(my) = Var (x) \/Var(y)
(Cov(Xi,Xj)) ijet p @ ma tran hiệp phương sai của dữ liệu X
Trang 3CHUONG 3 PHAN TICH SU’ PHU THUOC GIỮA HAI MA TRẬN DỮ LIỆU30
p
r(XDX) = Seon (Xj, Xi) =À`Var(X,) gọi là phương sai toàn phần
i=l
của dữ liệu x
3.1.2 Phân tích quán tính của đám mây X theo một hệ trực chuẩn
Cho u¡, ,uy là một cơ sở trực chuẩn trong (R?,M)
Quán tính của cá thể (Xj), dy) doi với gốc 0 là:
|Xó›llẫrd¿ = XuyMX@jd,
Quán tính của cả đám mây X đối với gốc 0 là:
` XujMX(,jd, = Tr(XMXID) = Tr(X'DXM)
mm
Khi M=1 tì XMX'D = XX'D và Tr(XX'D) = Tr(X'DX)
Theo định lý 1, ta có:
P XMX'D = ` (XMu,u/)M(XMu;u/)/D
ij=l
p
= À` XMuu,Mu,uMXTD
ij=l
=) XMuuu/MX?D = À”w;wjD
với w¡ = XMu; là thành phần của X theo trục u¿
Với ma trận vuông A = (ø¡;) ta gọi diag(A) = diag(a11, đsa, )
Suy ra diag(XMX'D) = 5 diag(wiw!D)
Xú;Mu;
diag(w;w/D) = diag : (Xq)Muj Xn) Mu;)D
X(n)Muj
= diag(di(X(q)Muj)’, ,dn(X(n)Mu,)?)
Trang 4CHUONG 3 PHAN TICH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU31
=> diag(XMX'D) = Sain di(XuyMw,)Ÿ, ,dạ(XụMu;)?)
Mặt khác diag(XMX/ D)= = diag (X, MXqjäi, :› Xe›MX, yt):
Do 46 XyyMXt dn = 5 (XyMus)2py, R= lyre
i=1
Suy ra
T:(XMXD) - w)Mu¡)”d, = yy X (nyMus)"d
= i=l h=
=
=> (Var(XMu,))
3.1)
Nghia la:
Quán tính của đám mây X đối uới gốc 0 bằng tống pbương sai cdc thanh phan ctia X theo p trục trực chuẩn ty¿ ay lips
z
Néu cdc bang ctiaX thugc M(uj, ,w,) thi Tr(XMX'D) = > (Var(XMu,))
i=1
3.2, Nhac lai phan tich thanh phan chính
Cho ma trận đữ liệu thực X quy tâm cấp n x p (n> p)
Goi X = PAQ' 1a phân tích giá trị kỳ dị đầy đủ của X, với P'DP =1,
Q'MQ =I va A = diag(Ay, Ap), AL > > Ap =O
Khi đó phân tích phổ của X'DX là QA?Q/
Phương pháp phân tích thành phần chính là đi tìm một trục u trong (R?,M)
sao cho theo phương u, đám mây X có biến động nhiều nhất Nghĩa là ta
tim u € (R?,M) sao cho hàm số
f(u) = Var(XMu) = uUMX'DXMUu = ||XMu|l?
cực đại với uMu = 1 Đây chính là bài toán cực trị 1 ở chương 2
Gọi u¡ là nghiệm của bài toán này Khi đó u¡ được gọi là trục chính thứ
nhất, XMu¡ được gọi là thành phần chính thứ nhất và Var(XMun) = A? với
Trang 5CHƯƠNG 3 PHAN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU32
Aƒ là giá trị riêng lớn nhất của X/'DX (¿ là giá trị kỳ dị lớn nhất của X)
Bay giờ ta đi tìm trục chính thứ hai như sau: ta vẫn tìm u € (R?,M) sao cho hàm sé f(u) = uUMX'DXMu cực đại với uMu = 1 nhưng thêm ràng
buộc u.Lwui
Gọi u› là nghiệm của bước thứ hai này Khi đó uạ được gọi là trục chính
thứ hai, XMu; được gọi là thành phân chính thứ hai và Var(XMuạ) = DnB
Cứ tiếp tục như trên, ta tìm trục chính thứ (b + 1) như sau: ta vẫn tìm
u € (R“,M) sao cho hàm số ƒ(u) = uUMX'DXMUu cực đại với Mu = 1
nhưng thêm ràng buộc uLạ4(u¡,ua, ,u,) Cực đại chính là Âm = giá trị
riêng thứ (¡ + 1) của ma trận X'DX, ma trận hiệp phương sai của dữ liệu X
Khi ma trận X'DX có một giá trị riêng với bậc bội > 2, chẳng hạn À¡, theo
định lý 4 chương 2, sẽ có dim Ey = dimF = sị > 2, lúc đó max Var(XMu) = \?
sẽ đạt được với mọi u € F¡, uMu = 1 Các trục chính thứ 1, , thứ s¡ sẽ lập nên một cơ sở trực chuẩn nào đó của F¡ (không gian kỳ dị bên phải của
X ứng với À¡)
Trong thực hành phân tích thành phần chính, người ta dùng ma trận tương quan thay cho ma trận hiệp phương sai X'DX, điều đó có nghĩa trước hết ta
sẽ chuẩn hóa ma trận dữ liệu X sao cho mọi cột (biến) có kỳ vọng 0, phương
Sai 1
Quá trình tiếp tục chừng nào A¿¿¡ còn dương Vì vậy, số trục chính
= rank(X) <p
Từ bài toán 1 chương 1 ta có thể suy ra các trục chính chính là các véc tơ
kỳ dị bên phải trong phân tích giá trị kỳ dị thu gọn của X, vì theo định lý 1
chương 2 X = UAV’, do dé X'DX = VA?V’
Goi Q = (uy up), thi {u¡, ,u„} là một cơ sở trực chuẩn trong (R?,M) được bổ sung từ hệ các trục chính {u, ,u;}, r = rank(X), và Var(XMu,) =
Trang 6CHUONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU33
A? (¡=1, ,p), do đó Var(XMu;) = 0 (¡=r+1, ,p) khi r < p, tức, với ma
trận X quy tâm, XMu;=0_ Vi >r
3.3 Phân tích sự phụ thuộc giữa hai ma trận dữ liệu
Cho hai ma trận dữ liệu thực X cap n x p va Y cấp n x q quy tâm (nghĩa là các cột của X và Y quy tâm) tương ứng với hai bộ ba (X,M,D) và (Y,N,D)
M là ma trận xác định dương cấp p x ?
N là ma trận xác định dương cấp 4 x 4
D là ma trận xác định dương cấp n x n
Goi r = rank(X’/DY) < min{p, q}
0 tAj
Trước hết, ta tìm các cặp (a;,b¡) thỏa a;Ma; = b¿Nb; = i
1 ¿=j a; €IRP, b¿ € R# sao cho:
Cov(XMa;, YNb;) > 0
@.2)
Cov(XMa,,YNbj)=0_ /#7
Ta có phân tích giá trị kỳ dị thu gọn của X'DY là: X/DY = UAV’, trong
đó A là ma trận chéo cấp r xr xác định dương, U = (ai a„) là ma trận cấp
pxr thỏa UMU =I và V = (bị b„) là ma trận cấp q x r thỏa V”NV =I Theo tính chất 5 §2.3, với A = X'DY ta có:
a! MANb, = Cov(XMa;, YNb,) = 0 ( # 7)
và
a! MANb; = Cov(XMa;, YNb;) = \; > 0,
từ đó Var(XMa,) > 0, Var(YNbj) > 0 voi i,j =1, ,r
Suy ra các bộ véc tơ kỳ dị kết hợp trái, phải (a¿, b;) trong phân tích giá trị
kỳ dị thu gọn của A = X'DY là nghiệm của (3.2)
Trang 7CHƯƠNG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRAN DU LIEU34
Các nghiệm này cũng suy được từ bài toán 2 chương 2 với A = X'DY và
f(a,b) = a'MX'DYNb = Cov(XMa, YNb) Ở bài toán 2 chương 2, bước 1 ta
duge max Cov(XMa, YNb) = A; 1a gia tri kỳ dị lớn nhất của X'DY với mọi bộ két hgp (a,b), a € Ey, b € Fj, trong số đó ta chọn được sị (= dim Eị = dim E)
b6 (ai, bj) (i = 1, ,81) sao cho (aj, ,as,) va (bi, ,bs,) 1A cdc hé truc
chuẩn của E¡ và F theo thứ tự
Khi Y = X thì đây chính là bài toán phân tích thành phần chính
Ý nghĩa thống kê: từ hai đám mây X„x„ và Y„„„ ta tìm được z số À¡ > .> À, > 0 là các giá trị kỳ dị trong phân tích giá trị kỳ dị thu gọn của
A =XDY XMa, là tổ hợp tuyến tính đặc biệt của các cột (các biến) của
X và tương ứng YNb; là tổ hợp tuyến tính đặc biệt của các cột (các biến) của Y thỏa (3.2) Mỗi cặp (XMa;, YNb,) đại diện cho hai đám mây X và Y Khi đó, sự phụ thuộc giữa hai đám mây X và Y đưa về sự phụ thuộc giữa
hai thành phần XMa; và YNb; trong cùng một cặp (¿ = 1, ,7)
Do đó, ta sẽ phân tích hồi quy XMa; theo YNb¿
Bây giờ ta thực hiện z hồi quy tuyến tính đơn của XMa; theo YNb, (=1 ,r)
Goi đ; là hệ số hồi quy của XMa; theo YNb;¿
Cov(XMa;, YNb;)
Da = diag(f1, , 8)
là hệ số tương quan giữa XMa; và YNb;
C=(YNV)D(YNV)
Ta CÓ:
/ - Cov(XMa;, YNb;)
As t if 1 + f- eye + 1
6; = (bịNY?DYNb,)~!(b,NY'DXMa,) — W(VNb)
( Var(XMa;)
= pi
‘
bị
aE) A> 0 (i= 1, rn)
ener) PO MBE OG Loos oF)
Trang 8CHUONG 3 PHAN TICH SU’ PHU THUOC GIỮA HAI MA TRẬN DU LIEU35
Suy ra
D, = diag((1, , 8) = (diag C)“1A (3.4)
với A = V'NY'DXMU vì YfDX = VAUƯ
Vậy XMa; được ước lượng bởi 0;YNb; với 6; như trên, ¿ = 1, ,r
Suy ra XMU = (XMai: :XMa,) được ước lượng bởi
'YNb,) diag(/i đ,)
= YNVD,
Như vậy YNVD, là ước lượng cho XMU
Đặt
Suy ra X4 = YNVD,U’ la udc lugng cho XMUU’
Ý nghĩa của XMUU:: ta có U = (ay a;), XMUU! = > XMa¿a;j Theo
i=l
dinh ly 1 chuong 2, mdi cét cla (KMUU’)' = UU'MX’ thudc không gian căng trên các véc tơ ai, ,a; Nói cách khác, hệ {an, ,a;} “nuốt” hết ma trận ƯƯMX Thế mà {ai, ,a;} là bộ tối đa các véc tơ trực chuẩn sao cho
bộ thành phần {XMai, ,XMa,} có tương quan (Cov # 0) với các thành phần tương ứng {YNbi, ,YNb,} Vì vậy theo quan điểm chỉ xét phần
của X có tương quan với Y, ta sẽ ước lượng X' bởi UƯ'MX/ hay XMUƯ' là ước lượng của X
Do đó, ta có Xã = YNVDaU” là ước lượng cho X
Trang 9CHUONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRAN DU LIEU36
Néu Var(YNb;) = 1, i=1, ,r, thi đặt K = YNV Khi đó:
X= YNVD,U! = KD,U’
=K(diagC)'AU’ (tt (3.4), lic nay diag C =I, mơ
= KVNY'DXMUƯ' =KV'NVAU' =KV'NY'DX :
=KKDX
: hình chiếu của X trên không gian căng trên các cột (YNbi, ,YNb,) khi các cột này trực chuẩn
Ta gọi Xa là ảnh tương đồng của X với Y và Xz = X~ Xa là ảnh không tương đồng toàn phần của X với Y
3.4 Khái niệm LAI
Trước hết ta chứng minh quán tính đối với gốc 0 của X bằng tổng quán tính
cla X4 va Xp, tức là Tr(X'DXM) = Tr(X4DXAM) + Tr(XzDX;M) Thật vậy, ta có Ma; = (0 1 0), suy ra:
X4Ma; = YNVD,U Ma, =YNb,, ¿=1, r (3.7) X4MUU! = YNVD,U'MUU! = YNVD,U' = X4 @.8)
chứng tỏ các hàng của Xu thuộc A4(a1 ,a;)
Từ Œ.3) suy ra:
Var(XuMa,) = Var(0;YNb;) = 6? Var(YNb;)
@.9)
=p? Var(XMa;) Vi=1, ,r
Từ (3.1) và (3.9) ta có:
,
Tr(XAMX/D) = ` Var(XuMa,)
= ` p? Var(XMa,)
i=1
Trang 10CHUONG 3 PHAN TICH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIEU37
Mặt khác, ta lại có:
X'DX¿ = XDYNVD,Ư = U(AD,)U' = XDX (3.11)
hay (X + X/,)DX4 = X/,D(Xp + Ky)
Từ đó X,DXu = XDXz
Suy ra
Tr(X'DX4M) = Tr(UAD,UM) = Tr(D„A)
= `, Cov(XMa,, YNb;)
=]
>> "
= ys ø‡Var(XMa,)_ (từ (3.3))
i=1
Từ (3.10) và (3.12) ta suy ra
Tr(X¿MX,D) = Tr(XDXAM) (= Tr(D¿A))
= Tr(X4DXAM) + Tr(X+DXuM)
Do đó
Tr(XpDX 4M) = Tr(X/,DXM) = 0 (3.14)
vay
0 < Tr(X/DXM) = Tr((X4 + X7)/D(X4 + Xr)M) "
= Tr(X/,DX 4M) + Tr(X+DXzM)
Đó là hệ thức cần có
(3.14) có nghĩa (Xz,X¿) =0, dùng tích vô hướng, tức X;LXa Vậy theo
định lý Pythagore, từ X = Xa + Xz có ngay |IXI? = |IXall?+ |IXz|l?, đó chính
là hệ thức (3.15)
Trang 11CHUONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRAN DU LIEU38
Ta đặt
_ T(X,DXAM)
<
0< LAI
là chỉ số dùng để đo mức độ tương đồng của bộ (X,M,D) với bộ (Y,N,D)
Để do mức độ không tương đồng toàn phần của (X,M,D) với (Y,N,D),
ta dùng chỉ số:
So 17)
0<1— LÃI, Ly] — hXÐĐXM) Ê
Vài tính chất của LAI:
Œ) Khi X = Xa thì LAI = 1, ngược lại khi LAI = 1 ta có:
Tr(X/¿DXzM) = ` XuyxMXIj x6, =0 với X¿jx là hàng thứ " của
Do dp, > 0, h = 1, ,n nên suy ra Xn), TMX (py + = 0 VA = Tyee at
— Xp =0 = X=Xy
Vậy LAI =1 ©> X = Xa
Gi) Chứng minh tương tự, ta cũng có LAI =0 => X = X;
Gii) Nếu Y = X thì XDY = X'DX = UAU' —= XMa; = YNb; = ø¡ = 1,
từ (3.10) và (3.1) ta suy ra:
ò
Tr(XMX2D) = À ` ø? Var(XMa;)
g=i ;
= ` Var(XMa,) = Tr(XMX'D)
1
=> LAl=1=—3X=Xy
Vay néu Y = X thi X4=X
(iv) Néu ta tién hành phân tích tương đồng của X theo Xa thì từ (3.11) ta
có phân tích giá trị kỳ dị thu gọn của X'DX¿4 là U(AD,)U
Trang 12CHƯONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU29
3 #2 «ng - „ Cov(XMa;, XAMa,)
D o đó, từ (3.25), §3.5, ta CÓ: /ổ;mới ; 25), §3.5, ta CÓ: ;mới = ——— = Var(XaMai) 1
(2 =1, ,r) © Damái = 1
Từ (3.5) và (3.8) ta có ảnh tương đồng Xumá¡ của X với Xa là:
Xamoi = XsAMUDamaiU’ = X4MUU' = X4
Vậy nếu ta phân tích tương đồng của X theo Xa thì ảnh tương đồng của
X với Xu vẫn là Xa
(v) Áp dụng khái niệm cos cho hai ma trận X và Xu ta được:
Tr?(X'DXAM) Tr(X'DXM) Tr(X'DXAM)
- Tr(XDXAM)
_ Tr(XDXM)Tr(X,DXAM)
_ Tr(X4DXAM) Tr(X'DXM)
Costp my (X Xa) =
(3.18)
— Tal [œ.M.Ð),(Y.N.D)]
3.5 Phân tích sự tương đồng, không tương đồng và nhiễu
Trước hết ta nhắc lại phân tích của Guttman (1953) như sau:
X=PyX+(X- PyX)
Trong đó Py = Y(Y/DY)"Y*D là ma trận chiếu lên A⁄4(Y) với (Y'DY)- là nghịch đảo suy rộng, PyX gọi là ảnh tương hợp của X với Y và (X - PyX)
gọi là ảnh tương khắc của X với Y
Ta Có:
Y'D(X — PyX) = 0 vi X— PyX có các cột Lp.A⁄4(Y)
= Y'D(PyX) = Y'DX
Mặt khác (X — PyX)'DY = 0 — a/M(X - PyX)'DYNb, =0
<= (XMaj)'D(YNb;) = ((PyX)Ma,)'D(YNb;)
Cov(XMa;,YNb;) _ Cov((PyX)Ma,,YNb,)
Var YNb; ” Var YNb;
Trang 13CHUONG 3 PHAN TICH SU’ PHU THUỘC GIỮA HAI MA TRẬN DỮ LIỆU40
Từ X'DY = (PyX)/DY suy ra
Ảnh tương đông của PyX uới Y uẫn là Xa
Như vậy, ta có:
PyX = Xu +(PyX~ X4)
X=Xa+(PyX-Xa)+(X-PyX)
Nếu gọi X; = PyX - Xu và Xy =X - PyX thì ta viết lại:
Dễ dàng ta kiểm tra được:
XiyDY = 0, X\yDX4=0, XyDXp =0 @.21) Vay Xp = Xp+ Xu với (Xp,X»y) = 0 hay XpLX„y Suy ra |Xrl? =
IXolẺ + IXxIẺ
Ảnh tương khắc X„ trong phân tích của Guttman là không tương quan
với X¡, ta có thể tìm X mà không quan tâm đến X„
Do đó, ở đây ta gọi X»x là phân nhiễu của X đối với Y còn Xp gọi là ảnh
không tương đồng của X với Y
Ta có:
PyXMUƯ = Y(Y'DY)Y'DXMUƯ
=Y(Y'DY) VAƯ
(3.22)
=Y(YDY) YDX
=PyX
Do đó, từ (3.8) và (3.19) ta được: