1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khảo sát tính phụ thuộc giữa nhiều tập biến 5

17 258 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích sự phụ thuộc giữa hai ma trận dữ liệu
Trường học Không có thông tin
Chuyên ngành Không có thông tin
Thể loại Không có thông tin
Năm xuất bản Không có thông tin
Thành phố Không có thông tin
Định dạng
Số trang 17
Dung lượng 3,41 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn thạc sĩ chuyên ngành Xác xuát -thống kê -Chuyên đề :Khảo sát tính phụ thuộc giữa nhiều tập biến

Trang 1

Chương 3

Phân tích sự phụ thuộc giữa hai ma trận dữ liệu

3.1 Các khái niệm để xử lý một ma trận dữ liệu

Cho ma trận dữ liệu thực X cấp n x p

Xa) Viế X= | ; | thin hàng của X gọi là n cá thể, cá thể là véc tơ trong

Xn)

(R”,M) với M là ma trận cấp p x p xác định dương

Viết X = (X¡ X¿) thì p cột của X gọi là p biến, biến là véc tơ trong (R",D) với D là ma trận cấp n x n xác định dương

n Xét D = diag(di, dn), di > 0, dn > 0, S> dy = 1, voi dy là trọng lượng

h=1

gán cho cá thể thứ h, h =1, ,m

Lap bé ba (X,M,D)

28

Trang 2

CHƯONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU29

3.1.1 Trung bình và phương sai của biến

Ty

Cho bién x = | : | € (R",D)

Dy

n

e Trung bình của biến x là So ann

heat

n

Xét các biến quy tâm, tức là ` phai =0

h=1

Xu) CoiX=| : là đám mây n cá thể Xụ), ,Xựy, cá thé X(,) mang

X (n)

trọng lượng dụ, h = 1, ,n Khi đó, trọng tâm của đám mây X là

n

So dX (ny =(mị mạ) với mị là trung bình của biến thứ ¿ (cột thứ ¡ n=l

Cua X); 2 Slice wee

e Hiép phuong sai

Xét hai bién quy tamx= | : | vay=] : | Khi đó:

n

Cov(x,y) = (x,y)p = x/Dy = » dụ#bUh

h=1

n

Var(x) = Cov(x, x) = (x,x)p = x'Dx = ||x||R = 3 dụa?

h=1

e Hệ số tương quan giữa hai biến quy tâm x,y

Cov(x,y) p(my) = Var (x) \/Var(y)

(Cov(Xi,Xj)) ijet p @ ma tran hiệp phương sai của dữ liệu X

Trang 3

CHUONG 3 PHAN TICH SU’ PHU THUOC GIỮA HAI MA TRẬN DỮ LIỆU30

p

r(XDX) = Seon (Xj, Xi) =À`Var(X,) gọi là phương sai toàn phần

i=l

của dữ liệu x

3.1.2 Phân tích quán tính của đám mây X theo một hệ trực chuẩn

Cho u¡, ,uy là một cơ sở trực chuẩn trong (R?,M)

Quán tính của cá thể (Xj), dy) doi với gốc 0 là:

|Xó›llẫrd¿ = XuyMX@jd,

Quán tính của cả đám mây X đối với gốc 0 là:

` XujMX(,jd, = Tr(XMXID) = Tr(X'DXM)

mm

Khi M=1 tì XMX'D = XX'D và Tr(XX'D) = Tr(X'DX)

Theo định lý 1, ta có:

P XMX'D = ` (XMu,u/)M(XMu;u/)/D

ij=l

p

= À` XMuu,Mu,uMXTD

ij=l

=) XMuuu/MX?D = À”w;wjD

với w¡ = XMu; là thành phần của X theo trục u¿

Với ma trận vuông A = (ø¡;) ta gọi diag(A) = diag(a11, đsa, )

Suy ra diag(XMX'D) = 5 diag(wiw!D)

Xú;Mu;

diag(w;w/D) = diag : (Xq)Muj Xn) Mu;)D

X(n)Muj

= diag(di(X(q)Muj)’, ,dn(X(n)Mu,)?)

Trang 4

CHUONG 3 PHAN TICH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU31

=> diag(XMX'D) = Sain di(XuyMw,)Ÿ, ,dạ(XụMu;)?)

Mặt khác diag(XMX/ D)= = diag (X, MXqjäi, :› Xe›MX, yt):

Do 46 XyyMXt dn = 5 (XyMus)2py, R= lyre

i=1

Suy ra

T:(XMXD) - w)Mu¡)”d, = yy X (nyMus)"d

= i=l h=

=

=> (Var(XMu,))

3.1)

Nghia la:

Quán tính của đám mây X đối uới gốc 0 bằng tống pbương sai cdc thanh phan ctia X theo p trục trực chuẩn ty¿ ay lips

z

Néu cdc bang ctiaX thugc M(uj, ,w,) thi Tr(XMX'D) = > (Var(XMu,))

i=1

3.2, Nhac lai phan tich thanh phan chính

Cho ma trận đữ liệu thực X quy tâm cấp n x p (n> p)

Goi X = PAQ' 1a phân tích giá trị kỳ dị đầy đủ của X, với P'DP =1,

Q'MQ =I va A = diag(Ay, Ap), AL > > Ap =O

Khi đó phân tích phổ của X'DX là QA?Q/

Phương pháp phân tích thành phần chính là đi tìm một trục u trong (R?,M)

sao cho theo phương u, đám mây X có biến động nhiều nhất Nghĩa là ta

tim u € (R?,M) sao cho hàm số

f(u) = Var(XMu) = uUMX'DXMUu = ||XMu|l?

cực đại với uMu = 1 Đây chính là bài toán cực trị 1 ở chương 2

Gọi u¡ là nghiệm của bài toán này Khi đó u¡ được gọi là trục chính thứ

nhất, XMu¡ được gọi là thành phần chính thứ nhất và Var(XMun) = A? với

Trang 5

CHƯƠNG 3 PHAN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU32

Aƒ là giá trị riêng lớn nhất của X/'DX (¿ là giá trị kỳ dị lớn nhất của X)

Bay giờ ta đi tìm trục chính thứ hai như sau: ta vẫn tìm u € (R?,M) sao cho hàm sé f(u) = uUMX'DXMu cực đại với uMu = 1 nhưng thêm ràng

buộc u.Lwui

Gọi u› là nghiệm của bước thứ hai này Khi đó uạ được gọi là trục chính

thứ hai, XMu; được gọi là thành phân chính thứ hai và Var(XMuạ) = DnB

Cứ tiếp tục như trên, ta tìm trục chính thứ (b + 1) như sau: ta vẫn tìm

u € (R“,M) sao cho hàm số ƒ(u) = uUMX'DXMUu cực đại với Mu = 1

nhưng thêm ràng buộc uLạ4(u¡,ua, ,u,) Cực đại chính là Âm = giá trị

riêng thứ (¡ + 1) của ma trận X'DX, ma trận hiệp phương sai của dữ liệu X

Khi ma trận X'DX có một giá trị riêng với bậc bội > 2, chẳng hạn À¡, theo

định lý 4 chương 2, sẽ có dim Ey = dimF = sị > 2, lúc đó max Var(XMu) = \?

sẽ đạt được với mọi u € F¡, uMu = 1 Các trục chính thứ 1, , thứ s¡ sẽ lập nên một cơ sở trực chuẩn nào đó của F¡ (không gian kỳ dị bên phải của

X ứng với À¡)

Trong thực hành phân tích thành phần chính, người ta dùng ma trận tương quan thay cho ma trận hiệp phương sai X'DX, điều đó có nghĩa trước hết ta

sẽ chuẩn hóa ma trận dữ liệu X sao cho mọi cột (biến) có kỳ vọng 0, phương

Sai 1

Quá trình tiếp tục chừng nào A¿¿¡ còn dương Vì vậy, số trục chính

= rank(X) <p

Từ bài toán 1 chương 1 ta có thể suy ra các trục chính chính là các véc tơ

kỳ dị bên phải trong phân tích giá trị kỳ dị thu gọn của X, vì theo định lý 1

chương 2 X = UAV’, do dé X'DX = VA?V’

Goi Q = (uy up), thi {u¡, ,u„} là một cơ sở trực chuẩn trong (R?,M) được bổ sung từ hệ các trục chính {u, ,u;}, r = rank(X), và Var(XMu,) =

Trang 6

CHUONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU33

A? (¡=1, ,p), do đó Var(XMu;) = 0 (¡=r+1, ,p) khi r < p, tức, với ma

trận X quy tâm, XMu;=0_ Vi >r

3.3 Phân tích sự phụ thuộc giữa hai ma trận dữ liệu

Cho hai ma trận dữ liệu thực X cap n x p va Y cấp n x q quy tâm (nghĩa là các cột của X và Y quy tâm) tương ứng với hai bộ ba (X,M,D) và (Y,N,D)

M là ma trận xác định dương cấp p x ?

N là ma trận xác định dương cấp 4 x 4

D là ma trận xác định dương cấp n x n

Goi r = rank(X’/DY) < min{p, q}

0 tAj

Trước hết, ta tìm các cặp (a;,b¡) thỏa a;Ma; = b¿Nb; = i

1 ¿=j a; €IRP, b¿ € R# sao cho:

Cov(XMa;, YNb;) > 0

@.2)

Cov(XMa,,YNbj)=0_ /#7

Ta có phân tích giá trị kỳ dị thu gọn của X'DY là: X/DY = UAV’, trong

đó A là ma trận chéo cấp r xr xác định dương, U = (ai a„) là ma trận cấp

pxr thỏa UMU =I và V = (bị b„) là ma trận cấp q x r thỏa V”NV =I Theo tính chất 5 §2.3, với A = X'DY ta có:

a! MANb, = Cov(XMa;, YNb,) = 0 ( # 7)

a! MANb; = Cov(XMa;, YNb;) = \; > 0,

từ đó Var(XMa,) > 0, Var(YNbj) > 0 voi i,j =1, ,r

Suy ra các bộ véc tơ kỳ dị kết hợp trái, phải (a¿, b;) trong phân tích giá trị

kỳ dị thu gọn của A = X'DY là nghiệm của (3.2)

Trang 7

CHƯƠNG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRAN DU LIEU34

Các nghiệm này cũng suy được từ bài toán 2 chương 2 với A = X'DY và

f(a,b) = a'MX'DYNb = Cov(XMa, YNb) Ở bài toán 2 chương 2, bước 1 ta

duge max Cov(XMa, YNb) = A; 1a gia tri kỳ dị lớn nhất của X'DY với mọi bộ két hgp (a,b), a € Ey, b € Fj, trong số đó ta chọn được sị (= dim Eị = dim E)

b6 (ai, bj) (i = 1, ,81) sao cho (aj, ,as,) va (bi, ,bs,) 1A cdc hé truc

chuẩn của E¡ và F theo thứ tự

Khi Y = X thì đây chính là bài toán phân tích thành phần chính

Ý nghĩa thống kê: từ hai đám mây X„x„ và Y„„„ ta tìm được z số À¡ > .> À, > 0 là các giá trị kỳ dị trong phân tích giá trị kỳ dị thu gọn của

A =XDY XMa, là tổ hợp tuyến tính đặc biệt của các cột (các biến) của

X và tương ứng YNb; là tổ hợp tuyến tính đặc biệt của các cột (các biến) của Y thỏa (3.2) Mỗi cặp (XMa;, YNb,) đại diện cho hai đám mây X và Y Khi đó, sự phụ thuộc giữa hai đám mây X và Y đưa về sự phụ thuộc giữa

hai thành phần XMa; và YNb; trong cùng một cặp (¿ = 1, ,7)

Do đó, ta sẽ phân tích hồi quy XMa; theo YNb¿

Bây giờ ta thực hiện z hồi quy tuyến tính đơn của XMa; theo YNb, (=1 ,r)

Goi đ; là hệ số hồi quy của XMa; theo YNb;¿

Cov(XMa;, YNb;)

Da = diag(f1, , 8)

là hệ số tương quan giữa XMa; và YNb;

C=(YNV)D(YNV)

Ta CÓ:

/ - Cov(XMa;, YNb;)

As t if 1 + f- eye + 1

6; = (bịNY?DYNb,)~!(b,NY'DXMa,) — W(VNb)

( Var(XMa;)

= pi

bị

aE) A> 0 (i= 1, rn)

ener) PO MBE OG Loos oF)

Trang 8

CHUONG 3 PHAN TICH SU’ PHU THUOC GIỮA HAI MA TRẬN DU LIEU35

Suy ra

D, = diag((1, , 8) = (diag C)“1A (3.4)

với A = V'NY'DXMU vì YfDX = VAUƯ

Vậy XMa; được ước lượng bởi 0;YNb; với 6; như trên, ¿ = 1, ,r

Suy ra XMU = (XMai: :XMa,) được ước lượng bởi

'YNb,) diag(/i đ,)

= YNVD,

Như vậy YNVD, là ước lượng cho XMU

Đặt

Suy ra X4 = YNVD,U’ la udc lugng cho XMUU’

Ý nghĩa của XMUU:: ta có U = (ay a;), XMUU! = > XMa¿a;j Theo

i=l

dinh ly 1 chuong 2, mdi cét cla (KMUU’)' = UU'MX’ thudc không gian căng trên các véc tơ ai, ,a; Nói cách khác, hệ {an, ,a;} “nuốt” hết ma trận ƯƯMX Thế mà {ai, ,a;} là bộ tối đa các véc tơ trực chuẩn sao cho

bộ thành phần {XMai, ,XMa,} có tương quan (Cov # 0) với các thành phần tương ứng {YNbi, ,YNb,} Vì vậy theo quan điểm chỉ xét phần

của X có tương quan với Y, ta sẽ ước lượng X' bởi UƯ'MX/ hay XMUƯ' là ước lượng của X

Do đó, ta có Xã = YNVDaU” là ước lượng cho X

Trang 9

CHUONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRAN DU LIEU36

Néu Var(YNb;) = 1, i=1, ,r, thi đặt K = YNV Khi đó:

X= YNVD,U! = KD,U’

=K(diagC)'AU’ (tt (3.4), lic nay diag C =I, mơ

= KVNY'DXMUƯ' =KV'NVAU' =KV'NY'DX :

=KKDX

: hình chiếu của X trên không gian căng trên các cột (YNbi, ,YNb,) khi các cột này trực chuẩn

Ta gọi Xa là ảnh tương đồng của X với Y và Xz = X~ Xa là ảnh không tương đồng toàn phần của X với Y

3.4 Khái niệm LAI

Trước hết ta chứng minh quán tính đối với gốc 0 của X bằng tổng quán tính

cla X4 va Xp, tức là Tr(X'DXM) = Tr(X4DXAM) + Tr(XzDX;M) Thật vậy, ta có Ma; = (0 1 0), suy ra:

X4Ma; = YNVD,U Ma, =YNb,, ¿=1, r (3.7) X4MUU! = YNVD,U'MUU! = YNVD,U' = X4 @.8)

chứng tỏ các hàng của Xu thuộc A4(a1 ,a;)

Từ Œ.3) suy ra:

Var(XuMa,) = Var(0;YNb;) = 6? Var(YNb;)

@.9)

=p? Var(XMa;) Vi=1, ,r

Từ (3.1) và (3.9) ta có:

,

Tr(XAMX/D) = ` Var(XuMa,)

= ` p? Var(XMa,)

i=1

Trang 10

CHUONG 3 PHAN TICH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIEU37

Mặt khác, ta lại có:

X'DX¿ = XDYNVD,Ư = U(AD,)U' = XDX (3.11)

hay (X + X/,)DX4 = X/,D(Xp + Ky)

Từ đó X,DXu = XDXz

Suy ra

Tr(X'DX4M) = Tr(UAD,UM) = Tr(D„A)

= `, Cov(XMa,, YNb;)

=]

>> "

= ys ø‡Var(XMa,)_ (từ (3.3))

i=1

Từ (3.10) và (3.12) ta suy ra

Tr(X¿MX,D) = Tr(XDXAM) (= Tr(D¿A))

= Tr(X4DXAM) + Tr(X+DXuM)

Do đó

Tr(XpDX 4M) = Tr(X/,DXM) = 0 (3.14)

vay

0 < Tr(X/DXM) = Tr((X4 + X7)/D(X4 + Xr)M) "

= Tr(X/,DX 4M) + Tr(X+DXzM)

Đó là hệ thức cần có

(3.14) có nghĩa (Xz,X¿) =0, dùng tích vô hướng, tức X;LXa Vậy theo

định lý Pythagore, từ X = Xa + Xz có ngay |IXI? = |IXall?+ |IXz|l?, đó chính

là hệ thức (3.15)

Trang 11

CHUONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRAN DU LIEU38

Ta đặt

_ T(X,DXAM)

<

0< LAI

là chỉ số dùng để đo mức độ tương đồng của bộ (X,M,D) với bộ (Y,N,D)

Để do mức độ không tương đồng toàn phần của (X,M,D) với (Y,N,D),

ta dùng chỉ số:

So 17)

0<1— LÃI, Ly] — hXÐĐXM) Ê

Vài tính chất của LAI:

Œ) Khi X = Xa thì LAI = 1, ngược lại khi LAI = 1 ta có:

Tr(X/¿DXzM) = ` XuyxMXIj x6, =0 với X¿jx là hàng thứ " của

Do dp, > 0, h = 1, ,n nên suy ra Xn), TMX (py + = 0 VA = Tyee at

— Xp =0 = X=Xy

Vậy LAI =1 ©> X = Xa

Gi) Chứng minh tương tự, ta cũng có LAI =0 => X = X;

Gii) Nếu Y = X thì XDY = X'DX = UAU' —= XMa; = YNb; = ø¡ = 1,

từ (3.10) và (3.1) ta suy ra:

ò

Tr(XMX2D) = À ` ø? Var(XMa;)

g=i ;

= ` Var(XMa,) = Tr(XMX'D)

1

=> LAl=1=—3X=Xy

Vay néu Y = X thi X4=X

(iv) Néu ta tién hành phân tích tương đồng của X theo Xa thì từ (3.11) ta

có phân tích giá trị kỳ dị thu gọn của X'DX¿4 là U(AD,)U

Trang 12

CHƯONG 3 PHÂN TÍCH SỰ PHỤ THUỘC GIỮA HAI MA TRẬN DỮ LIỆU29

3 #2 «ng - „ Cov(XMa;, XAMa,)

D o đó, từ (3.25), §3.5, ta CÓ: /ổ;mới ; 25), §3.5, ta CÓ: ;mới = ——— = Var(XaMai) 1

(2 =1, ,r) © Damái = 1

Từ (3.5) và (3.8) ta có ảnh tương đồng Xumá¡ của X với Xa là:

Xamoi = XsAMUDamaiU’ = X4MUU' = X4

Vậy nếu ta phân tích tương đồng của X theo Xa thì ảnh tương đồng của

X với Xu vẫn là Xa

(v) Áp dụng khái niệm cos cho hai ma trận X và Xu ta được:

Tr?(X'DXAM) Tr(X'DXM) Tr(X'DXAM)

- Tr(XDXAM)

_ Tr(XDXM)Tr(X,DXAM)

_ Tr(X4DXAM) Tr(X'DXM)

Costp my (X Xa) =

(3.18)

— Tal [œ.M.Ð),(Y.N.D)]

3.5 Phân tích sự tương đồng, không tương đồng và nhiễu

Trước hết ta nhắc lại phân tích của Guttman (1953) như sau:

X=PyX+(X- PyX)

Trong đó Py = Y(Y/DY)"Y*D là ma trận chiếu lên A⁄4(Y) với (Y'DY)- là nghịch đảo suy rộng, PyX gọi là ảnh tương hợp của X với Y và (X - PyX)

gọi là ảnh tương khắc của X với Y

Ta Có:

Y'D(X — PyX) = 0 vi X— PyX có các cột Lp.A⁄4(Y)

= Y'D(PyX) = Y'DX

Mặt khác (X — PyX)'DY = 0 — a/M(X - PyX)'DYNb, =0

<= (XMaj)'D(YNb;) = ((PyX)Ma,)'D(YNb;)

Cov(XMa;,YNb;) _ Cov((PyX)Ma,,YNb,)

Var YNb; ” Var YNb;

Trang 13

CHUONG 3 PHAN TICH SU’ PHU THUỘC GIỮA HAI MA TRẬN DỮ LIỆU40

Từ X'DY = (PyX)/DY suy ra

Ảnh tương đông của PyX uới Y uẫn là Xa

Như vậy, ta có:

PyX = Xu +(PyX~ X4)

X=Xa+(PyX-Xa)+(X-PyX)

Nếu gọi X; = PyX - Xu và Xy =X - PyX thì ta viết lại:

Dễ dàng ta kiểm tra được:

XiyDY = 0, X\yDX4=0, XyDXp =0 @.21) Vay Xp = Xp+ Xu với (Xp,X»y) = 0 hay XpLX„y Suy ra |Xrl? =

IXolẺ + IXxIẺ

Ảnh tương khắc X„ trong phân tích của Guttman là không tương quan

với X¡, ta có thể tìm X mà không quan tâm đến X„

Do đó, ở đây ta gọi X»x là phân nhiễu của X đối với Y còn Xp gọi là ảnh

không tương đồng của X với Y

Ta có:

PyXMUƯ = Y(Y'DY)Y'DXMUƯ

=Y(Y'DY) VAƯ

(3.22)

=Y(YDY) YDX

=PyX

Do đó, từ (3.8) và (3.19) ta được:

Ngày đăng: 10/04/2013, 15:41

🧩 Sản phẩm bạn có thể quan tâm