PHÂN TÍCH PHƯƠNG SAI ANOVA

Phân tích phương sai 2 nhân tố có lặp: Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận trên cơ sở số liệu doanh thu một số của hàng như sau: Quận... Đặt vấn đề: Phân t

Trang 1

PHẦN A:

MINH HỌA CÁC VÍ DỤ VỀ PHÂN TÍCH PHƯƠNG SAI ANOVA

1 Phân tích phương sai một nhân tố:

Một nghiên cứu được thực hiện nhằm xem xét năng suất lúa trung bình của 3 giống lúa Kết quả thu thập qua 4 năm như sau:

Hãy cho biết năng suất lúa trung bình của 3 giống lúa có khác nhau hay không?

0.01

Bài giải

Gọi Xi là năng suất lúa trung bình của 3 giống lúa thứ i, i 1,3

Xi ~ ( , 2 )



i

N

Xét các giả thuyết

H0:1   3, năng suất lúa trung bình của 3 giống lúa là như nhau

H1: ij:  i j, năng suất lúa trung bình của 3 giống lúa là khác nhau

Ta có bảng ANOVA như sau:

Anova: Single Factor

SUMMARY

Groups Count Sum Average Variance

ANOVA

Between Groups 26.16667 2 13.08333 0.354135 0.711136 8.021517

Trang 2

Within Groups 332.5 9 36.94444

Kết luận

Vì F 0.354135F k1;n k ;1 8.021517 nên ta chấp nhận giả thuyết H0, nghĩa là năng

suất lúa trung bình của 3 giống lúa là như nhau

2 Phân tích phương sai 2 nhân tố không lặp:

Có 4 công ty tài chính được yêu cầu dự đoán về tốc độ tăng trưởng (%) trong năm tới của 5 công ty ngành nhựa Dự đoán được ghi nhận như sau:

Công ty

Chuyên gia

Hãy lập bảng ANOVA Có thể nói rằng dự đoán tốc độ tăng trưởng trung bình là như nhau cho cả năm công ty nhựa được không?   0.05

Bài giải

Gọi Xij là dự đoán tốc độ tăng trưởng trung bình công ty nhựa thứ i ở chuyên gia công

ty tài chính thứ thứ j, i1,5, j1, 4, Xij ~ ( , 2 )





i j

N 

Xét các giả thuyết

H0:1  5, nghĩa là tốc độ tăng trưởng trung bình công ty nhựa là như nhau

H0’: 1   4, nghĩa là 4 công ty tài chính dự đoán là như nhau

Ta có bảng ANOVA như sau:

Anova: Two-Factor Without Replication

SUMMARY Count Sum Average Variance

1 4 41.5 10.375 6.229167

Trang 3

3 4 42 10.5 1.666667

ANOVA

Source of

Columns 5.7375 3 1.9125 0.481132 0.701475 3.490295

Kết luận

+ Vì F A 0.144654F4;12;0.95 3.259167 nên tốc độ tăng trưởng trung bình 5 công

ty nhựa là như nhau

+ Vì F B 0.481132F4;12;0.95 3.490295 nên dụ đoán của 4 công ty là như nhau

3 Phân tích phương sai 2 nhân tố có lặp:

Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận trên cơ sở số liệu doanh thu một số của hàng như sau:

Quận

Trang 4

3 3.2 2.1 15.8

Vật liêu xây dựng

Dịch vụ tin học

Giải

Gọi Xijk là quan sát thứ k về doanh thu ứng với ngành thứ i và quận thứ j, k  1 , 4 ,i  1 , 3 , j  1 , 4; Xijk ~ ( , , 2 )







 i j

Xét giả thuyết

H0:  1   3, nghĩa là tình hình kinh doanh của các ngành nghề là như nhau

H0’:  1   4, nghĩa là tình hình kinh doanh ở các quận là như nhau

Ta có bảng ANOVA như sau:

Anova: Two-Factor With Replication

Điện lạnh

Variance 0.176667 0.109167 13.69667 15.58667 32.58963

Vật liêu xây dựng

Trang 5

Variance 23.42917 18.03667 4.756667 2.089167 13.48867

Dịch vụ tin học

Variance 1.515833 6.089167 16.34667 1.713333 5.575333

Total

Variance 11.57545 6.798788 9.535152 39.11477

ANOVA

Source of

Sample 41.40375 2 20.70188 2.399155 0.105169 3.259446

Columns 78.94229 3 26.3141 3.049559 0.040902 2.866266

Interaction 385.2246 6 64.2041 7.440658 3.14E-05 2.363751

Kết luận

Vì P-value trên hàng = 0.105 >  = 0.05 nên ta chấp nhận giả thuyết H0, nghĩa là các ngành nghề khác nhau không ảnh hưởng đến tình hình kinh doanh

Vì P-value trên cột = 0.04 <  = 0.05 nên ta bác bỏ giả thuyết H0’, nghĩa là tại các quận khác nhau tình hình kinh doanh các cửa hàng khác nhau

Trang 6

PHẦN B

PHÂN TÍCH THÀNH PHẦN CHÍNH MINH HỌA BÀI TẬP VỚI SỬ DỤNG PHẦN MỀM SPSS

A CƠ SỞ LÝ THUYẾT:

1 Đặt vấn đề:

Phân tích thành phần chính (Principal Component Analysis – PCA) là một trong những

phương pháp phân tích dữ liệu nhiều biến đơn giản nhất Khi không gian có số chiều lớn, ta cần phải tìm cách đưa dữ liệu về không gian có số chiều nhỏ hơn

PCA là một trong những phương pháp như thế với nhiều đặc tính tốt:

 Giúp giảm số chiều của dữ liệu,

 Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là

đảm bảo độ biến thiên của dữ liệu trên mỗi chiều mới.

 Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới dựa trên các feature đã quan sát được Điểm hay là những feature này vẫn biểu diễn tốt dữ liệu ban đầu

 Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ Nói một cách ngắn gọn, mục tiêu của PCA là tìm một không gian mới (với số chiều nhỏ hơn không gian cũ) Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ

biến thiên của dữ liệu trên đó là lớn nhất có thể, còn gọi là maximize the variability Ba chữ

này gói gọn ý tưởng chính của PCA

a. Giá trị riêng, vectơ riêng:

Giả sử trong n

R với tích vô hướng gắn với ma trận vuông A, và f là ánh xạ tuyến tính

từ n

R vào n

R Véc tơ v 0 trong n

R là vectơ riêng của f nếu: f v v ( là hằng số khác không ) Khi đó gọi là giá trị riêng của ánh xạ f

Nếu tồn tại một cơ sở trong n

R sao cho ma trận A biểu diễn trong cơ sở có dạng chéo thì

ma trận A sẽ chéo hóa được, tức là tồn tại ma trận P khả nghịch sao cho: 

'

A P A P có dạng chéo

Trang 7

b. Kỳ vọng và phương sai của thống kê chiều chiều:

+ Kỳ vọng:

Trong thống kê nhiều chiều, mỗi một mẫu thống kê là một vectơ nhiều chiều Giả sử ta có biến ngẫu nhiên X x x1, 2, ,x n, khi đó kỳ vọng của E X  được ước lượng bằng trung bình của mẫu X với:



1

1 N

i i

N , với N là tổng số mẫu trong thống kê

+ Ma trận hiệp phương sai:

Giá trị phương sai trong thống kê một chiều để đo mức độ phân tán của một biến ngẫu nhiên xung quanh kỳ vọng của nó Trong thống kê nhiều chiều, giá trị này được mở rộng thành ma trận hiệp phương sai: C E X  E X   X  E X T

Ma trận hiệp phương sai là một ma trận đối xứng, mỗi phần tử ij của ma trận hiệp phương sai thể hiện mối quan hệ giữa 2 thành phần x i và x j trong vectơ X

 

 ij cov ,

i j

X X

DX DX

Nếu  ij 0ta nói 2 thành phần x i và x j độc lập với nhau,  ij 0 thì x i và x j không độc lập hay chúng phụ thuộc lẫn nhau

c PCA (Principal Component Analysis )

Giả sử ta cần giảm số chiều từ tập mẫu n chiều ban đầu x av1 1a v2 2 a v N N (trong đó v1,

2

v , , v N là cơ sở của không gian N chiều) xuống thành k chiều với y b u1 1b u2 2 b u N k

(u1, u2, , u N là cơ sở của không gian K chiều Gọi M là tổng số mẫu có trong thống kê Gọi x là một vectơ trong không gian n chiều, y là một vectơ trong không gian k chiều

Phương pháp PCA tìm một phép biến đổi tuyến tính T thỏa: y  T x với T là ma trận cấp kxn sao cho trung bình bình phương lỗi là bé nhất

b1 t a11 1t a12 2  t a1n N

b2 t a21 1t a22 2 t a2n N

…

 1 1 2 2 

b t a t a t a

với



N

T

Gọi x là vectơ trung bình của các vectơ x trong tập X:



1

1 M i i

M

Gọi C là ma trận hiệp phương sai của các phần tử trong tập X:



 

1

i

M

Khi đó T là một ma trận mà mỗi hàng là một vectơ riêng của C và m vectơ riêng này ( m hàng của ma trận T) ứng với m trị riêng lớn nhất thì T chính là phép biến đổi tuyến tính thỏa điều kiện trung bình bình phương lỗi khi loại bỏ một số thành phần trong x để thu được y sẽ

bẳng tổng phương sai của những thành phần bị loại bỏ nhỏ nhất.

Trang 8

Gọi  là ma trận vuông nxn mà mỗi cột là một vectơ riêng của C đã được chuẩn hóa với phép biến đổi y  T x y y1,y2, ,y n

Tóm lại, phương pháp phân tích thành phần chính ánh xạ một vectơr từ không gian n chiếu xuống không gian k chiều sẽ đi tìm các trị riêng và vectơr riêng của ma trận hiệp phương sai

C của tập X và giữ lại k vectơr riêng ứng với k trị riêng lớn nhất làm cơ sở cho không gian k

chiều này

3 Tóm tắt phân tích thành phần chính : gồm các bước sau:

Giả sử X là một biến ngẫu nhiên trong không gian N chiều và M là tổng số mẫu có

trong thống kê

 B1:



1

1 M i i

M

 B2: Thực hiện  i x i  x

 B3:Lập ma trận A    1 2 M  và tính



1

=AA

M

i i i

C M

 B4: Tính giá trị riêng của C: 1 2   N

 B5: Tính các vectơ riêng của C: u u1, 2, ,u N

Vì C đối xứng (N x N) nên u u1, 2, ,u N là một cơ sở ta có:

x  x b u1 1b u2 2  b u N N

 B6: (Giảm số chiều) Giữ lại thuộc tính tương ứng giá trị riêng lớn nhất





 

1

K

i i i

x x b u trong đó K N

Do đó sự biểu diễn của x  x trong u u1, 2, ,u K là:

 

 

 

1 2

K

b b

b

Phép biến đổi tuyến tính N  K

R R nhằm giảm số chiều sẽ là:

   

 

 

   

1 1

T

u b

x x U x x

B SỬ DỤNG PHẦN MỀM SPSS ĐỂ MINH HỌA BÀI TẬP

Sử dụng một số hàm trong phần mềm SPSS để phân tích dữ liệu từ bảng điểm của lớp Giải tích khóa 17 của Trường Đại học Cần Thơ Chúng tôi có file dữ liệu nguồn SPSS file giai tich k17_du lieu.sav của 25 học viên với 15 môn: Triết học, PPNC KHGD, đại số tuyến tính, giải tích hàm, tin học ứng dụng, tôpô đại cương, giải tích thực, phương trình vi phân, giải tích số, giải tích hàm nâng cao, phương trình đạo hàm, giải tích phức, giải tích lồi và ứng dụng, pp phần tử hữu hạn, phương trình vi phân (tương ứng với các biến x1,x2, …, x15)

Bảng dữ liệu điểm 15 môn của 25 học viên cao học ngành giải tích K17 Cần Thơ

Trang 9

STT x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 X15

15 8 8.5 8 5.5 9 5.5 6.5 8 8.5 7.5 5.5 3.5 7.5 5.5 7.5

16 7.6 8.5 8.5 6.5 9.7 5.5 7 8.5 8.5 8.5 6.5 4.5 7.3 7.5 8

19 7.4 7.5 7.5 8.5 9.5 5.5 5.5 8.5 8.5 9.5 5.5 2.3 5.8 8 8

21 7.4 9 7.5 8 8.5 7 6.5 8.5 8.5 10 6.5 5.5 7.5 8.5 9

25 7.3 7.5 7.5 5.5 7 5.5 4.5 8.5 5.5 7.5 5.5 4.5 7 7 9

Trang 10

Dữ liệu được nhập trên phần mềm SPSS:

Bắt đầu phân tích giảm số chiều: Anlyze  Dimension Reduction  Factor

Đánh dấu tất cả các biến sẽ chọn là x1, x2, …, x15 và chọn bấm vào Descriptives như sau:

Trang 11

Khi chọn Descriptives, hộp thoại như xuất hiện, đánh dấu chọn KMO and Bartlett’s test of sphericity.

Khi chọn Extraction, hộp thoại xuất hiện Ta sử dụng phương pháp trích mặc định của SPSS là Principal components Một phương pháp hay được sử dụng khác là Principal axis factoring

Tiếp theo, nhấn nút Continue, sau đó nhấp vào Scores Scores sẽ thêm các cột mới vào tập dữ liệu của chúng ta, mỗi cột mới sẽ bao gồm Scores của mỗi biến trên mỗi thành phần rút

Trang 12

ra Chọn Save as variables nếu bạn muốn lưu lại nhân số (đã chuẩn hoá) của từng nhân tố Sau

đó, click vào nút Continue, sau đó nhấn nút OK

Khi bấm nút Options, hộp thoại Factor Analysis: Options xuất hiện Trong hộp thoại này: +Chọn Sorted by size để sắp xếp các biến quan sát trong cùng một nhân tố đứng gần nhau +Chọn suppress absolute value less than nếu không thể hiện các trọng số nhân tố có rị tuyệt

đối nhỏ hơn một giá trị nào đó (ví dụ: 0.10)

KẾT QUẢ:

Bảng Ma trận nhân tố:

Trang 13

Component Matrix a

Component

Extraction Method: Principal Component Analysis

a 6 components extracted

Trong bảng kết quả ở hình trên, có bao nhiêu cột tức là có bấy nhiêu thành phần chính (nhân tố) được rút ra Có 6 nhân tố được rút ra.

Bảng KMO và kiểm định Bartlett

Trang 14

Kaiser-Meyer-Olkin Measure of Sampling

Bartlett's Test of Sphericity

Approx Chi-Square 127.159

KMO là một chỉ tiêu dùng để xem xét sự thích hợp của EFA, 0.5≤KMO≤1 thì phân tích nhân

tố là thích hợp Kiểm định Bartlett xem xét giả thuyết Ho: độ tương quan giữa các biến quan sát bằng không trong tổng thể Nếu kiểm định này có ý nghĩa thống kê (Sig ≤ 0.05) thì các biến quan sát có tương quan với nhau trong tổng thể

Các bảng thống kê mô tả đơn giản là báo cáo, có nghĩa là độ lệch tiêu chuẩn, số trường hợp cho mỗi biến trong phân tích

Trang 15

Descriptive Statistics

Mean DeviationStd. AnalysisN

Trang 16

Total Variance Explained

Component

Initial Eigenvalues Extraction Sums of Squared Loadings

Total Variance% of Cumulative% Total Variance% of Cumulative%

Trong hình trên, bạn quan tâm đến một con số ở cột cuối cùng của dòng số 6 (vì có 6 nhân tố được rút ra) Con số này là 76.908 Người ta nói phương sai trích bằng 76.908 % Con số này cho biết 6 nhân tố giải thích được 76.908 % biến thiên của các biến quan sát (hay của dữ liệu)

Scree Plot

Trang 17

Biểu đồ gấp khúc thể hiện thông tin trong bảng trước gồm giá trị riêng của các thành phần.

Trang 18

Initial Extraction

Phương sai tương đối của các yếu tố đơn giản là tổng bình phương của các thành phần và đại

diện cho lượng phương sai của biến số chiếm đa số trong các thành phần Ví dụ, cả sáu thành phần chiếm 78.1% phương sai trong biến số x15 0.781

Để xác định một thành phần có liên quan hay không, chúng ta có thể kiểm tra một tương quan

đơn trên các thành đã lưu Click vào Analyze > Correlate > Bivariate

Trang 19

Tiếp theo, đánh dấu các nhân tố REGR và sử dụng các nút mũi tên để di chuyển chúng đến

hộp Variables, click OK

Correlations

STT

REGR factor score 1 for analysis 1

REGR factor score 6 for analysis 1 STT Pearson

Correlation

Sig

(2-tailed)

REGR

factor

score

1 for

analysis

1

Pearson

Sig

REGR

factor Pearson Correlation .218 .000 1 .000 .000 .000 .000

Trang 20

score

2 for

analysis

1

Sig

REGR

factor

score

3 for

analysis

1

Pearson

Sig

(2-tailed)

REGR

factor

score

4 for

analysis

1

Pearson

Correlation

Sig

REGR

factor

score

5 for

analysis

1

Pearson

Sig

REGR

factor

score

6 for

analysis

1

Pearson

Sig

(2-tailed)

.549 1.000 1.000 1.000 1.000 1.000

Bảng trên thể hiện các thành phần có mối tương quan với nhau.

Định dạng
Số trang	20
Dung lượng	0,9 MB
File đính kèm	PHÂN TÍCH PHƯƠNG SAI ANOVA.rar (487 KB)