Phân tích phương sai 2 nhân tố có lặp: Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận trên cơ sở số liệu doanh thu một số của hàng như sau: Quận... Đặt vấn đề: Phân t
Trang 1PHẦN A:
MINH HỌA CÁC VÍ DỤ VỀ PHÂN TÍCH PHƯƠNG SAI ANOVA
1 Phân tích phương sai một nhân tố:
Một nghiên cứu được thực hiện nhằm xem xét năng suất lúa trung bình của 3 giống lúa Kết quả thu thập qua 4 năm như sau:
Hãy cho biết năng suất lúa trung bình của 3 giống lúa có khác nhau hay không?
0.01
Bài giải
Gọi Xi là năng suất lúa trung bình của 3 giống lúa thứ i, i 1,3
Xi ~ ( , 2 )
i
N
Xét các giả thuyết
H0:1 3, năng suất lúa trung bình của 3 giống lúa là như nhau
H1: ij: i j, năng suất lúa trung bình của 3 giống lúa là khác nhau
Ta có bảng ANOVA như sau:
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
ANOVA
Between Groups 26.16667 2 13.08333 0.354135 0.711136 8.021517
Trang 2Within Groups 332.5 9 36.94444
Kết luận
Vì F 0.354135F k1;n k ;1 8.021517 nên ta chấp nhận giả thuyết H0, nghĩa là năng
suất lúa trung bình của 3 giống lúa là như nhau
2 Phân tích phương sai 2 nhân tố không lặp:
Có 4 công ty tài chính được yêu cầu dự đoán về tốc độ tăng trưởng (%) trong năm tới của 5 công ty ngành nhựa Dự đoán được ghi nhận như sau:
Công ty
Chuyên gia
Hãy lập bảng ANOVA Có thể nói rằng dự đoán tốc độ tăng trưởng trung bình là như nhau cho cả năm công ty nhựa được không? 0.05
Bài giải
Gọi Xij là dự đoán tốc độ tăng trưởng trung bình công ty nhựa thứ i ở chuyên gia công
ty tài chính thứ thứ j, i1,5, j1, 4, Xij ~ ( , 2 )
i j
N
Xét các giả thuyết
H0:1 5, nghĩa là tốc độ tăng trưởng trung bình công ty nhựa là như nhau
H0’: 1 4, nghĩa là 4 công ty tài chính dự đoán là như nhau
Ta có bảng ANOVA như sau:
Anova: Two-Factor Without Replication
SUMMARY Count Sum Average Variance
1 4 41.5 10.375 6.229167
Trang 33 4 42 10.5 1.666667
ANOVA
Source of
Columns 5.7375 3 1.9125 0.481132 0.701475 3.490295
Kết luận
+ Vì F A 0.144654F4;12;0.95 3.259167 nên tốc độ tăng trưởng trung bình 5 công
ty nhựa là như nhau
+ Vì F B 0.481132F4;12;0.95 3.490295 nên dụ đoán của 4 công ty là như nhau
3 Phân tích phương sai 2 nhân tố có lặp:
Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận trên cơ sở số liệu doanh thu một số của hàng như sau:
Quận
Trang 43 3.2 2.1 15.8
Vật liêu xây dựng
Dịch vụ tin học
Giải
Gọi Xijk là quan sát thứ k về doanh thu ứng với ngành thứ i và quận thứ j, k 1 , 4 ,i 1 , 3 , j 1 , 4; Xijk ~ ( , , 2 )
i j
Xét giả thuyết
H0: 1 3, nghĩa là tình hình kinh doanh của các ngành nghề là như nhau
H0’: 1 4, nghĩa là tình hình kinh doanh ở các quận là như nhau
Ta có bảng ANOVA như sau:
Anova: Two-Factor With Replication
Điện lạnh
Variance 0.176667 0.109167 13.69667 15.58667 32.58963
Vật liêu xây dựng
Trang 5Variance 23.42917 18.03667 4.756667 2.089167 13.48867
Dịch vụ tin học
Variance 1.515833 6.089167 16.34667 1.713333 5.575333
Total
Variance 11.57545 6.798788 9.535152 39.11477
ANOVA
Source of
Sample 41.40375 2 20.70188 2.399155 0.105169 3.259446
Columns 78.94229 3 26.3141 3.049559 0.040902 2.866266
Interaction 385.2246 6 64.2041 7.440658 3.14E-05 2.363751
Kết luận
Vì P-value trên hàng = 0.105 > = 0.05 nên ta chấp nhận giả thuyết H0, nghĩa là các ngành nghề khác nhau không ảnh hưởng đến tình hình kinh doanh
Vì P-value trên cột = 0.04 < = 0.05 nên ta bác bỏ giả thuyết H0’, nghĩa là tại các quận khác nhau tình hình kinh doanh các cửa hàng khác nhau
Trang 6PHẦN B
PHÂN TÍCH THÀNH PHẦN CHÍNH MINH HỌA BÀI TẬP VỚI SỬ DỤNG PHẦN MỀM SPSS
A CƠ SỞ LÝ THUYẾT:
1 Đặt vấn đề:
Phân tích thành phần chính (Principal Component Analysis – PCA) là một trong những
phương pháp phân tích dữ liệu nhiều biến đơn giản nhất Khi không gian có số chiều lớn, ta cần phải tìm cách đưa dữ liệu về không gian có số chiều nhỏ hơn
PCA là một trong những phương pháp như thế với nhiều đặc tính tốt:
Giúp giảm số chiều của dữ liệu,
Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là
đảm bảo độ biến thiên của dữ liệu trên mỗi chiều mới.
Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, do đó về mặt ngữ nghĩa, PCA xây dựng feature mới dựa trên các feature đã quan sát được Điểm hay là những feature này vẫn biểu diễn tốt dữ liệu ban đầu
Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá, mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ Nói một cách ngắn gọn, mục tiêu của PCA là tìm một không gian mới (với số chiều nhỏ hơn không gian cũ) Các trục tọa độ trong không gian mới được xây dựng sao cho trên mỗi trục, độ
biến thiên của dữ liệu trên đó là lớn nhất có thể, còn gọi là maximize the variability Ba chữ
này gói gọn ý tưởng chính của PCA
a. Giá trị riêng, vectơ riêng:
Giả sử trong n
R với tích vô hướng gắn với ma trận vuông A, và f là ánh xạ tuyến tính
từ n
R vào n
R Véc tơ v 0 trong n
R là vectơ riêng của f nếu: f v v ( là hằng số khác không ) Khi đó gọi là giá trị riêng của ánh xạ f
Nếu tồn tại một cơ sở trong n
R sao cho ma trận A biểu diễn trong cơ sở có dạng chéo thì
ma trận A sẽ chéo hóa được, tức là tồn tại ma trận P khả nghịch sao cho:
'
A P A P có dạng chéo
Trang 7b. Kỳ vọng và phương sai của thống kê chiều chiều:
+ Kỳ vọng:
Trong thống kê nhiều chiều, mỗi một mẫu thống kê là một vectơ nhiều chiều Giả sử ta có biến ngẫu nhiên X x x1, 2, ,x n, khi đó kỳ vọng của E X được ước lượng bằng trung bình của mẫu X với:
1
1 N
i i
N , với N là tổng số mẫu trong thống kê
+ Ma trận hiệp phương sai:
Giá trị phương sai trong thống kê một chiều để đo mức độ phân tán của một biến ngẫu nhiên xung quanh kỳ vọng của nó Trong thống kê nhiều chiều, giá trị này được mở rộng thành ma trận hiệp phương sai: C E X E X X E X T
Ma trận hiệp phương sai là một ma trận đối xứng, mỗi phần tử ij của ma trận hiệp phương sai thể hiện mối quan hệ giữa 2 thành phần x i và x j trong vectơ X
ij cov ,
i j
X X
DX DX
Nếu ij 0ta nói 2 thành phần x i và x j độc lập với nhau, ij 0 thì x i và x j không độc lập hay chúng phụ thuộc lẫn nhau
c PCA (Principal Component Analysis )
Giả sử ta cần giảm số chiều từ tập mẫu n chiều ban đầu x av1 1a v2 2 a v N N (trong đó v1,
2
v , , v N là cơ sở của không gian N chiều) xuống thành k chiều với y b u1 1b u2 2 b u N k
(u1, u2, , u N là cơ sở của không gian K chiều Gọi M là tổng số mẫu có trong thống kê Gọi x là một vectơ trong không gian n chiều, y là một vectơ trong không gian k chiều
Phương pháp PCA tìm một phép biến đổi tuyến tính T thỏa: y T x với T là ma trận cấp kxn sao cho trung bình bình phương lỗi là bé nhất
b1 t a11 1t a12 2 t a1n N
b2 t a21 1t a22 2 t a2n N
…
1 1 2 2
b t a t a t a
với
N
N
T
Gọi x là vectơ trung bình của các vectơ x trong tập X:
1
1 M i i
M
Gọi C là ma trận hiệp phương sai của các phần tử trong tập X:
1
1
1
i
M
Khi đó T là một ma trận mà mỗi hàng là một vectơ riêng của C và m vectơ riêng này ( m hàng của ma trận T) ứng với m trị riêng lớn nhất thì T chính là phép biến đổi tuyến tính thỏa điều kiện trung bình bình phương lỗi khi loại bỏ một số thành phần trong x để thu được y sẽ
bẳng tổng phương sai của những thành phần bị loại bỏ nhỏ nhất.
Trang 8Gọi là ma trận vuông nxn mà mỗi cột là một vectơ riêng của C đã được chuẩn hóa với phép biến đổi y T x y y1,y2, ,y n
Tóm lại, phương pháp phân tích thành phần chính ánh xạ một vectơr từ không gian n chiếu xuống không gian k chiều sẽ đi tìm các trị riêng và vectơr riêng của ma trận hiệp phương sai
C của tập X và giữ lại k vectơr riêng ứng với k trị riêng lớn nhất làm cơ sở cho không gian k
chiều này
3 Tóm tắt phân tích thành phần chính : gồm các bước sau:
Giả sử X là một biến ngẫu nhiên trong không gian N chiều và M là tổng số mẫu có
trong thống kê
B1:
1
1 M i i
M
B2: Thực hiện i x i x
B3:Lập ma trận A 1 2 M và tính
1
1
=AA
M
i i i
C M
B4: Tính giá trị riêng của C: 1 2 N
B5: Tính các vectơ riêng của C: u u1, 2, ,u N
Vì C đối xứng (N x N) nên u u1, 2, ,u N là một cơ sở ta có:
x x b u1 1b u2 2 b u N N
B6: (Giảm số chiều) Giữ lại thuộc tính tương ứng giá trị riêng lớn nhất
1
K
i i i
x x b u trong đó K N
Do đó sự biểu diễn của x x trong u u1, 2, ,u K là:
1 2
K
b b
b
Phép biến đổi tuyến tính N K
R R nhằm giảm số chiều sẽ là:
1 1
T
T
T
T
u b
x x U x x
B SỬ DỤNG PHẦN MỀM SPSS ĐỂ MINH HỌA BÀI TẬP
Sử dụng một số hàm trong phần mềm SPSS để phân tích dữ liệu từ bảng điểm của lớp Giải tích khóa 17 của Trường Đại học Cần Thơ Chúng tôi có file dữ liệu nguồn SPSS file giai tich k17_du lieu.sav của 25 học viên với 15 môn: Triết học, PPNC KHGD, đại số tuyến tính, giải tích hàm, tin học ứng dụng, tôpô đại cương, giải tích thực, phương trình vi phân, giải tích số, giải tích hàm nâng cao, phương trình đạo hàm, giải tích phức, giải tích lồi và ứng dụng, pp phần tử hữu hạn, phương trình vi phân (tương ứng với các biến x1,x2, …, x15)
Bảng dữ liệu điểm 15 môn của 25 học viên cao học ngành giải tích K17 Cần Thơ
Trang 9STT x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 X15
15 8 8.5 8 5.5 9 5.5 6.5 8 8.5 7.5 5.5 3.5 7.5 5.5 7.5
16 7.6 8.5 8.5 6.5 9.7 5.5 7 8.5 8.5 8.5 6.5 4.5 7.3 7.5 8
19 7.4 7.5 7.5 8.5 9.5 5.5 5.5 8.5 8.5 9.5 5.5 2.3 5.8 8 8
21 7.4 9 7.5 8 8.5 7 6.5 8.5 8.5 10 6.5 5.5 7.5 8.5 9
25 7.3 7.5 7.5 5.5 7 5.5 4.5 8.5 5.5 7.5 5.5 4.5 7 7 9
Trang 10Dữ liệu được nhập trên phần mềm SPSS:
Bắt đầu phân tích giảm số chiều: Anlyze Dimension Reduction Factor
Đánh dấu tất cả các biến sẽ chọn là x1, x2, …, x15 và chọn bấm vào Descriptives như sau:
Trang 11Khi chọn Descriptives, hộp thoại như xuất hiện, đánh dấu chọn KMO and Bartlett’s test of sphericity.
Khi chọn Extraction, hộp thoại xuất hiện Ta sử dụng phương pháp trích mặc định của SPSS là Principal components Một phương pháp hay được sử dụng khác là Principal axis factoring
Tiếp theo, nhấn nút Continue, sau đó nhấp vào Scores Scores sẽ thêm các cột mới vào tập dữ liệu của chúng ta, mỗi cột mới sẽ bao gồm Scores của mỗi biến trên mỗi thành phần rút
Trang 12ra Chọn Save as variables nếu bạn muốn lưu lại nhân số (đã chuẩn hoá) của từng nhân tố Sau
đó, click vào nút Continue, sau đó nhấn nút OK
Khi bấm nút Options, hộp thoại Factor Analysis: Options xuất hiện Trong hộp thoại này: +Chọn Sorted by size để sắp xếp các biến quan sát trong cùng một nhân tố đứng gần nhau +Chọn suppress absolute value less than nếu không thể hiện các trọng số nhân tố có rị tuyệt
đối nhỏ hơn một giá trị nào đó (ví dụ: 0.10)
KẾT QUẢ:
Bảng Ma trận nhân tố:
Trang 13Component Matrix a
Component
Extraction Method: Principal Component Analysis
a 6 components extracted
Trong bảng kết quả ở hình trên, có bao nhiêu cột tức là có bấy nhiêu thành phần chính (nhân tố) được rút ra Có 6 nhân tố được rút ra.
Bảng KMO và kiểm định Bartlett
Trang 14Kaiser-Meyer-Olkin Measure of Sampling
Bartlett's Test of Sphericity
Approx Chi-Square 127.159
KMO là một chỉ tiêu dùng để xem xét sự thích hợp của EFA, 0.5≤KMO≤1 thì phân tích nhân
tố là thích hợp Kiểm định Bartlett xem xét giả thuyết Ho: độ tương quan giữa các biến quan sát bằng không trong tổng thể Nếu kiểm định này có ý nghĩa thống kê (Sig ≤ 0.05) thì các biến quan sát có tương quan với nhau trong tổng thể
Các bảng thống kê mô tả đơn giản là báo cáo, có nghĩa là độ lệch tiêu chuẩn, số trường hợp cho mỗi biến trong phân tích
Trang 15Descriptive Statistics
Mean DeviationStd. AnalysisN
Trang 16Total Variance Explained
Component
Initial Eigenvalues Extraction Sums of Squared Loadings
Total Variance% of Cumulative% Total Variance% of Cumulative%
Extraction Method: Principal Component Analysis
Trong hình trên, bạn quan tâm đến một con số ở cột cuối cùng của dòng số 6 (vì có 6 nhân tố được rút ra) Con số này là 76.908 Người ta nói phương sai trích bằng 76.908 % Con số này cho biết 6 nhân tố giải thích được 76.908 % biến thiên của các biến quan sát (hay của dữ liệu)
Scree Plot
Trang 17Biểu đồ gấp khúc thể hiện thông tin trong bảng trước gồm giá trị riêng của các thành phần.
Trang 18Initial Extraction
Extraction Method: Principal Component Analysis
Phương sai tương đối của các yếu tố đơn giản là tổng bình phương của các thành phần và đại
diện cho lượng phương sai của biến số chiếm đa số trong các thành phần Ví dụ, cả sáu thành phần chiếm 78.1% phương sai trong biến số x15 0.781
Để xác định một thành phần có liên quan hay không, chúng ta có thể kiểm tra một tương quan
đơn trên các thành đã lưu Click vào Analyze > Correlate > Bivariate
Trang 19Tiếp theo, đánh dấu các nhân tố REGR và sử dụng các nút mũi tên để di chuyển chúng đến
hộp Variables, click OK
Correlations
STT
REGR factor score 1 for analysis 1
REGR factor score 2 for analysis 1
REGR factor score 3 for analysis 1
REGR factor score 4 for analysis 1
REGR factor score 5 for analysis 1
REGR factor score 6 for analysis 1 STT Pearson
Correlation
Sig
(2-tailed)
REGR
factor
score
1 for
analysis
1
Pearson
Sig
REGR
factor Pearson Correlation .218 .000 1 .000 .000 .000 .000
Trang 20score
2 for
analysis
1
Sig
REGR
factor
score
3 for
analysis
1
Pearson
Sig
(2-tailed)
REGR
factor
score
4 for
analysis
1
Pearson
Correlation
Sig
REGR
factor
score
5 for
analysis
1
Pearson
Sig
REGR
factor
score
6 for
analysis
1
Pearson
Sig
(2-tailed)
.549 1.000 1.000 1.000 1.000 1.000
Bảng trên thể hiện các thành phần có mối tương quan với nhau.