Bài tập nguyên lý thống kê kinh tế có lời giảiPhần I Phân tích phương sai (ANOVA)I Phân tích phương sai một chiều.Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố.Anova một chiều là kiểm định về sự bằng nhau của nhiều trung bình tổng thể có phân phối chuẩn, phương sai bằng nhau.II Phân tích phương sai hai nhân tố không lặp (phân tích phương sai hai chiều có một quan sát trong cùng một ô)Phân tích phương sai hai nhân tố không lặp nhằm đánh giá sợ ảnh hưởng của 2 nhân tố trên các giá trị quan sát, đây là trường hợp mở rộng của phân tích phương sai một yếu tố.III Phân tích phương sai 2 nhân tố có lặp (có hơn một tham số trong một ô)Trong phân tích phương sai 2 nhân tố có lặp, mỗi yếu tố cột và hàng có thể có nhiều quan sát. Vậy nên ngoài việc kiểm định trung bình theo cột, hàng bằng nhau thì chúng ta còn có thể xem xét sự tương tác giữa yếu tố hàng và cột có ảnh hưởng đến hiện tượng nghiên cứu hay không.Phần II Kiểm định phi tham sốI Kiểm định Wilcoxon (Kiểm định T)–Kiểm định sự bằng nhau của 2 trung bình tổng thể với mẫu từng cặp.II Kiểm định Mann – Whitney (Kiểm định U) Kiểm định sự bằng nhau của 2 trung bình tổng thể (mẫu độc lập). Kiểm định Mann Whitney được sử dụng khi chỉ có hai tổng thể nghiên cứu. Kiểm định này cho phép ta xác định xem có phải các mẫu độc lập được lấy ra từ cùng một tổng thể chung hoặc từ các tổng thể khác nhau nhưng có chung một phân phối hay không.
Trang 1Họ và tên:
MSSV:
Lớp: KT1390A2
Nhóm: B04
Phần I/ Phân tích phương sai (ANOVA)
I/ Phân tích phương sai một chiều.
Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhântố
Anova một chiều là kiểm định về sự bằng nhau của nhiều trung bình tổng thể
có phân phối chuẩn, phương sai bằng nhau
Bài tập 1:
Người ta tiến hành đo hàm lượng Alkaloid trung bình trong mướp đắng
3 vùng khác nhau có số liệu như sau:
Cách 1: Cách thông thường (Tính tay)
Giả thuyết:
H0: Hàm lượng Alkaloid ở 3 vùng như nhau
H1: Hàm lượng Alkaloid ở 3 vùng khác nhau
7,56,87,17,56,86,67,8
5,85,66,16,05,7
6,16,36,56,46,56,3
Trang 2SST= 772,54 -
18
) 4 , 117
= 6,8311SSA=
) 2 , 29
+ 6
) 1 , 38
- 18
) 4 , 117
= 5,326968SSE= SST – SSA = 1,50414
215
(Vì em dùng Excel 2003 nên sử dụng Excel 2003)
Nếu trong menu Tools chưa có mục Data Analysis… thì tiến hành cài AnalysisToolPak như sau: Tools \ Add-Ins \ chọn Analysis ToolPak\ OK
Trang 3Chọn Tools\ Data Analysis
Nhập dữ liệu:
Trang 4Chọn: Anova: Single Facter:
Chọn các mục như hình:
Trang 5Khi đó sẽ hiện ra bảng kết quả là:
Giả thuyết:
H0: Kết quả tăng trọng của 3 nhóm tuổi là như nhau
H1: Kết quả tăng trọng của 3 nhóm tuổi là khác nhau
Trang 6Nhóm 1 Nhóm 2 Nhóm 31,0
1,21,41,10,80,6
2,01,81,91,21,41,01,51,8
0,40,60,70,20,30,10,2
SST = 28,54 -
21
) 2 , 21
= 7,1381SSA =
) 6 , 12
+ 7
) 5 , 2 ( 2
- 21
) 2 , 21
= 6,77795SSE = SST – SSA = 0,36014
218
3,388980,0200079 169,3816 6,01
Quyết định:
Ta có F = 169,3816 > Fk−1,n−k,α = 6,01 nên bác bỏ H0 chấp nhận H1
Kết luận:
Với α=1% kết quả tăng trọng của 3 nhóm tuổi là khác nhau.
II/ Phân tích phương sai hai nhân tố không lặp (phân tích phương sai hai
chiều có một quan sát trong cùng một ô)
Phân tích phương sai hai nhân tố không lặp nhằm đánh giá sợ ảnh hưởng của 2nhân tố trên các giá trị quan sát, đây là trường hợp mở rộng của phân tích phương saimột yếu tố
Trang 7Bài tập 1: Chiết suất từ hoa hồng bằng 3 phương pháp khác nhau và 5 loại
dung môi, ta có những kết quả sau:
Phương pháp chiết suất
A1A2A3A4A5
120120130150110
6070607075
6050506054
Hãy xét ảnh hưởng của phương pháp chiết xuất và dung môi đến kết quả chiếtsuất hoa hồng với α=1%.
- H0: Dung môi không ảnh hưởng đến kết quả chiết suất
Phương pháp không ảnh hưởng đến kết quả chiết suất
- H1: Dung môi ảnh hưởng đến kết quả chiết suất
Phương pháp ảnh hưởng đến kết quả chiết suất
B
A
j ij
6070607075
6050506054
240240240280239
2160021800230003100020641
x
,
2
=118041(Với i là biến chạy của dòng, j là biến chạy của cột)
Trang 8) 1239
x = 155699,6SSA =
3
308321
- 3 5
) 1239
x = 432,2667SSB =
5
584201
-
3 5
) 1239
x = 14498,8SSE = SST – SSA – SSB = 768,5333
428
MSA=108,0667MSB=7249,4MSE=96,0667
FA= 1,1249
FB= 75,4622Tổng SST= 155699,6 14
Trang 9Làm theo các bước như hình:
Trang 10p=40,9% quá lớn => Chấp nhận H0 hoàn toàn.
Kết luận: Dung môi ảnh hưởng đến kết quả chiết suất
H0: Các chuyên gia dự đoán tốc độ tăng trưởng là như nhau
Các công ty sản xuất bánh kẹo đều có tốc độ tăng trưởng là như nhau
H1: Các chuyên gia dự đoán tốc độ tăng trưởng khác nhau
Các công ty sản xuất bánh kẹo đều có tốc độ tăng trưởng khác nhau
Chuyên gia
j ij
121091310
8,59121010
1311101310
41,544424542
449,25498446519444
Trang 11SST = 2356,25 -
20
) 5 , 214
= 55,7375SSA =
4
25 , 9211
- 20
) 5 , 214
= 2,3SSB =
5
25 , 11531
- 20
) 5 , 214
= 5,7375SSE = SST – SSA – SSB = 47,7
4312
MSA=0,575MSB=1,9125MSE=3,975
=> Với α =1% Các công ty sản xuất bánh kẹo có tốc độ tăng trưởng như nhau
III/ Phân tích phương sai 2 nhân tố có lặp (có hơn một tham số trong một ô)
Trong phân tích phương sai 2 nhân tố có lặp, mỗi yếu tố cột và hàng có thể cónhiều quan sát Vậy nên ngoài việc kiểm định trung bình theo cột, hàng bằng nhau thìchúng ta còn có thể xem xét sự tương tác giữa yếu tố hàng và cột có ảnh hưởng đếnhiện tượng nghiên cứu hay không
Bài tập 1:
Hàm lượng cafein (mg) trong cà phê thu hái trong 2 mùa (mùa khô và mùamưa) mỗi mùa lấy mẫu 3 lần đầu – giữa – cuối mùa và từ 3 tỉnh ở Tây Nguyên (KonTum, Gia Lai, Lâm Đồng) thu được kết quả sau:
Trang 12Kon Tum Gia Lai Lâm ĐồngKhô
Đầu mùaGiữa mùaCuối mùa
2,42,42,5
2,12,22,2
3,23,23,4Mưa
Đầu mùaGiữa mùaCuối mùa
2,52,52,6
2,22,32,3
3,43,53,5(Với i là biến chạy của dòng, j là biến chạy của cột)
Hãy cho biết hàm lượng cafein có khác nhau theo từng mùa hay không? Nếu
có thì yếu tố mùa và miền (tỉnh khác nhau) có sự tương tác với nhau hay không? Với
α =0,05.
Giải:
Với đề bài cho hàng và cột có hơn 1 quan sát, yêu cầu xem xét sự tương tácgiữa các yếu tố (hàng và cột) có ảnh hưởng đến đối tượng nghiên cứu không, ta dùngphân tích phương sai 2 yếu tố có lặp
Cách 1: Giải thông thường
Giả thiết:
H0:
- Hàm lượng cafein trong cà phê của các tỉnh là như nhau
- Hàm lượng cafein trong cà phê ở 2 mùa mưa và mùa khô là như nhau
- Không có sự tương tác giữa tỉnh và mùa màng đến hàm lượng cafein trong
cà phê
H1:
- Hàm lượng cafein trong cà phê của các tỉnh khác nhau
- Hàm lượng cafein trong cà phê ở 2 mùa mưa và mùa khô khác nhau
- Có sự tương tác giữa tỉnh và mùa màng đến hàm lượng cafein trong cà phê
Tỉnh
Khô
2,42,42,5
7,3
2,12,22,2
6,5
3,23,33,3
Mưa
2,52,52,6
7,6
3,23,23,4
6,8
3,43,53,5
(Với i là biến chạy của dòng, j là biến chạy của cột)
Trang 13= 4,4978SSA =
9
1172
- 18
56 , 2342
= 0,08SSB =
6
94 , 806
- 18
56 , 2342
= 4,3478SSE= 134,64 -
3
74 , 403
0,06SSAB = SST – SSA – SSB – SSE = 0,01
Trang 14=> Với α=5% Không có sự tương tác giữa mùa và miền (tỉnh thành) đến hàmlượng cafein trong cà phê.
Trang 15- Kiểm định theo cột:
+ Giả thiết:
H0: Hàm lượng cafein trong cà phê ở 2 mùa mưa và mùa khô là như nhau
H1: Hàm lượng cafein trong cà phê ở 2 mùa mưa và mùa khô khác nhau
+ Quyết định: Với α =5% > p = 6,36194E-12 => Bác bỏ H0
+ Kết luận: Với α =5%, hàm lượng cafein trong cà phê ở 2 mùa mưa và mùakhô khác nhau
- Kiểm định theo hàng:
+ Giả thiết:
H0: Hàm lượng cafein trong cà phê ở các tỉnh thành là như nhau
H1: Hàm lượng cafein trong cà phê ở các tỉnh thành khác nhau
Trang 163,54,03,0
6,05,04,0B
5,67,07,0
5,05,55,0
4,05,04,5
5,54,56,0
Hỏi sự khác nhau của mức tăng trưởng về chiều cao của cây lúa theo từng loạiđất và phân bón Với α =5%.
Giải:
Giả thiết:
H0:
- Mức tăng trưởng theo chiều cao của cây lúa theo loại đất trồng là như nhau
- Mức tăng trưởng theo chiều cao của cây lúa theo loại phân bón là nhưnhau
- Không có sự tương tác giữa phân bón và loại đất đến sự tăng trưởng theochiều cao của cây lúa
H1:
- Mức tăng trưởng theo chiều cao của cây lúa theo loại đất trồng khác nhau
Trang 17- Mức tăng trưởng theo chiều cao của cây lúa theo loại phân bón là khácnhau.
- Có sự tương tác giữa phân bón và loại đất đến sự tăng trưởng theo chiều caocủa cây lúa
Đất
A
5,55,56,0
17
4,54,54,0
13
3,54,03,0
10,5
6,05,04,0
B
5,67,07,0
19,6
5,05,55,0
15,5
4,05,04,5
13,5
5,54,56,0
= 23,60958SSA =
12
41 , 7253
- 24
01 , 14424
= 3,45042SSB =
6
81 , 3688
- 24
01 , 14424
= 13,80125SSE= 624,61 -
3
91 , 1855
= 5,9733SSAB = SST – SSA – SSB – SSE = 0,38458
Bảng ANOVA
Trang 18Phần II/ Kiểm định phi tham số
I/ Kiểm định Wilcoxon (Kiểm định T)
– Kiểm định sự bằng nhau của 2 trung bình tổng thể với mẫu từng cặp
1/ Mẫu nhỏ (n<=20)
Bài tập:
Trong tháng trước và sau Tết Nguyên Đán, số lượng người mua giày dép tại
10 cửa hàng tại Cần Thơ được thống kê như sau:
Trang 19Ở từng địa bàn, trước và sau khi thực hiện chiến dịch quảng cáo, số lần goohiđầu dầu gội Sunsilk được ghi nhận lại Chênh lệch trước và sau quảng cáo của số lầngội cũng được tính toán, xếp hạng theo giá trị tuyệt đối của chúng (không có chênhlệch 0) Tổng cộng hạng của các chênh lệch dương có giá trị nhỏ hơn và bằng 625.Hãy xem xét xem sau chiến dịch quảng cáo dầu gội đầu Sunsilk có được khách hàngbiết đến nhiều hơn trước hay không với mức ý nghĩa 5%?
50x −
= 637,5
Trang 20Kết luận: Khách hàng nhận biết nhãn hiệu gội đầu Sunsilk trước và sau quảng
cáo là như nhau
3/ Tài liệu tham khảo thêm về thực hiện kiểm định dấu và Wilcoxon trong SPSS.
Ví dụ: Điều trị 10 bệnh nhân có ferritin máu cao, với lượng ferritin máu trước
và sau điều trị được ghi nhận trong bảng sau:
Bảng: Lượng ferritin máu (ng/ml) trước và sau điều trị:
Tổng hợp có:
7 (-): 7 trường hợp ferritin giảm sau điều trị
2 (+): tăng ferritin sau điều trị
1 trường hợp ferritin không thay đổi
Trang 21Thực hiện kiểm định dấu và Wilcoxon trong SPSS
Nhập dữ liệu vào SPSS như sau:
Có 3 cột:
Cột 1: ID bệnh nhân
Cột 2: Ferritin trước điều trị
Cột 3: Ferritin sau điều trị
Vào Analyze> Nonparametric Tests> 2 Related Samples
Trang 22Mở màn hình Two-Related-Samples Tests Dùng chuột bôi cả 2 biếnFerritin_T và Ferritin_S cùng lúc, nhắp chuyển cả hai (1 cặp) vào ô Test Pairs Đánhdấu nháy vào 2 ô kiểm định Wilcoxon và ô kiểm định Sign.
Nhấn OK, cho kết quả sau đây:
Bảng kết quả kiểm định dấu:
Trang 23Chênh lệch mang dấu (-) là 7 (giảm ferritin máu sau điều trị)
Chênh lệch mang dấu (+) là 2 (tăng ferritin máu sau điều trị)
Bằng nhau (Ties) là 1 (ferritin không thay đổi sau điều trị)
Mức ý nghĩa chính xác là 0,180 Không bác bỏ giả thuyết không
Kết luận: Không có sự khác biệt nồng độ ferritin trước và sau điều trị
Bảng kết quả kiểm định dấu và hạng Wilcoxon
Trang 24Thứ hạng trung bình chênh lệch (-): 6,00
Thứ hạng trung bình chênh lệch (+): 1,50
Đơn vị lệch chuẩn Z= -2,312
Ý nghĩa thống kê (2 đuôi)=0,021
Kết luận: Có sự khác biệt nồng độ ferritin trước và sau điều trị với p=0,021
II/ Kiểm định Mann – Whitney (Kiểm định U)
- Kiểm định sự bằng nhau của 2 trung bình tổng thể (mẫu độc lập)
- Kiểm định Mann - Whitney được sử dụng khi chỉ có hai tổng thể nghiên cứu.Kiểm định này cho phép ta xác định xem có phải các mẫu độc lập được lấy ra từ cùngmột tổng thể chung hoặc từ các tổng thể khác nhau nhưng có chung một phân phốihay không
1/ Mẫu nhỏ (n1, n2 < 10)
Bài tập:
Một nữ giáo sư bị phàn nàn là có xu hướng thiên vị các sinh viên nam khichấm bài thi Để kiểm tra điều phàn nàn này, ông chủ nhiệm khoa chọn một số bài thicủa sinh viên nam và nữ để so sánh (điểm tối đa của mỗi bài là 100)
Trang 25TổngSinh viên nam (A) 66 75 77 84 88 91 97 99
8x +
- 85 = 15F(U) = F8;8= 13
Trang 26Với α =5%, biên lai trung bình của hai cảnh sát xuất ra mỗi ngày là như nhau.
3/ Tài liệu tham khảo thêm về kiểm định Mann-Whitney trong SPSS.
(Cùng đề với tài liệu tham khảo Wilcoxon)
Cách thực hiện Kiểm định Mann-Whitney trong SPSS
Vào Analyze> Nonparametric Tests> 2 Independent Samples:
Trang 27Vào hộp thoại Two-Independent-Samples Tests, đánh dấu nháy vào ô Whitney U Nhắp chuyển FERRITIN vào ô Test Variable List
Mann-Nhấp chuyển NHOM vào ô Grouping Variable, nhấn nút định nghĩa nhóm(Define Groups) với Group 1: 0 ; Group 2: 1
Nhấn Continue, nhấn OK
Ta có kết quả sau:
Trang 28Bảng kết quả kiểm định Mann-Whitney:
Tổng hạng trung bình của nhóm 0 (không uống rượu) là 6,06
Tổng hạng trung bình của nhóm 1 (có uống rượu) là 10,94
Mann-Whitney U= 12,500
Đơn vị lệch chuẩn (Z score)= -2,049
Mức ý nghĩa quan sát (2 đuôi)=0,040
Kết luận: Nồng độ ferritin giữa 2 nhóm có và không có uống rượu khác nhau,với p=0,04
Trang 29Phần III/ Bài tập yêu cầu:
Giá thịt heo -0,001 0,002 -0,329 0,742 -0,006 0,004(1.000đ/kg)
Giá thịt bò -0,001 0,002 -0,314 0,754 -0,005 0,003(1000đ/kg)
Giá thịt gà -0,003 0,002 -2,159 0,031 -0,007 0,000(1000đ/kg)
Yêu cầu:
1) Hãy tóm tắt kết quả của hồi quy
2) Hãy cho biết ý nghĩa của hệ số R2
3) Theo anh/ chị mô hình trên có ý nghĩa hay không? Tại sao?
4) Theo kết quả thống kê, hãy cho biết biến nào không ảnh hưởng đến lượngtiêu thụ thịt gà bình quân một người/tuần? Tại sao?
Đề nghị các anh chị hãy giải thích những biến có ý nghĩa
5) Với kiến thức kinh tế học đã có, dựa vào dấu của các hệ số hồi quy anh/chịhãy cho biết biến độc lập nào hợp với quy luật và biến độc lập nào không hợp quyluật? Vì sao?
Trang 30Giải:
Câu 1.Tóm tắt kết quả hồi qui:
Ta có:
Y: Lượng tiêu thụ thịt gà bình quân 1 người/ tuần (kg)
X1: thu nhập/ người (triệu đồng)
Trong điều kiện các yếu tố khác không đổi (X1, X3, X4) thì khi giá thịt heotăng lên 1000 đ/kg thì lượng tiêu thụ thịt gà sẽ giảm 0,001 kg
Trong điều kiện các yếu tố khác không đổi (X1, X2, X4) thì khi giá thịt bò tănglên 1000 đ/kg thì lượng tiêu thụ thịt gà sẽ giảm 0,001 kg
Trong điều kiện các yếu tố khác không đổi (X1, X2, X3) thì khi giá thịt gà tănglên 1000 đ/kg thì lượng tiêu thụ thịt gà sẽ giảm 0,003 kg
Câu 2 Ý nghĩa của hệ số R2:
R Square = R2 = 0,118 cho ta biết 11,8% biến thiên của lượng tiêu thụ thịt gà
có thể giải thích được bởi biến thiên của lượng thu nhập/ người, biến thiên giá thịtheo, biến thiên giá thịt bò và biến thiên giá thịt gà
Câu 3 Từ bảng 2 ta thực hiện kiểm định trên mô hình hồi quy tuyến tính đa
biến
ANOVA
Df SS MS F Significance FRegression 4 1,03 0,26 11,86 5E-09
Residual 353 7,70 0,02
Total 359 8,73
Giả thuyết:
H0: β1 =β2 = β3= β4= 0 (phương trình hồi qui không có ý nghĩa)
H1: Có ít nhất một tham số βi ≠ 0 (phương trình hồi qui có ý nghĩa)
Giá trị kiểm định:
Ta có:
% 5
Trang 31Bảng 3:
Coeficients Standard t Stat P-value Lower Upper
Intercept 0,282 0,121 2,327 0,021 0,044 0,520Thu nhập/người 0,010 0,002 6,718 0,000 0,007 0,013(triệu đồng)
Giá thịt heo -0,001 0,002 -0,329 0,742 -0,006 0,004(1.000đ/kg)
Giá thịt bò -0,001 0,002 -0,314 0,754 -0,005 0,003(1000đ/kg)
Giá thịt gà -0,003 0,002 -2,159 0,031 -0,007 0,000(1000đ/kg)
a) Giả thuyết:
H0: β1= 0 (Biến thu nhập không có ý nghĩa trong mô hình hồi quy)
H1: β1≠ 0 (Biến thu nhập có ý nghĩa trong mô hình hồi quy).
H0: β2= 0 (Biến giá thịt heo không có ý nghĩa trong mô hình hồi quy)
H1: β2 ≠ 0 (Biến giá thị heo có ý nghĩa trong mô hình hồi quy).
H0: β3= 0 (Biến giá thịt bò không có ý nghĩa trong mô hình hồi quy)
H1: β3 ≠ 0 (Biến giá thị bò có ý nghĩa trong mô hình hồi quy).
Trang 32H0: β4= 0 (Biến giá thịt bò không có ý nghĩa trong mô hình hồi quy).
H1: β4 ≠ 0 (Biến giá thị bò có ý nghĩa trong mô hình hồi quy)
Cụ thể là:
- Khi thu nhập của một người tăng lên họ có thể có nhiều nhu cầu hơn, họ cóthể mua nhiều thứ hơn nên việc mua các loại thịt nói chung và thịt gà nói riêng là nhucầu bình thường không quá xa xỉ
- Khi giá của thịt gà tăng lên làm cho lượng cầu giảm đó là điều tất nhiên vìnhững thực phẩm khác cũng có thể đáp ứng nhu cầu của người tiêu dùng nên họ thaythế thịt gà bằng những loại thực phẩm khác làm lượng cầu thịt gà giảm
=> 2 trường hợp này là hợp qui luật cung cầu
- Theo lý thuyết cung cầu, nếu giá hàng hóa tăng thì cầu giảm, lượng tiêudùng các hàng hóa thay thế tăng Nếu xét trường hợp giá thịt heo và thịt bò tăng thìlượng cầu của thịt heo và thịt bò sẽ giảm, người tiêu dùng sẽ tìm loại thịt khác thaythế, không ít thì nhiều thì lượng cầu của thịt gà sẽ tăng Tuy vậy trong đề thì lượngcầu thịt gà lại giảm là hết sức vô lý, sai qui luật
Trang 33Phụ lục:
Phần I/ Phân tích phương sai (ANOVA)
I/ Phân tích phương sai 1 chiều 1-6
II/Phân tích phương sai 2 nhân tố không lặp 6-11
III/ Phân tích phương sai 2 nhân tố có lặp 11-18
Phần II/ Kiểm định phi tham số
I/ Kiểm định Wilcoxon
1) Mẫu nhỏ 18-19
2) Mẫu lớn 19-20
3) Tài liệu tham khảo 20-24
II/ Kiểm định Mann-Whitney
1) Mẫu nhỏ 24
2) Mẫu lớn 25
3) Tài liệu tham khảo 26-28
Phần III/ Bài tập yêu cầu.
Bài tập 28-32
Phụ lục 33