Bài 3. (Chapter 7 cont.) Dùng ngôn ngữ R và SPSS thực hiện về ANOVA và kiểm định Chi Square về tính độc lập của 2 biến định danh với các tập tin dữ liệu:Insurance SurveyEnergy Drink SurveyBài 3b ANOVADữ liệu thực tế tùy chọn của Việt NamBài 3c ANOVA với 2 yếu tố: tự chọn tập dữ liệuBài 3d Kiểm định Levene và Tukey
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
Trang 2Nhóm 8
Mục lục
Trang 3I. Tập dữ liệu “Insurance Survey”
1.Sử dụng R
1.1 Nhập dữ liệu:
- Dùng lệnh setwd() để chuyển về thư mục chứa file csv cần phân tích.
- Dùng lệnh read.csv() để nhập dữ liệu vào và gán cho tên bt3.
- Lưu lại và dùng lệnh attach() để đọc dữ liệu thực thi.
- Kiểm tra dữ liệu
Trang 4Nhóm 8
1.2 Kiểm định Chi Square về tính độc lập của 2 biến định danh
- Giả thuyết đặt ra như sau:
H0: Marial Status và Education không có mối quan hệ
H1: Marial Status và Education có mối quan hệ
- Sử dụng lệnh chiq.test() để kiểm định với Marial Status và Education:
I.3. Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập:
- Ta kiểm định mối quan hệ giữa Satisfaction và Gender
- Giả thuyết đặt ra như sau:
H0: Không có sự khác nhau về phương sai 2 tổng thể
H1: Có sự khác nhau về phương sai 2 tổng thể
- Sử dụng lệnh t.test()
- Nhận xét:
Ta thấy p-value=0.9758>0.05 nên không1.4 có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể
Trang 5I.4. Kiểm định phương sai ANOVA:
- Ta kiểm định mối quan hệ giữa Years Employed và Satisfaction
- Giả thuyết đặt ra như sau:
H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa
H1: Phương sai các nhóm khác nhau một cách có ý nghĩa.
- Sử dụng lệnh anova
- Nhận xét:
Ta thấy p-value=0.4795>0.05 nên chấp nhận giả thuyết H0
2 Sử dụng SPSS thực hiện về ANOVA và kiểm định Chi Square về tính độc lập của 2 biến định danh với tập tin dữ liệu: Insurance Survey:
2.1 Nhập dữ liệu:
- Để tạo dataset mới chọn New Dataset, chọn OK.
Trang 6Nhóm 8
- Chọn File -> Open -> Data để mở file 0 Insurance Survey.xlxs
- Tiếp tục chọn file 0 Insurance Survey.xlxs, rồi OK.
Trang 7- Chọn Read variable names from the first row of data, rồi OK.
- Nhập dữ liệu xong
Trang 8Nhóm 8
2.2 Biến đổi dữ liệu:
- Thêm Values Label để mã hóa số liệu:
• Ở cột Marital Status
• Ở cột Education:
Trang 92.3 Kiểm định Chi Square về tính độc lập của 2 biến định danh:
- Giả thuyết đặt ra như sau:
H0: Marial Status và Education không có mối quan hệ
H1: Marial Status và Education có mối quan hệ
- Tiến hành:
Vào Analyze Descriptive Statistics Crosstabs
Đưa Marital Status vào Rows và Education vào Columns
Trang 10Nhóm 8
Chọn Statistics, sau đó đánh dấu vào ô Chi-square
Trang 11Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Counts, chọn Observed nếu muốn hiển thị tần số quan sát trong bảng chéo, chọn
Expected nếu muốn hiển thị tần số lý thuyết trong bảng chéo
Trang 12Nhóm 8
- Nhận xét: Trong bảng Chi-Square Tests
• Giá trị Chi Square là 7.571
• Giá trị bậc tự do df là 6
• Giá trị sig là 0.271 >0.05 vậy nên ta chấp nhận H0, nghĩa là không có mối liên hệ giữa Marital Status và Education
• Có 10 ô(83,8%) có tần suất mong đợi dưới 5
2.4 Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập:
- Ta kiểm định mối quan hệ giữa Satisfaction và Gender
- Giả thuyết đặt ra như sau:
H0: Không có sự khác nhau về phương sai 2 tổng thể
Trang 13- Tiến hành:
Analyze Compare Means Independent-samples T-test
- Đưa Satisfaction vào Test Variable và Gender vào Grouping Variable
- Vào Options chọn Confidence Interval Percentage là 95
Trang 14Nhóm 8
- Vào Define Groups Điền vào Group 1 là F, Group 2 là M
- Chọn Continue và OK
- Kết quả:
Trang 15- Nhận xét:
• Dựa vào bảng kết quả, giá trị p-value trong kiểm định
Levene = 0.882 > 0.05, nên chấp nhận giả thuyết H0 không có sự khác nhau về phương sai 2 tổng thể, ta sử dụng kết quả kiểm định dòng Equal variances assumed Ta có: p-value = 0.976 > 0.05 tức
là không có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể
2.4 Kiểm định phương sai ANOVA:
- Ta kiểm định mối quan hệ giữa Years Employed và Satisfaction
- Giả thuyết đặt ra như sau:
H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa
H1: Phương sai các nhóm khác nhau một cách có ý nghĩa
- Tiến hành:
Analyze Compare Means One-Way ANOVA
Trang 17Kết quả:
Trang 19II. Tập dữ liệu “Energy Drink Survey”
1 Sử dụng SPSS
1.1.Chuyển đổi dữ liệu
- Chuyển đổi dữ liệu Gender và Brand Preference sang Numeric
- Trong cột Values của bảng Gender: Male = 1, Female = 2
- Trong cột Values của bảng Brand Preference: Brand 1 = 1, Brand 2 =
Trang 20Nhóm 8
1.2.Kiểm định Chi Square
a) Đặt vấn đề
- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference
- Giả thuyết đặt ra như sau:
+ H0: Gender và Brand Preference không có mối quan hệ
+ H1: Gender và Brand Preference có mối quan hệ
b) Tiến hành:
- Vào Analyze và Descriptive Statistics và Crosstabs
- Đưa biến thứ nhất Gender vào Row và biến thứ hai Brand Preference vào Column
Trang 21- Chọn Statistics, sau đó đánh dấu vào ô Chi-square
Trang 22Nhóm 8
- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, chọn Observed nếu muốn hiển thị tần số quan sát trong bảng chéo, chọn Expected nếu muốn hiển thị tần số lý thuyết trong bảng chéo
c) Kết quả:
- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:
Trang 24Nhóm 8
a) Đặt vấn đề
- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference
- Giả thuyết đặt ra như sau:
+ H0: Không có sự khác nhau về phương sai 2 tổng thể
+ H1: Có sự khác nhau về phương sai 2 tổng thể
b) Tiến hành
- Analyze à Compare Means à Independent-samples T-test.
- Đưa Brand Preference vào ô Test Variable(s) Gender vào ô Grouping
Variable
Trang 25- Chọn Define Groups Điền vào Group 1 là 1, Group 2 là 2.
c) Kết quả:
- Chọn Continue và OK Ta được kết quả sau:
Trang 26Nhóm 8
d) Nhận xét:
Dựa vào bảng kết quả, giá trị p-value trong kiểm định Levene = 0.733 > 0.05 Nên chấp nhận giả thuyết H0 không có sự khác nhau về phương sai
2 tổng thể, ta sử dụng kết quả kiểm định dòng Equal variances assumed
Ta có: p-value = 0.022 < 0.05 có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể
1.4.Phân tích phương sai ANOVA
1.4.1. Ta kiểm định mối quan hệ giữa biến Gender và Brand
Preference.
a) Đặt vấn đề:
- Giả thuyết đặt ra như sau:
+ H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa
+ Phương sai các nhóm khác nhau một cách có ý nghĩa
b) Tiến hành:
- Analyze à Compare Means à One-Way ANOVA
- Đưa biến định lượng Gender vào khung Dependent list Đưa biến phânloại Brand Preference vào khung Factor
Trang 27- Click vào ô Options: chọn ô Descriptive để tính đại lượng thống kê
mô tả (tính trị trung bình) theo từng nhóm so sánh, chọn ô
Homogeneity of variance test để kiểm định sự bằng nhau của các phương sai nhóm (thực hiện kiểm định Levene)
c) Kết quả:
Chọn Continue và OK Ta được kết quả:
Trang 281.4.2. Phân tích sâu ANOVA - (TukeyHSD)
Trang 29- Ta được kết quả:
- Nhận xét:
+ Brand 1 và Brand 2 khác nhau trung bình là 0.004 và khoảng tin cậy95% từ -0.30 đến 0.31 Tương tự Brand 3 và Brand 1 khác nhau trungbình là 0.247 và khoảng tin cậy 95% từ -0.01 đến 0.51 Brand 3 vàBrand 2 khác nhau trung bình là 0.122 và khoảng tin cậy 95% từ -0.04đến 0.54
+ Brand 1 so với brand 3 có sig trên 5%, Brand 1 so với Brand 2 cósig trên 5%, Brand 2 so với Brand 3 có sig trên 5% Do đó ta kết luậngiữa Brand 1 và Brand 2 có sự khác biệt đối với giới tính, giữa Brand
1 và Brand 3 có sự khác biệt đối với giới tính, giữa Brand 2 và Brand
3 có sự khác biệt đối với giới tính
2. Dùng ngôn ngữ R
2.1.Xử lí dữ liệu
- Nạp dữ liệu từ file Energy Drink Survey.csv (đã chuyển đổi từ file excel sang csv) vào R
Trang 30Nhóm 8
- Đây là dữ liệu được nhập vào
- Ta cần biến đỗi dữ liệu
+ Cột Brand.Preference Brand 1, Brand 2, Brand 3 thành dạng
numeric 1,2,3
+ Cột Gender Male, Female thành dạng numeric 1,2
+ Biến đổi bằng lệnh như sau:
Trang 31- Dùng hàm as.numeric để biến đổi cột 3 từ character thành numeric.
- Kết quả:
- Dùng hàm attach(bt) để xác nhận là dùng dữ liệu mới
2.2.Kiểm định Chi – Bình phương
a) Đặt vấn đề:
- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference
- Giả thuyết đặt ra như sau:
+ H0: Gender và Brand Preference không có mối quan hệ
+ H1: Gender và Brand Preference có mối quan hệ
b) Tiến hành:
Trang 32Nhóm 8
c) Kết quả:
d) Nhân xét:
Nhìn vào kết quả Chi-Square Tests, ta thấy p-giá trị = 0.039 < α = 0.05
Ta bác bỏ giả thuyết H0 Có nghĩa là có mối liên hệ giữa Gender và Brand Preference
2.3.Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập
a) Đặt vấn đề:
- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference
- Giả thuyết đặt ra như sau:
+ H0: Không có sự khác nhau về phương sai 2 tổng thể
+ H1: Có sự khác nhau về phương sai 2 tổng thể
b) Tiến hành:
- Dùng lệnh t.test()
c) Kết quả:
Trang 33- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference.
- Giả thuyết đặt ra như sau:
+ H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa + H1: Phương sai các nhóm khác nhau một cách có ý nghĩa
b) Tiến hành:
- Dùng lệnh anova()
c) Kết quả:
Trang 34Nhóm 8
d) Nhận xét:
- df: bậc tự do
- Sum sq: tổng bình phương
- Mean sq: trung bình bình phương
- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference
- Giả thuyết đặt ra như sau:
+ H0: Gender và Brand Preference không có mối quan hệ
+ H1: Gender và Brand Preference có mối quan hệ
b) Tiến hành:
- Dùng kiểm định Tukey để kiếm định mối quan hệ giữa biến Gender và Brand Preference
c) Kết quả:
Trang 35và nhóm 3 và 2 khác nhau khoảng 0.251 đơn vị, và khoảng tin cậy 95%
Trang 36Nhóm 8
2.6.Kiểm định Levene
a) Đặt vấn đề:
- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference
- Giả thuyết đặt ra như sau:
+ H0: Gender và Brand Preference không có mối quan hệ
+ H1: Gender và Brand Preference có mối quan hệ
Trang 37III. Tập dữ liệu “dữ liệu thực tế” “That_nghiep_VN.xlsx”
+ H0: Vùng và Giới tính độc lập, không có mối quan hệ với nhau
+ H1: Vùng và Giới tính có mối quan hệ với nhau
Trang 38Nhóm 8
3. Chọn Analyze và Descriptive Statistivs và Crosstabs
4. Chọn Giới tính và đưa vào ô Row(s), Vùng đưa vào ô Column(s) hoặcngược lại
Trang 395. Chọn Statistics… và tick vào ô Chi-square Sau đó chọn Continue và
OK để kết thúc
c) Kết quả:
Trang 40Nhóm 8
Vùng và Giới hay Vùng và Giới tính độc lập với nhau Kiểm định có ý nghĩa khi có không quá 20% số tần số kỳ vọng nhỏ hơn 5 Dòng chữ nhỏ phía cuối bảng cho biết số tần số kỳ vọng dưới 5 có 0 ô chiếm 0% nên kiểm định có ý nghĩa
8. Chọn Analyze à Compare Means à Independent-Samples T Test…
9. Chọn Tỉ lệ thất nghiệp và đưa vào ô Test Variable(s):, Giới tính đưa vào ô Grouping Variable
Trang 4110. Chọn Define Groups… à Nhập Nam vào Group 1 và Nữ vào Group 2
11. Sau đó chọn Continue và chọn OK
c) Kết quả
Trang 42Nhóm 8
d) Nhận xét
- Trong kiểm định Levene Test có sig = 0.02 < 0.05 => phương sai ở 2
nam và nữ khác nhau nên ta sử dụng kết quả kiểm định t ở dòng Equalvariances not assumed
- Trong t-test for Equality of Means có sig = 0.01 < 0.05 nên ta bác bỏ
H0 => có sự khác về phương sai của 2 tổng thể hay nói cách khác là tỉ
lệ thất nghiệp ở nam và nữ là khác nhau Mean Difference = 0.90133
có ý nghĩa là tỉ lệ thất nghiệp trung bình ở nam cao hơn tỉ lệ thất nghiệp trung bình ở nữ 0.90133 Sự khác biệt tỉ lệ thất nghiệp trung bình giữa nam và nữ có khoảng biển thiên từ 0.38001 à 1.42265
1.3.Kiểm định Anova two-way và Turkey
có như nhau không? thì ta kiểm định bằng Turkey
Đối với Đồng bằng sông Cửu Long – Đồng bằng sông Hồng:
Trang 43Cặp giả thuyết:
+ H0: µ1= µ2
+ H1: µ1 ≠ µ2
b) Tiến hành:
- Vào Analyze à General Linear Model à Univariate
- Chọn Tỉ lệ thất nghiệp vào ô Dependent Variable và Vùng, Giới tính vào ô Fixed Factor(s)
Trang 44Nhóm 8
- Chọn Post Hoc… à Chọn Vùng vào ô Post Hoc Test for: (factor này phải có 3 nhóm trở lên) và tick vào ô Turkey Sau đó chọn Continue
và chọn OK để kết thúc
Trang 45c) Kết quả:
Trang 46Nhóm 8
d) Nhận xét:
Kiểm định Anova: Từ bảng đầu tiên, ta có:
- Đối với Vùng: Sig (Vùng) = 0 < 0.05 => Bác bỏ H0 ó Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp
- Đối với Giới tính: Sig (Giới tính) = 0 < 0.05 => Bác bỏ H0 ó Giới tính ảnh hưởng đến tỉ lệ thất nghiệp
- Đối với Vùng và Giới tính: Sig (Vùng * Giới tính) = 0.01 < 0.05 => Bác bỏ H0 ó Có sự ảnh hưởng của giới tính đến tỉ lệ thất nghiệp theo vùng miền
Kiểm định Turkey: dùng để kiểm định xem trung bình của các nhóm nào khác nhau
Trang 47Sau khi kiểm định Anova, ta thấy Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp, ta muốn biết tỉ lệ thất nghiệp ở vùng nào khác nhau ta dùng kiểm định Turkey
Từ bảng thứ hai ta thấy:
- Đồng bằng sông Cửu Long – Đồng bằng sông Hồng có sig = 0.579 > 0.05
=> Chấp nhận H0 ó Tỉ lệ thất nghiệp ở 2 vùng này không có sự khác biệt
có ý nghĩa hay nói cách khác giữa 2 vùng miền này thì chưa có bằng chứng cho thấy có sự khác nhau về tỉ lệ thất nghiệp Mean Difference (I –J) =0.2325 có ý nghĩa là tỉ lệ thất nghiệp trung bình ở Đồng bằng sông Cửu Long cao hơn tỉ lệ thất nghiệp trung bình ở Tây Nguyên 0.2325 (chênh lệch nhau không đáng kể nên tính là không khác biệt) Sự chênh lệch tỉ lệ thất nghiệp trung bình giữa 2 vùng này có khoảng biển thiên từ -0.3273 à 0.7923
- Đồng bằng sông Cửu Long – Tây Nguyên có sig = 0.000 < 0.05 => Bác bỏ H0 óTỉ lệ thất nghiệp ở 2 vùng này khác biệt Mean Difference (I – J)
=1.3625 có ý nghĩa là tỉ lệ thất nghiệp trung bình ở Đồng bằng sông Cửu Long cao hơn tỉ lệ thất nghiệp trung bình ở Tây Nguyên 1.3625 Sự khác biệt tỉ lệ thất nghiệp trung bình giữa 2 vùng này có khoảng biển thiên từ 0.8027 à 1.9223
- Đồng bằng sông Hồng – Tây Nguyên có sig = 0.000 < 0.05 => Bác bỏ H0óTỉ lệ thất nghiệp ở 2 vùng này khác biệt Mean Difference (I – J) =1.13
có ý nghĩa là tỉ lệ thất nghiệp trung bình ở Đồng bằng sông Hồng cao hơn
tỉ lệ thất nghiệp trung bình ở Tây Nguyên 1.13 Sự khác biệt tỉ lệ thất nghiệp trung bình giữa 2 vùng này có khoảng biển thiên từ 0.5702 à 1.6898
Trang 48Nhóm 8
- Dùng lệnh attach() để đọc dữ liệu thực thi
- Xem dữ liệu nhập vào
- Dùng lệnh summary() để đưa ra một số thông số thống kê của bảng
Trang 492.2.Kiểm định Chi Square
2.2.1. Kiểm định Region và Gender
a) Đặt vấn đề:
- Giả thuyết đặt ra như sau:
+ H0: Region và Gennder độc lập với nhau + H1: Region và Gender có mối quan hệ
b) Tiến hành
- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)
c) Kết quả:
d) Nhận xét:
Kết quả ta thấy: p-value = 1 > α = 0.05 Ta chấp nhận giả thuyết H0
rằng có sự độc lập giữa Region và Unemployedrate.
2.3.Kiểm định Leneve
a Đặt vấn đề:
Có thể cho rằng tỉ lệ thất nghiệp ở nam và nữ là như nhau không?
Trang 502.4.Anova one-way và kiểm đinh TukeyHSD
2.4.1. Kiểm định mối quan hệ Gender và Unemployedrate
a) Đặt vấn đề:
- Giả thuyết đặt ra như sau:
+ H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa + H1: Phương sai các nhóm khác nhau một cách có ý nghĩa
b) Tiến hành:
- Dùng lệnh by() để đưa một số thống kê toàn thể của bảng theo
“Gender”
Trang 51- Dùng ANOVA (aov):
• Nhập dữ liệu theo từng group vào:
• Nhập 3 nhóm trên thành một group thông qua biến x:
• Xem x mình vừa gom như thế nào:
• Kiểm tra x có bao nhiêu phần từ thông qua lệnh length():
Trang 53Kết quả ta thấy: p= 0.00102 < α = 0.05, điều này có nghĩa là từ chối H0 Hay nói cách khác: phương sai các nhóm khác nhau một cách cóý nghĩa.
2.4.2. Kiểm định Tukey cho sự từ chối:
Ta thấy khoảng tin cậy đều có giá trị nhỏ hơn 0 cho thấy có ý nghĩa thống kê
2.5.ANOVA two-way và kiểm định Tukey
Đối với Giới tính: Tỉ lệ thất nghiệp có bị ảnh hưởng bởi giới tính không?
Cặp giả thuyết:
+ H0: µ1= µ2