1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BT3 Phân tích dữ liệu kinh doanh

59 145 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 7,25 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài 3. (Chapter 7 cont.) Dùng ngôn ngữ R và SPSS thực hiện về ANOVA và kiểm định Chi Square về tính độc lập của 2 biến định danh với các tập tin dữ liệu:Insurance SurveyEnergy Drink SurveyBài 3b ANOVADữ liệu thực tế tùy chọn của Việt NamBài 3c ANOVA với 2 yếu tố: tự chọn tập dữ liệuBài 3d Kiểm định Levene và Tukey

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA HỆ THỐNG THÔNG TIN

Trang 2

Nhóm 8

Mục lục

Trang 3

I. Tập dữ liệu “Insurance Survey”

1.Sử dụng R

1.1 Nhập dữ liệu:

- Dùng lệnh setwd() để chuyển về thư mục chứa file csv cần phân tích.

- Dùng lệnh read.csv() để nhập dữ liệu vào và gán cho tên bt3.

- Lưu lại và dùng lệnh attach() để đọc dữ liệu thực thi.

- Kiểm tra dữ liệu

Trang 4

Nhóm 8

1.2 Kiểm định Chi Square về tính độc lập của 2 biến định danh

- Giả thuyết đặt ra như sau:

H0: Marial Status và Education không có mối quan hệ

H1: Marial Status và Education có mối quan hệ

- Sử dụng lệnh chiq.test() để kiểm định với Marial Status và Education:

I.3. Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập:

- Ta kiểm định mối quan hệ giữa Satisfaction và Gender

- Giả thuyết đặt ra như sau:

H0: Không có sự khác nhau về phương sai 2 tổng thể

H1: Có sự khác nhau về phương sai 2 tổng thể

- Sử dụng lệnh t.test()

- Nhận xét:

Ta thấy p-value=0.9758>0.05 nên không1.4 có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể

Trang 5

I.4. Kiểm định phương sai ANOVA:

- Ta kiểm định mối quan hệ giữa Years Employed và Satisfaction

- Giả thuyết đặt ra như sau:

H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa

H1: Phương sai các nhóm khác nhau một cách có ý nghĩa.

- Sử dụng lệnh anova

- Nhận xét:

Ta thấy p-value=0.4795>0.05 nên chấp nhận giả thuyết H0

2 Sử dụng SPSS thực hiện về ANOVA và kiểm định Chi Square về tính độc lập của 2 biến định danh với tập tin dữ liệu: Insurance Survey:

2.1 Nhập dữ liệu:

- Để tạo dataset mới chọn New Dataset, chọn OK.

Trang 6

Nhóm 8

- Chọn File -> Open -> Data để mở file 0 Insurance Survey.xlxs

- Tiếp tục chọn file 0 Insurance Survey.xlxs, rồi OK.

Trang 7

- Chọn Read variable names from the first row of data, rồi OK.

- Nhập dữ liệu xong

Trang 8

Nhóm 8

2.2 Biến đổi dữ liệu:

- Thêm Values Label để mã hóa số liệu:

• Ở cột Marital Status

• Ở cột Education:

Trang 9

2.3 Kiểm định Chi Square về tính độc lập của 2 biến định danh:

- Giả thuyết đặt ra như sau:

H0: Marial Status và Education không có mối quan hệ

H1: Marial Status và Education có mối quan hệ

- Tiến hành:

Vào Analyze  Descriptive Statistics  Crosstabs

Đưa Marital Status vào Rows và Education vào Columns

Trang 10

Nhóm 8

Chọn Statistics, sau đó đánh dấu vào ô Chi-square

Trang 11

Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Counts, chọn Observed nếu muốn hiển thị tần số quan sát trong bảng chéo, chọn

Expected nếu muốn hiển thị tần số lý thuyết trong bảng chéo

Trang 12

Nhóm 8

- Nhận xét: Trong bảng Chi-Square Tests

• Giá trị Chi Square là 7.571

• Giá trị bậc tự do df là 6

• Giá trị sig là 0.271 >0.05 vậy nên ta chấp nhận H0, nghĩa là không có mối liên hệ giữa Marital Status và Education

• Có 10 ô(83,8%) có tần suất mong đợi dưới 5

2.4 Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập:

- Ta kiểm định mối quan hệ giữa Satisfaction và Gender

- Giả thuyết đặt ra như sau:

H0: Không có sự khác nhau về phương sai 2 tổng thể

Trang 13

- Tiến hành:

Analyze  Compare Means  Independent-samples T-test

- Đưa Satisfaction vào Test Variable và Gender vào Grouping Variable

- Vào Options chọn Confidence Interval Percentage là 95

Trang 14

Nhóm 8

- Vào Define Groups Điền vào Group 1 là F, Group 2 là M

- Chọn Continue và OK

- Kết quả:

Trang 15

- Nhận xét:

• Dựa vào bảng kết quả, giá trị p-value trong kiểm định

Levene = 0.882 > 0.05, nên chấp nhận giả thuyết H0 không có sự khác nhau về phương sai 2 tổng thể, ta sử dụng kết quả kiểm định dòng Equal variances assumed Ta có: p-value = 0.976 > 0.05 tức

là không có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể

2.4 Kiểm định phương sai ANOVA:

- Ta kiểm định mối quan hệ giữa Years Employed và Satisfaction

- Giả thuyết đặt ra như sau:

H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa

H1: Phương sai các nhóm khác nhau một cách có ý nghĩa

- Tiến hành:

Analyze  Compare Means  One-Way ANOVA

Trang 17

Kết quả:

Trang 19

II. Tập dữ liệu “Energy Drink Survey”

1 Sử dụng SPSS

1.1.Chuyển đổi dữ liệu

- Chuyển đổi dữ liệu Gender và Brand Preference sang Numeric

- Trong cột Values của bảng Gender: Male = 1, Female = 2

- Trong cột Values của bảng Brand Preference: Brand 1 = 1, Brand 2 =

Trang 20

Nhóm 8

1.2.Kiểm định Chi Square

a) Đặt vấn đề

- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference

- Giả thuyết đặt ra như sau:

+ H0: Gender và Brand Preference không có mối quan hệ

+ H1: Gender và Brand Preference có mối quan hệ

b) Tiến hành:

- Vào Analyze và Descriptive Statistics và Crosstabs

- Đưa biến thứ nhất Gender vào Row và biến thứ hai Brand Preference vào Column

Trang 21

- Chọn Statistics, sau đó đánh dấu vào ô Chi-square

Trang 22

Nhóm 8

- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, chọn Observed nếu muốn hiển thị tần số quan sát trong bảng chéo, chọn Expected nếu muốn hiển thị tần số lý thuyết trong bảng chéo

c) Kết quả:

- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:

Trang 24

Nhóm 8

a) Đặt vấn đề

- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference

- Giả thuyết đặt ra như sau:

+ H0: Không có sự khác nhau về phương sai 2 tổng thể

+ H1: Có sự khác nhau về phương sai 2 tổng thể

b) Tiến hành

- Analyze à Compare Means à Independent-samples T-test.

- Đưa Brand Preference vào ô Test Variable(s) Gender vào ô Grouping

Variable

Trang 25

- Chọn Define Groups Điền vào Group 1 là 1, Group 2 là 2.

c) Kết quả:

- Chọn Continue và OK Ta được kết quả sau:

Trang 26

Nhóm 8

d) Nhận xét:

Dựa vào bảng kết quả, giá trị p-value trong kiểm định Levene = 0.733 > 0.05 Nên chấp nhận giả thuyết H0 không có sự khác nhau về phương sai

2 tổng thể, ta sử dụng kết quả kiểm định dòng Equal variances assumed

Ta có: p-value = 0.022 < 0.05 có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể

1.4.Phân tích phương sai ANOVA

1.4.1. Ta kiểm định mối quan hệ giữa biến Gender và Brand

Preference.

a) Đặt vấn đề:

- Giả thuyết đặt ra như sau:

+ H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa

+ Phương sai các nhóm khác nhau một cách có ý nghĩa

b) Tiến hành:

- Analyze à Compare Means à One-Way ANOVA

- Đưa biến định lượng Gender vào khung Dependent list Đưa biến phânloại Brand Preference vào khung Factor

Trang 27

- Click vào ô Options: chọn ô Descriptive để tính đại lượng thống kê

mô tả (tính trị trung bình) theo từng nhóm so sánh, chọn ô

Homogeneity of variance test để kiểm định sự bằng nhau của các phương sai nhóm (thực hiện kiểm định Levene)

c) Kết quả:

Chọn Continue và OK Ta được kết quả:

Trang 28

1.4.2. Phân tích sâu ANOVA - (TukeyHSD)

Trang 29

- Ta được kết quả:

- Nhận xét:

+ Brand 1 và Brand 2 khác nhau trung bình là 0.004 và khoảng tin cậy95% từ -0.30 đến 0.31 Tương tự Brand 3 và Brand 1 khác nhau trungbình là 0.247 và khoảng tin cậy 95% từ -0.01 đến 0.51 Brand 3 vàBrand 2 khác nhau trung bình là 0.122 và khoảng tin cậy 95% từ -0.04đến 0.54

+ Brand 1 so với brand 3 có sig trên 5%, Brand 1 so với Brand 2 cósig trên 5%, Brand 2 so với Brand 3 có sig trên 5% Do đó ta kết luậngiữa Brand 1 và Brand 2 có sự khác biệt đối với giới tính, giữa Brand

1 và Brand 3 có sự khác biệt đối với giới tính, giữa Brand 2 và Brand

3 có sự khác biệt đối với giới tính

2. Dùng ngôn ngữ R

2.1.Xử lí dữ liệu

- Nạp dữ liệu từ file Energy Drink Survey.csv (đã chuyển đổi từ file excel sang csv) vào R

Trang 30

Nhóm 8

- Đây là dữ liệu được nhập vào

- Ta cần biến đỗi dữ liệu

+ Cột Brand.Preference Brand 1, Brand 2, Brand 3 thành dạng

numeric 1,2,3

+ Cột Gender Male, Female thành dạng numeric 1,2

+ Biến đổi bằng lệnh như sau:

Trang 31

- Dùng hàm as.numeric để biến đổi cột 3 từ character thành numeric.

- Kết quả:

- Dùng hàm attach(bt) để xác nhận là dùng dữ liệu mới

2.2.Kiểm định Chi – Bình phương

a) Đặt vấn đề:

- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference

- Giả thuyết đặt ra như sau:

+ H0: Gender và Brand Preference không có mối quan hệ

+ H1: Gender và Brand Preference có mối quan hệ

b) Tiến hành:

Trang 32

Nhóm 8

c) Kết quả:

d) Nhân xét:

Nhìn vào kết quả Chi-Square Tests, ta thấy p-giá trị = 0.039 < α = 0.05

Ta bác bỏ giả thuyết H0 Có nghĩa là có mối liên hệ giữa Gender và Brand Preference

2.3.Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập

a) Đặt vấn đề:

- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference

- Giả thuyết đặt ra như sau:

+ H0: Không có sự khác nhau về phương sai 2 tổng thể

+ H1: Có sự khác nhau về phương sai 2 tổng thể

b) Tiến hành:

- Dùng lệnh t.test()

c) Kết quả:

Trang 33

- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference.

- Giả thuyết đặt ra như sau:

+ H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa + H1: Phương sai các nhóm khác nhau một cách có ý nghĩa

b) Tiến hành:

- Dùng lệnh anova()

c) Kết quả:

Trang 34

Nhóm 8

d) Nhận xét:

- df: bậc tự do

- Sum sq: tổng bình phương

- Mean sq: trung bình bình phương

- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference

- Giả thuyết đặt ra như sau:

+ H0: Gender và Brand Preference không có mối quan hệ

+ H1: Gender và Brand Preference có mối quan hệ

b) Tiến hành:

- Dùng kiểm định Tukey để kiếm định mối quan hệ giữa biến Gender và Brand Preference

c) Kết quả:

Trang 35

và nhóm 3 và 2 khác nhau khoảng 0.251 đơn vị, và khoảng tin cậy 95%

Trang 36

Nhóm 8

2.6.Kiểm định Levene

a) Đặt vấn đề:

- Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference

- Giả thuyết đặt ra như sau:

+ H0: Gender và Brand Preference không có mối quan hệ

+ H1: Gender và Brand Preference có mối quan hệ

Trang 37

III. Tập dữ liệu “dữ liệu thực tế” “That_nghiep_VN.xlsx”

+ H0: Vùng và Giới tính độc lập, không có mối quan hệ với nhau

+ H1: Vùng và Giới tính có mối quan hệ với nhau

Trang 38

Nhóm 8

3. Chọn Analyze và Descriptive Statistivs và Crosstabs

4. Chọn Giới tính và đưa vào ô Row(s), Vùng đưa vào ô Column(s) hoặcngược lại

Trang 39

5. Chọn Statistics… và tick vào ô Chi-square Sau đó chọn Continue và

OK để kết thúc

c) Kết quả:

Trang 40

Nhóm 8

Vùng và Giới hay Vùng và Giới tính độc lập với nhau Kiểm định có ý nghĩa khi có không quá 20% số tần số kỳ vọng nhỏ hơn 5 Dòng chữ nhỏ phía cuối bảng cho biết số tần số kỳ vọng dưới 5 có 0 ô chiếm 0% nên kiểm định có ý nghĩa

8. Chọn Analyze à Compare Means à Independent-Samples T Test…

9. Chọn Tỉ lệ thất nghiệp và đưa vào ô Test Variable(s):, Giới tính đưa vào ô Grouping Variable

Trang 41

10. Chọn Define Groups… à Nhập Nam vào Group 1 và Nữ vào Group 2

11. Sau đó chọn Continue và chọn OK

c) Kết quả

Trang 42

Nhóm 8

d) Nhận xét

- Trong kiểm định Levene Test có sig = 0.02 < 0.05 => phương sai ở 2

nam và nữ khác nhau nên ta sử dụng kết quả kiểm định t ở dòng Equalvariances not assumed

- Trong t-test for Equality of Means có sig = 0.01 < 0.05 nên ta bác bỏ

H0 => có sự khác về phương sai của 2 tổng thể hay nói cách khác là tỉ

lệ thất nghiệp ở nam và nữ là khác nhau Mean Difference = 0.90133

có ý nghĩa là tỉ lệ thất nghiệp trung bình ở nam cao hơn tỉ lệ thất nghiệp trung bình ở nữ 0.90133 Sự khác biệt tỉ lệ thất nghiệp trung bình giữa nam và nữ có khoảng biển thiên từ 0.38001 à 1.42265

1.3.Kiểm định Anova two-way và Turkey

có như nhau không? thì ta kiểm định bằng Turkey

 Đối với Đồng bằng sông Cửu Long – Đồng bằng sông Hồng:

Trang 43

Cặp giả thuyết:

+ H0: µ1= µ2

+ H1: µ1 ≠ µ2

b) Tiến hành:

- Vào Analyze à General Linear Model à Univariate

- Chọn Tỉ lệ thất nghiệp vào ô Dependent Variable và Vùng, Giới tính vào ô Fixed Factor(s)

Trang 44

Nhóm 8

- Chọn Post Hoc… à Chọn Vùng vào ô Post Hoc Test for: (factor này phải có 3 nhóm trở lên) và tick vào ô Turkey Sau đó chọn Continue

và chọn OK để kết thúc

Trang 45

c) Kết quả:

Trang 46

Nhóm 8

d) Nhận xét:

 Kiểm định Anova: Từ bảng đầu tiên, ta có:

- Đối với Vùng: Sig (Vùng) = 0 < 0.05 => Bác bỏ H0 ó Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp

- Đối với Giới tính: Sig (Giới tính) = 0 < 0.05 => Bác bỏ H0 ó Giới tính ảnh hưởng đến tỉ lệ thất nghiệp

- Đối với Vùng và Giới tính: Sig (Vùng * Giới tính) = 0.01 < 0.05 => Bác bỏ H0 ó Có sự ảnh hưởng của giới tính đến tỉ lệ thất nghiệp theo vùng miền

 Kiểm định Turkey: dùng để kiểm định xem trung bình của các nhóm nào khác nhau

Trang 47

Sau khi kiểm định Anova, ta thấy Vùng miền ảnh hưởng đến tỉ lệ thất nghiệp, ta muốn biết tỉ lệ thất nghiệp ở vùng nào khác nhau ta dùng kiểm định Turkey

Từ bảng thứ hai ta thấy:

- Đồng bằng sông Cửu Long – Đồng bằng sông Hồng có sig = 0.579 > 0.05

=> Chấp nhận H0 ó Tỉ lệ thất nghiệp ở 2 vùng này không có sự khác biệt

có ý nghĩa hay nói cách khác giữa 2 vùng miền này thì chưa có bằng chứng cho thấy có sự khác nhau về tỉ lệ thất nghiệp Mean Difference (I –J) =0.2325 có ý nghĩa là tỉ lệ thất nghiệp trung bình ở Đồng bằng sông Cửu Long cao hơn tỉ lệ thất nghiệp trung bình ở Tây Nguyên 0.2325 (chênh lệch nhau không đáng kể nên tính là không khác biệt) Sự chênh lệch tỉ lệ thất nghiệp trung bình giữa 2 vùng này có khoảng biển thiên từ -0.3273 à 0.7923

- Đồng bằng sông Cửu Long – Tây Nguyên có sig = 0.000 < 0.05 => Bác bỏ H0 óTỉ lệ thất nghiệp ở 2 vùng này khác biệt Mean Difference (I – J)

=1.3625 có ý nghĩa là tỉ lệ thất nghiệp trung bình ở Đồng bằng sông Cửu Long cao hơn tỉ lệ thất nghiệp trung bình ở Tây Nguyên 1.3625 Sự khác biệt tỉ lệ thất nghiệp trung bình giữa 2 vùng này có khoảng biển thiên từ 0.8027 à 1.9223

- Đồng bằng sông Hồng – Tây Nguyên có sig = 0.000 < 0.05 => Bác bỏ H0óTỉ lệ thất nghiệp ở 2 vùng này khác biệt Mean Difference (I – J) =1.13

có ý nghĩa là tỉ lệ thất nghiệp trung bình ở Đồng bằng sông Hồng cao hơn

tỉ lệ thất nghiệp trung bình ở Tây Nguyên 1.13 Sự khác biệt tỉ lệ thất nghiệp trung bình giữa 2 vùng này có khoảng biển thiên từ 0.5702 à 1.6898

Trang 48

Nhóm 8

- Dùng lệnh attach() để đọc dữ liệu thực thi

- Xem dữ liệu nhập vào

- Dùng lệnh summary() để đưa ra một số thông số thống kê của bảng

Trang 49

2.2.Kiểm định Chi Square

2.2.1. Kiểm định Region và Gender

a) Đặt vấn đề:

- Giả thuyết đặt ra như sau:

+ H0: Region và Gennder độc lập với nhau + H1: Region và Gender có mối quan hệ

b) Tiến hành

- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)

c) Kết quả:

d) Nhận xét:

Kết quả ta thấy: p-value = 1 > α = 0.05 Ta chấp nhận giả thuyết H0

rằng có sự độc lập giữa Region và Unemployedrate.

2.3.Kiểm định Leneve

a Đặt vấn đề:

Có thể cho rằng tỉ lệ thất nghiệp ở nam và nữ là như nhau không?

Trang 50

2.4.Anova one-way và kiểm đinh TukeyHSD

2.4.1. Kiểm định mối quan hệ Gender và Unemployedrate

a) Đặt vấn đề:

- Giả thuyết đặt ra như sau:

+ H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa + H1: Phương sai các nhóm khác nhau một cách có ý nghĩa

b) Tiến hành:

- Dùng lệnh by() để đưa một số thống kê toàn thể của bảng theo

“Gender”

Trang 51

- Dùng ANOVA (aov):

• Nhập dữ liệu theo từng group vào:

• Nhập 3 nhóm trên thành một group thông qua biến x:

• Xem x mình vừa gom như thế nào:

• Kiểm tra x có bao nhiêu phần từ thông qua lệnh length():

Trang 53

Kết quả ta thấy: p= 0.00102 < α = 0.05, điều này có nghĩa là từ chối H0 Hay nói cách khác: phương sai các nhóm khác nhau một cách cóý nghĩa.

2.4.2. Kiểm định Tukey cho sự từ chối:

 Ta thấy khoảng tin cậy đều có giá trị nhỏ hơn 0 cho thấy có ý nghĩa thống kê

2.5.ANOVA two-way và kiểm định Tukey

 Đối với Giới tính: Tỉ lệ thất nghiệp có bị ảnh hưởng bởi giới tính không?

Cặp giả thuyết:

+ H0: µ1= µ2

Ngày đăng: 22/08/2020, 16:01

TỪ KHÓA LIÊN QUAN

w