1. Trang chủ
  2. » Cao đẳng - Đại học

BT2 Phân tích dữ liệu kinh doanh

69 89 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 5,57 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài 2. (Chapter 7) Dùng ngôn ngữ R và SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với các tập tin dữ liệu: CadSoft Technical Support Response Times Vacation Survey Pile Foundation Bài 2b Dữ liệu thực tế tùy chọn của Việt Nam

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA HỆ THỐNG THÔNG TIN

BÁO CÁO LAB 2 Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH

Giảng viên hướng dẫn: TS Nguyễn Đình Thuân

Trang 2

Mục lục

Trang 3

I BÀI 2: CADSOFT TECHNICAL SUPPORT RESPONSE TIMES

1.Sử dụng R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference):

1.1 Nhập dữ liệu:

- Dùng lệnh setwd() để chuyển về thư mục chứa file csv cần phân tích.

- Dùng lệnh read.csv() để nhập dữ liệu vào và gán cho tên lab2a.

- Lưu lại và dùng lệnh attach() để đọc dữ liệu thực thi.

- Kiểm tra dữ liệu

Trang 4

• Time min là biến số cần kiểm định

• Mu=20 là giá trị giả thuyết

Nhận xét:

- Trong lệnh trên Time min là biến số chúng ta cần kiểm định, và mu=20 là giá

trị giả thiết

- R trình bày trị số t = 0.64987, với 43 bậc tự do

- R cũng cho biết độ tin cậy 95% của Time min là từ 15.98474 đến 27.83344

(thời gian bằng 20 nằm trong khoảng tin cậy này)

- Trị số p=0.519>α=0.05

- Vậy ta bác bỏ giả thuyết H0

2 Sử dụng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical

Inference):

2.1 Nhập dữ liệu:

- Để tạo dataset mới chọn New Dataset, chọn OK.

Trang 5

- Chọn File -> Open -> Data để mở file Cadsoft technical support response times

Trang 6

- Chọn Read variable names from the first row of data, rồi OK.

- Nhập dữ liệu xong

2.2 Kiểm định trung bình một tổng thể (One sample Hypothesis Test):

- Giả thuyết đặt ra như sau:

H0: Giá trị trung bình của biến Time min.=20

H1: Giá trị trung bình của biến Time min.≠20

- Chọn Analyze -> Compare Means->One-Sample T Test

Trang 8

• Sai số tiêu chuẩn của giá trị trung bình: Std Error Mean=2.9377

- Trong bảng One-Sample Test kết quả kiểm định thu được

Trang 9

• Khoảng tin cậy cho độ chênh lệch trung bình tổng thể của t và Test Value là [-4.015; 7.833], điều đó cho chúng ta thấy thời giant trung bình phải lớn hơn 20

- Sig.=0.519 >α=0.05 bác bỏ H0

Trang 10

II BÀI 2: VACATION SURVEY

1 Sử dụng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical

Analyze  Compare Means  One-Sample T Test

- Đưa biến Age vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value

- Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau đó ấn Continue vàOK

Trang 12

- Tiến hành:

Analyze  Compare Means  One-Sample T Test

- Đưa biến Number of Vacations per Year vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value

Trang 14

H0: Gender và Number of Vacations per Year không có mối quan hệ

H1: Gender và Number of Vacations per Year có mối quan hệ

- Tiến hành:

Vào Analyze -> Descriptive Statistics -> Crosstabs

- Đưa biến thứ nhất Gender vào Row và biến thứ hai Number of Vacations per Year vào Column

Trang 15

- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì vọng

Trang 16

số tần số kỳ vọng dưới 5 có 14 ô chiếm 87.5%.

1.2.2 Kiểm định xem giữa biến Relationship Status và Number of Vacations per Year

- Giả thuyết đặt ra như sau:

H0: Relationship Status và Number of Vacations per Year không có mối quan hệ

Trang 18

- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì vọng

Trang 19

- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:

Trang 20

- Nhận xét:

Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá trị = 0.043 < α = 0.05 Ta bác bỏ giả thuyết H0 rằng không có mối liên hệ giữa Relationship Status và Number of Vacations per Year Kiểm định có ý nghĩa khi

có không quá 20% số tần số kỳ vọng nhỏ hơn 5 Dòng chữ nhỏ phía cuối bảng cho biết số tần số kỳ vọng dưới 5 có 15 ô chiếm 93.8%

1.2.3 Kiểm định xem giữa biến Number of Children và Number of Vacations per Year.

- Giả thuyết đặt ra như sau:

H0: Number of Children và Number of Vacations per Year không có mối quan hệ

H1: Number of Children và Number of Vacations per Year có mối quan hệ

- Tiến hành:

Vào Analyze -> Descriptive Statistics -> Crosstabs

- Đưa biến thứ nhất Num of Chirdren vào Row và biến thứ hai Number of

Vacations per Year vào Column

Trang 21

- Chọn Statistics, sau đó đánh dấu vào ô Chi-square

Trang 22

- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì vọng

- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:

Trang 23

- Nhận xét:

Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá trị = 0.627 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ giữa Number of Children và Number of Vacations per Year Kiểm định có ý nghĩa khi có không quá 20% số tần số kỳ vọng nhỏ hơn 5 Dòng chữ nhỏ phía cuối bảng cho biết số tần số kỳ vọng dưới 5 có 48 ô chiếm 100%

1.3 Kiểm định trung bình hai tổng thể :

- Người độc thân/ ly dị có nhiều kỳ nghỉ hơn (3.9 với 2.417) Vậy đây là sự khác biệt hệ thống hay là yếu tố ngẫu nhiên gây nên

- Vào Transform -> Recode into Different Variables

Trang 24

- Chọn Relationship Status vào ô Input Variable -> Output variable

Trang 25

- Kích chuột vào ô Old and New values Mã hóa lại các nhóm của mình thành 1

và 2, nhập Married vào hộp Old value và nhập 1 vào new Value Sau đó, nhấn Add

Trang 26

- Bấm Continue và nhấn ok để kết thúc quá trình

- Ta được kết quả như sau:

Trang 28

- Đưa biến định lượng muốn kiểm định trị trung bình number of vacations per year vào khung Test Variable Đưa biến định tính muốn chia thành 2 nhóm vào

khung Grouping Variable:

- Kích chọn nút Define Groups để chỉ định 2 nhóm cần so sánh với nhau, ở đây

ta cần so sánh nhóm Married có giá trị 1 và nhóm Single/Divorced giá trị 2 nên

ta nhập 1 vào Group 1 và nhập 2 vào Group 2:

Trang 29

\

- Nhấn Continue để trở về hộp thoại Independent-Samples T Test

- Kích chọn nút Options để xác định độ tin cậy cho phép kiểm định, ở đây ta chọn độ tin cậy là 95% có nghĩa a = 0.05

Trang 30

- Kích chọn Continue để trở về hộp thoại Independent-Samples T Test

- Kích chọn OK, kết quả thu được các bảng sau:

- Nhận xét:

Kết quả ta có trong kiểm định sự bằng nhau của 2 phương sai tổng thể Levene thì Sig = 0.003 < a = 0.05 phương sai của 2 tổng thể là khác nhau do đó ta sẽ sửdụng kết quả kiểm định t ở phần Equal Variances not assumed

Ta có trong kiểm định t thì Sig = 0.1 > a = 0.05 điều này có nghĩa ta sẽ chấp nhận giả thuyết Ho, tức là không có sự khác biệt có ý nghĩa thống kê về

Number of Vacatons per year giữa 2 Married và Single/Divorced

2 Dùng ngôn ngữ R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference):

Trang 31

- Dùng lệnh attach() để đọc dữ liệu thực thi

- Xem dữ liệu nhập vào

- Dùng lệnh summary() để đưa ra một số thông số thống kê của bảng

2.2 Thực hiện các phép toán suy diễn thống kê:

2.2.1 Kiểm định trung bình một tổng thể

Trang 32

Với:

Age : là biến số cần kiểm định

mu = 35 là giá trị giả thuyết

- Nhận xét:

t = 2.728, với 33 bậc tự do, trị số p = 0.01012 < α = 0.05 R cũng cho biết độ tin cậy 95% của Age từ 35.9 đến 41.4 tuổi ( 35 tuổi nằm ngoài khoảng này) Vậy ta bác bỏ H0

2

2 1 2 Số kỳ nghỉ trung bình của khách du lịch của 34 đối tượng trong nghiến cứu này là 2.853 Giả sử, trước đây số kỳ nghỉ trung bình là 3 với mức ý nghĩa 5%

- Kiểm Cặp giả thuyết đặt ra như sau:

Number.of.Vacations.per.Year : là biến số cần kiểm định

mu= 3 là giá trị giả thuyết

Trang 33

2.2.2.1 K iểm định xem giữa biến Gender và Number of Vacations per Year

- Giả thuyết đặt ra như sau:

H0: Gender và Number of Vacations per Year không có mối quan hệ

H1: Gender và Number of Vacations per Year có mối quan hệ

- Giả thuyết đặt ra như sau:

H0: Relationship Status và Number of Vacations per Year không có mối quan hệ

H1: Relationship và Number of Vacations per Year có mối quan hệ

- Tiến hành:

Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)

- Nhận xét:

Trang 34

2.2.3 Kiểm định trung bình hai tổng thể:

- Qua phân tích Vacation Survey theo tình trạng quan hệ, ta thấy rằng người độc thân/ ly dị có nhiều kỳ nghỉ hơn ( 3.9 với 2.417) Vậy đây là sự khác biệt hệ thống hay là yếu tố ngẫu nhiên gây nên

H : µ1 = µ2

K : µ1 # µ1

- Tiến hành:

Trang 35

Là khoảng tin cậy 95% về độ khác biệt giữa hai nhóm Kết quả tính toán trên cho biết số kì nghỉ Number.of.Vacations.per.Year ở người đã có gia đình có thể thấp hơn người độc thân hoặc ly dị khoảng 3.3 chuyến hoặc cao hơn người độc thân hoặc ly dị 0.33 chuyến Độ khác biệt khá lớn, cho thấy không có nhiều ý nghĩa thống kê giữa hai nhóm

Trang 36

III BÀI 2: PILE FOUNDATION

1.Dùng R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference): 1.1 Nhập số liệu từ Excel vào R.

- Lưu file dưới dạng csv (Comma delimited)

- Dùng lệnh > setwd() để chuyển R về thư mục cứa file Vacation.csv cần phân tích

- Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến bf2 (bf2 = Pile

Foundation BT2)

- Dùng lệnh attach() để đọc dữ liệu thực thi

- Xem các cột dữ liệu

- Gõ tên biến vừa lưu dữ liệu để xem dữ liệu nhập vào

- Dùng lệnh summary() để đưa ra một số thông số thống kê của bảng

Trang 37

1.2 Thực hiện các phép toán suy diễn thống kê

1.2.1 Kiểm định mối liên hệ hai biến định danh, hay định danh thứ bậc:

VD : Kiểm định tính độc lập giữa 2 biến độ dài ước tính (Estimated) và độ dài

thực tế (Actual) của Pile

- Giả thuyết đặt ra như sau:

H0: Estimated và Actual không có mối quan hệH1: Estimated và Actual có mối quan hệ

- Tiến hành:

• Kiểm định t được định nghĩa bằng công thức

Trang 38

Kiểm định t được định nghĩa bằng công thức.

Actual: là biến số cần kiểm định

mu = 35 là giá trị giả thuyết

R trình bày số t = -0.47892, với 310 bậc tự do, trị số p = 0.6323 > α = 0.05 R cũng cho biết độ tin cậy 95% của Actual từ 32.73305 đến 36.37943

Vậy ta chấp nhận bỏ giả thuyết H0 và căn cứ vào chênh lệch dương giữa trung bình mẫu và giá trị Test Value = 35, ta cho rằng độ dài ước tính trung bình của Pile khoảng gần bằng 35 Hai con số cuối cho biết ước lượng khoảng với độ tincậy 95% của Actual từ 32.73305 đến 36.37943

I.2.3 Kiểm định giả thuyết về giá trị trung bình của 2 tổng thể phố hợp theo từng cặp.

2.Dùng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với tập tin dữ liệu: Pile Foundation

Trang 39

- Nhập thông tin vào SPSS có 311 mẫu :

- Sau khi mở file dữ liệu, vào menu Analyze  Descriptive Statistics 

Frequencies

Đưa biến Estimated vào Rows và biến Actual vào Columns

Trang 40

- Click vào ô Statistics, xuất hiện hộp thoại sau:

Trang 41

- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:

Trang 42

Hàng đầu tiên của bảng Chi-square Tests thể hiện giá trị P =0,000 rất nhỏ nên

ta bác bỏ giả thuyết H0 rằng không có mối liên hệ giữa Estimated vs Actual.Cuối bảng Chi-Square tests SPSS sẽ đưa ra dòng thông báo cho biết % số ô có tần suất mong đợi dưới 5 Kiểm định Chi-bình phương chỉ có ý nghĩa khi số quan sát đủ lớn, nếu có quá 20% số ô trong bảng chéo có tần số lý thuyết nhỏ hơn 5 thì giá trị chi-bình phương không còn đáng tin cậy Dòng cuối của kết quả trên cho biết tần số kỳ vọng dưới có 10431 ô chiếm 100%

Trong SPSS ,chọn Analyze  Compare Means  One-Sample T Test

Đưa biến Estimated vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value

Trang 43

Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau đó ấn Continue vàOK

Ta nhận được 2 bảng kết quả:

Trang 44

Nhận xét

Theo kết quả, giá trị trung bình của mẫu là Mean = 28.1776 , giá trị của kiểm định t là 31.069, và p-giá trị là 0.845 > α = 0.05 Vậy ta chấp nhận giả thuyết H0 và căn cứ vào chênh lệch dương giữa trung bình mẫu và giá trị Test Value =

28, ta cho rằng độ dài ước tính trung bình của Pile khoảng gần bằng 28 Hai con số cuối cho biết ước lượng khoảng với độ tin cậy 95% cho độ dài ước tính của Pile là (26,3930 ; 29,9621)

Có thể cho rằng độ dài trung bình ước tính của Pile (ký hiệu là µ) khi ước tính

Analyze  Compare Means  One-Sample T Test Đưa biến Number of

Vacations per Year vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value

Trang 45

Chọn Options để chọn độ tin cậy cho khoảng ước lượng

Trang 46

2.3 Kiểm định giả thuyết về giá trị trung bình của 2 tổng thể phố hợp theo từng cặp.

- Vào menu Analyze  Compare means  Paired-samples T-test

Trang 49

- Dùng lệnh setwd() để chuyển R về thư mục cứa file “lúa.xlsx” cần phân tích

- Dùng lệnh read_excel() để nhập dữ liệu và gán vào biến lab2

- Dùng lệnh attach() để đọc dữ liệu thực thi

- Xem dữ liệu nhập vào

Trang 50

1.2 Thực hiện các phép toán suy diễn thống kê:

1.2.1 Kiểm định trung bình một tổng thể

1.2.1.1 Năng suất trung bình của 49 đối tượng trong nghiên cứu này là 51,38 Giả

sử, trước đây năng suất trung bình là 50 tạ/ha với mức ý nghĩa 5%

- Cặp giả thuyết đặt ra như sau:

+ Năng suất(tạ/ha): là biến số cần kiểm định

+ mu = 50 là giá trị giả thuyết

Trang 51

t = 1.0172, với 47 bậc tự do, trị số p_value = 0.3143 < α = 0.05 R cũng cho biết độ tincậy 95% của Poductivity từ 48.64958 đến 54.11292 tạ/ha (50 tạ/ha nằm trong khoảng này)

 Vậy ta chấp nhận H0

1.2.1.2 Số sản lượng trung bình của lúa thuộc 49 đối tượng trong nghiến cứu này

là 14165.87 Giả sử, trước đây số sản lượng trung bình là với mức ý nghĩa 5%

- Kiểm Cặp giả thuyết đặt ra như sau:

+ Quantity: là biến số cần kiểm định

+ mu= 14166 là giá trị giả thuyết

Trang 52

số t = -0.00020704, với 47 bậc tự do, trị số p_value = 0.9998 > α = 0.05 R cũng cho biết độ tin cậy 95% của biến kiếm định từ 12910.82 đến 15420.92 nghìn/tấn (14166 nghìn/tấn lúa nằm ngoài khoảng này)

 Vậy ta từ chối H0

1.2.2 Kiểm định mối liên hệ hai biến định danh, hay định danh thứ bậc

1.2.2.1 Ta kiểm định xem giữa biến Season và Poductivity

- Giả thuyết đặt ra như sau:

+ H0: Season và Poductivity không có mối quan hệ

+ H1: Season và Poductivity có mối quan hệ

- Tiến hành:

- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)

Nhận xét:

p-value = 0.3894 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ

giữa Season và Poductivity.

Trang 53

Kết quả p =0.4321 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ

giữa Season và Quantity.

1.2.2.3 Ta kiểm định xem giữa biến Poductivity và Quantity

- Giả thuyết đặt ra như sau:

+ H0: Poductivity và Quantity không có mối quan hệ

+ H1: Poductivity và Quantity có mối quan hệ

- Tiến hành:

- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)

Trang 54

Nhận xét:

Kết quả p =0.2452 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ

giữa Poductivity và Quantity.

1.2.3 Kiểm định trung bình hai tổng thể:

 Qua phân tích Lúa ở Việt Nam theo mùa vụ, ta thấy rằng mùa vụ Đông xuân có năng suất nhiều hơn mùa vụ Hè thu (57,79 với 44,97) Vậy đây là sự khác biệt hệ thống hay là yếu tố ngẫu nhiên gây nên

- Ta có:

+ H: µ1 = µ2

+ K: µ1 # µ1

- Tiến hành:

Trang 55

Nhận xét:

- P có giá trị rất nhỏ (< α = 0.05) điều này có nghĩa ta sẽ bác bỏ giả thuyết H0,

tức là Năng suất lúa của 2 vụ mùa là khác nhau.

2.Dùng ngôn ngữ SSPS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với các tập tin dữ liệu thực tế của Viêt Nam: “lúa.xlsx”

2.1 Kiểm định trung bình một tổng thể

2.1.1 Có thể cho rằng năng suất lúa trung bình của một vụ mùa là 50 tạ/ha

Cặp giả thuyết đặt ra: H0: µ = 50

H1: µ ≠ 50

Tiến hành:

- Chọn Analyze à Compare Means à One-Sample T Test

Ngày đăng: 22/08/2020, 15:58

TỪ KHÓA LIÊN QUAN

w