Bài 2. (Chapter 7) Dùng ngôn ngữ R và SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với các tập tin dữ liệu: CadSoft Technical Support Response Times Vacation Survey Pile Foundation Bài 2b Dữ liệu thực tế tùy chọn của Việt Nam
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
BÁO CÁO LAB 2 Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH
Giảng viên hướng dẫn: TS Nguyễn Đình Thuân
Trang 2
Mục lục
Trang 3
I BÀI 2: CADSOFT TECHNICAL SUPPORT RESPONSE TIMES
1.Sử dụng R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference):
1.1 Nhập dữ liệu:
- Dùng lệnh setwd() để chuyển về thư mục chứa file csv cần phân tích.
- Dùng lệnh read.csv() để nhập dữ liệu vào và gán cho tên lab2a.
- Lưu lại và dùng lệnh attach() để đọc dữ liệu thực thi.
- Kiểm tra dữ liệu
Trang 4
• Time min là biến số cần kiểm định
• Mu=20 là giá trị giả thuyết
Nhận xét:
- Trong lệnh trên Time min là biến số chúng ta cần kiểm định, và mu=20 là giá
trị giả thiết
- R trình bày trị số t = 0.64987, với 43 bậc tự do
- R cũng cho biết độ tin cậy 95% của Time min là từ 15.98474 đến 27.83344
(thời gian bằng 20 nằm trong khoảng tin cậy này)
- Trị số p=0.519>α=0.05
- Vậy ta bác bỏ giả thuyết H0
2 Sử dụng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical
Inference):
2.1 Nhập dữ liệu:
- Để tạo dataset mới chọn New Dataset, chọn OK.
Trang 5
- Chọn File -> Open -> Data để mở file Cadsoft technical support response times
Trang 6
- Chọn Read variable names from the first row of data, rồi OK.
- Nhập dữ liệu xong
2.2 Kiểm định trung bình một tổng thể (One sample Hypothesis Test):
- Giả thuyết đặt ra như sau:
H0: Giá trị trung bình của biến Time min.=20
H1: Giá trị trung bình của biến Time min.≠20
- Chọn Analyze -> Compare Means->One-Sample T Test
Trang 8• Sai số tiêu chuẩn của giá trị trung bình: Std Error Mean=2.9377
- Trong bảng One-Sample Test kết quả kiểm định thu được
Trang 9
• Khoảng tin cậy cho độ chênh lệch trung bình tổng thể của t và Test Value là [-4.015; 7.833], điều đó cho chúng ta thấy thời giant trung bình phải lớn hơn 20
- Sig.=0.519 >α=0.05 bác bỏ H0
Trang 10
II BÀI 2: VACATION SURVEY
1 Sử dụng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical
Analyze Compare Means One-Sample T Test
- Đưa biến Age vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value
- Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau đó ấn Continue vàOK
Trang 12- Tiến hành:
Analyze Compare Means One-Sample T Test
- Đưa biến Number of Vacations per Year vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value
Trang 14
H0: Gender và Number of Vacations per Year không có mối quan hệ
H1: Gender và Number of Vacations per Year có mối quan hệ
- Tiến hành:
Vào Analyze -> Descriptive Statistics -> Crosstabs
- Đưa biến thứ nhất Gender vào Row và biến thứ hai Number of Vacations per Year vào Column
Trang 15
- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì vọng
Trang 16số tần số kỳ vọng dưới 5 có 14 ô chiếm 87.5%.
1.2.2 Kiểm định xem giữa biến Relationship Status và Number of Vacations per Year
- Giả thuyết đặt ra như sau:
H0: Relationship Status và Number of Vacations per Year không có mối quan hệ
Trang 18
- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì vọng
Trang 19
- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:
Trang 20
- Nhận xét:
Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá trị = 0.043 < α = 0.05 Ta bác bỏ giả thuyết H0 rằng không có mối liên hệ giữa Relationship Status và Number of Vacations per Year Kiểm định có ý nghĩa khi
có không quá 20% số tần số kỳ vọng nhỏ hơn 5 Dòng chữ nhỏ phía cuối bảng cho biết số tần số kỳ vọng dưới 5 có 15 ô chiếm 93.8%
1.2.3 Kiểm định xem giữa biến Number of Children và Number of Vacations per Year.
- Giả thuyết đặt ra như sau:
H0: Number of Children và Number of Vacations per Year không có mối quan hệ
H1: Number of Children và Number of Vacations per Year có mối quan hệ
- Tiến hành:
Vào Analyze -> Descriptive Statistics -> Crosstabs
- Đưa biến thứ nhất Num of Chirdren vào Row và biến thứ hai Number of
Vacations per Year vào Column
Trang 21
- Chọn Statistics, sau đó đánh dấu vào ô Chi-square
Trang 22
- Nhấn Continue trở lại giao diện Crosstabs, chọn Cells Trong khung Count của Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì vọng
- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:
Trang 23
- Nhận xét:
Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá trị = 0.627 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ giữa Number of Children và Number of Vacations per Year Kiểm định có ý nghĩa khi có không quá 20% số tần số kỳ vọng nhỏ hơn 5 Dòng chữ nhỏ phía cuối bảng cho biết số tần số kỳ vọng dưới 5 có 48 ô chiếm 100%
1.3 Kiểm định trung bình hai tổng thể :
- Người độc thân/ ly dị có nhiều kỳ nghỉ hơn (3.9 với 2.417) Vậy đây là sự khác biệt hệ thống hay là yếu tố ngẫu nhiên gây nên
- Vào Transform -> Recode into Different Variables
Trang 24
- Chọn Relationship Status vào ô Input Variable -> Output variable
Trang 25
- Kích chuột vào ô Old and New values Mã hóa lại các nhóm của mình thành 1
và 2, nhập Married vào hộp Old value và nhập 1 vào new Value Sau đó, nhấn Add
Trang 26
- Bấm Continue và nhấn ok để kết thúc quá trình
- Ta được kết quả như sau:
Trang 28
- Đưa biến định lượng muốn kiểm định trị trung bình number of vacations per year vào khung Test Variable Đưa biến định tính muốn chia thành 2 nhóm vào
khung Grouping Variable:
- Kích chọn nút Define Groups để chỉ định 2 nhóm cần so sánh với nhau, ở đây
ta cần so sánh nhóm Married có giá trị 1 và nhóm Single/Divorced giá trị 2 nên
ta nhập 1 vào Group 1 và nhập 2 vào Group 2:
Trang 29
\
- Nhấn Continue để trở về hộp thoại Independent-Samples T Test
- Kích chọn nút Options để xác định độ tin cậy cho phép kiểm định, ở đây ta chọn độ tin cậy là 95% có nghĩa a = 0.05
Trang 30
- Kích chọn Continue để trở về hộp thoại Independent-Samples T Test
- Kích chọn OK, kết quả thu được các bảng sau:
- Nhận xét:
Kết quả ta có trong kiểm định sự bằng nhau của 2 phương sai tổng thể Levene thì Sig = 0.003 < a = 0.05 phương sai của 2 tổng thể là khác nhau do đó ta sẽ sửdụng kết quả kiểm định t ở phần Equal Variances not assumed
Ta có trong kiểm định t thì Sig = 0.1 > a = 0.05 điều này có nghĩa ta sẽ chấp nhận giả thuyết Ho, tức là không có sự khác biệt có ý nghĩa thống kê về
Number of Vacatons per year giữa 2 Married và Single/Divorced
2 Dùng ngôn ngữ R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference):
Trang 31
- Dùng lệnh attach() để đọc dữ liệu thực thi
- Xem dữ liệu nhập vào
- Dùng lệnh summary() để đưa ra một số thông số thống kê của bảng
2.2 Thực hiện các phép toán suy diễn thống kê:
2.2.1 Kiểm định trung bình một tổng thể
Trang 32
Với:
Age : là biến số cần kiểm định
mu = 35 là giá trị giả thuyết
- Nhận xét:
t = 2.728, với 33 bậc tự do, trị số p = 0.01012 < α = 0.05 R cũng cho biết độ tin cậy 95% của Age từ 35.9 đến 41.4 tuổi ( 35 tuổi nằm ngoài khoảng này) Vậy ta bác bỏ H0
2
2 1 2 Số kỳ nghỉ trung bình của khách du lịch của 34 đối tượng trong nghiến cứu này là 2.853 Giả sử, trước đây số kỳ nghỉ trung bình là 3 với mức ý nghĩa 5%
- Kiểm Cặp giả thuyết đặt ra như sau:
Number.of.Vacations.per.Year : là biến số cần kiểm định
mu= 3 là giá trị giả thuyết
Trang 33
2.2.2.1 K iểm định xem giữa biến Gender và Number of Vacations per Year
- Giả thuyết đặt ra như sau:
H0: Gender và Number of Vacations per Year không có mối quan hệ
H1: Gender và Number of Vacations per Year có mối quan hệ
- Giả thuyết đặt ra như sau:
H0: Relationship Status và Number of Vacations per Year không có mối quan hệ
H1: Relationship và Number of Vacations per Year có mối quan hệ
- Tiến hành:
Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)
- Nhận xét:
Trang 342.2.3 Kiểm định trung bình hai tổng thể:
- Qua phân tích Vacation Survey theo tình trạng quan hệ, ta thấy rằng người độc thân/ ly dị có nhiều kỳ nghỉ hơn ( 3.9 với 2.417) Vậy đây là sự khác biệt hệ thống hay là yếu tố ngẫu nhiên gây nên
H : µ1 = µ2
K : µ1 # µ1
- Tiến hành:
Trang 35
Là khoảng tin cậy 95% về độ khác biệt giữa hai nhóm Kết quả tính toán trên cho biết số kì nghỉ Number.of.Vacations.per.Year ở người đã có gia đình có thể thấp hơn người độc thân hoặc ly dị khoảng 3.3 chuyến hoặc cao hơn người độc thân hoặc ly dị 0.33 chuyến Độ khác biệt khá lớn, cho thấy không có nhiều ý nghĩa thống kê giữa hai nhóm
Trang 36
III BÀI 2: PILE FOUNDATION
1.Dùng R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference): 1.1 Nhập số liệu từ Excel vào R.
- Lưu file dưới dạng csv (Comma delimited)
- Dùng lệnh > setwd() để chuyển R về thư mục cứa file Vacation.csv cần phân tích
- Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến bf2 (bf2 = Pile
Foundation BT2)
- Dùng lệnh attach() để đọc dữ liệu thực thi
- Xem các cột dữ liệu
- Gõ tên biến vừa lưu dữ liệu để xem dữ liệu nhập vào
- Dùng lệnh summary() để đưa ra một số thông số thống kê của bảng
Trang 37
1.2 Thực hiện các phép toán suy diễn thống kê
1.2.1 Kiểm định mối liên hệ hai biến định danh, hay định danh thứ bậc:
VD : Kiểm định tính độc lập giữa 2 biến độ dài ước tính (Estimated) và độ dài
thực tế (Actual) của Pile
- Giả thuyết đặt ra như sau:
H0: Estimated và Actual không có mối quan hệH1: Estimated và Actual có mối quan hệ
- Tiến hành:
• Kiểm định t được định nghĩa bằng công thức
Trang 38Kiểm định t được định nghĩa bằng công thức.
Actual: là biến số cần kiểm định
mu = 35 là giá trị giả thuyết
R trình bày số t = -0.47892, với 310 bậc tự do, trị số p = 0.6323 > α = 0.05 R cũng cho biết độ tin cậy 95% của Actual từ 32.73305 đến 36.37943
Vậy ta chấp nhận bỏ giả thuyết H0 và căn cứ vào chênh lệch dương giữa trung bình mẫu và giá trị Test Value = 35, ta cho rằng độ dài ước tính trung bình của Pile khoảng gần bằng 35 Hai con số cuối cho biết ước lượng khoảng với độ tincậy 95% của Actual từ 32.73305 đến 36.37943
I.2.3 Kiểm định giả thuyết về giá trị trung bình của 2 tổng thể phố hợp theo từng cặp.
2.Dùng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với tập tin dữ liệu: Pile Foundation
Trang 39
- Nhập thông tin vào SPSS có 311 mẫu :
- Sau khi mở file dữ liệu, vào menu Analyze Descriptive Statistics
Frequencies
Đưa biến Estimated vào Rows và biến Actual vào Columns
Trang 40
- Click vào ô Statistics, xuất hiện hộp thoại sau:
Trang 41
- Chọn Continue để quay lại Crosstabs và nhấn OK Ta được 3 bảng kết quả:
Trang 42Hàng đầu tiên của bảng Chi-square Tests thể hiện giá trị P =0,000 rất nhỏ nên
ta bác bỏ giả thuyết H0 rằng không có mối liên hệ giữa Estimated vs Actual.Cuối bảng Chi-Square tests SPSS sẽ đưa ra dòng thông báo cho biết % số ô có tần suất mong đợi dưới 5 Kiểm định Chi-bình phương chỉ có ý nghĩa khi số quan sát đủ lớn, nếu có quá 20% số ô trong bảng chéo có tần số lý thuyết nhỏ hơn 5 thì giá trị chi-bình phương không còn đáng tin cậy Dòng cuối của kết quả trên cho biết tần số kỳ vọng dưới có 10431 ô chiếm 100%
Trong SPSS ,chọn Analyze Compare Means One-Sample T Test
Đưa biến Estimated vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value
Trang 43
Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau đó ấn Continue vàOK
Ta nhận được 2 bảng kết quả:
Trang 44
Nhận xét
Theo kết quả, giá trị trung bình của mẫu là Mean = 28.1776 , giá trị của kiểm định t là 31.069, và p-giá trị là 0.845 > α = 0.05 Vậy ta chấp nhận giả thuyết H0 và căn cứ vào chênh lệch dương giữa trung bình mẫu và giá trị Test Value =
28, ta cho rằng độ dài ước tính trung bình của Pile khoảng gần bằng 28 Hai con số cuối cho biết ước lượng khoảng với độ tin cậy 95% cho độ dài ước tính của Pile là (26,3930 ; 29,9621)
Có thể cho rằng độ dài trung bình ước tính của Pile (ký hiệu là µ) khi ước tính
Analyze Compare Means One-Sample T Test Đưa biến Number of
Vacations per Year vào khung Test Variable, khai báo giá trị cần so sánh của trung bình tổng thể vào ô Test Value
Trang 45
Chọn Options để chọn độ tin cậy cho khoảng ước lượng
Trang 462.3 Kiểm định giả thuyết về giá trị trung bình của 2 tổng thể phố hợp theo từng cặp.
- Vào menu Analyze Compare means Paired-samples T-test
Trang 49- Dùng lệnh setwd() để chuyển R về thư mục cứa file “lúa.xlsx” cần phân tích
- Dùng lệnh read_excel() để nhập dữ liệu và gán vào biến lab2
- Dùng lệnh attach() để đọc dữ liệu thực thi
- Xem dữ liệu nhập vào
Trang 50
1.2 Thực hiện các phép toán suy diễn thống kê:
1.2.1 Kiểm định trung bình một tổng thể
1.2.1.1 Năng suất trung bình của 49 đối tượng trong nghiên cứu này là 51,38 Giả
sử, trước đây năng suất trung bình là 50 tạ/ha với mức ý nghĩa 5%
- Cặp giả thuyết đặt ra như sau:
+ Năng suất(tạ/ha): là biến số cần kiểm định
+ mu = 50 là giá trị giả thuyết
Trang 51
t = 1.0172, với 47 bậc tự do, trị số p_value = 0.3143 < α = 0.05 R cũng cho biết độ tincậy 95% của Poductivity từ 48.64958 đến 54.11292 tạ/ha (50 tạ/ha nằm trong khoảng này)
Vậy ta chấp nhận H0
1.2.1.2 Số sản lượng trung bình của lúa thuộc 49 đối tượng trong nghiến cứu này
là 14165.87 Giả sử, trước đây số sản lượng trung bình là với mức ý nghĩa 5%
- Kiểm Cặp giả thuyết đặt ra như sau:
+ Quantity: là biến số cần kiểm định
+ mu= 14166 là giá trị giả thuyết
Trang 52
số t = -0.00020704, với 47 bậc tự do, trị số p_value = 0.9998 > α = 0.05 R cũng cho biết độ tin cậy 95% của biến kiếm định từ 12910.82 đến 15420.92 nghìn/tấn (14166 nghìn/tấn lúa nằm ngoài khoảng này)
Vậy ta từ chối H0
1.2.2 Kiểm định mối liên hệ hai biến định danh, hay định danh thứ bậc
1.2.2.1 Ta kiểm định xem giữa biến Season và Poductivity
- Giả thuyết đặt ra như sau:
+ H0: Season và Poductivity không có mối quan hệ
+ H1: Season và Poductivity có mối quan hệ
- Tiến hành:
- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)
Nhận xét:
p-value = 0.3894 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ
giữa Season và Poductivity.
Trang 53Kết quả p =0.4321 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ
giữa Season và Quantity.
1.2.2.3 Ta kiểm định xem giữa biến Poductivity và Quantity
- Giả thuyết đặt ra như sau:
+ H0: Poductivity và Quantity không có mối quan hệ
+ H1: Poductivity và Quantity có mối quan hệ
- Tiến hành:
- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)
Trang 54
Nhận xét:
Kết quả p =0.2452 > α = 0.05 Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ
giữa Poductivity và Quantity.
1.2.3 Kiểm định trung bình hai tổng thể:
Qua phân tích Lúa ở Việt Nam theo mùa vụ, ta thấy rằng mùa vụ Đông xuân có năng suất nhiều hơn mùa vụ Hè thu (57,79 với 44,97) Vậy đây là sự khác biệt hệ thống hay là yếu tố ngẫu nhiên gây nên
- Ta có:
+ H: µ1 = µ2
+ K: µ1 # µ1
- Tiến hành:
Trang 55
Nhận xét:
- P có giá trị rất nhỏ (< α = 0.05) điều này có nghĩa ta sẽ bác bỏ giả thuyết H0,
tức là Năng suất lúa của 2 vụ mùa là khác nhau.
2.Dùng ngôn ngữ SSPS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với các tập tin dữ liệu thực tế của Viêt Nam: “lúa.xlsx”
2.1 Kiểm định trung bình một tổng thể
2.1.1 Có thể cho rằng năng suất lúa trung bình của một vụ mùa là 50 tạ/ha
Cặp giả thuyết đặt ra: H0: µ = 50
H1: µ ≠ 50
Tiến hành:
- Chọn Analyze à Compare Means à One-Sample T Test