“LÚA.XLSX”
1. Dùng ngôn ngữ R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với các tập tin dữ liệu thực tế của Viêt Nam: “lúa.xlsx”
1.1 Nhập số liệu vào R:
- Dùng lệnh setwd() để chuyển R về thư mục cứa file “lúa.xlsx” cần phân tích
- Dùng lệnh read_excel() để nhập dữ liệu và gán vào biến lab2
- Dùng lệnh attach() để đọc dữ liệu thực thi
- Xem dữ liệu nhập vào
1.2. Thực hiện các phép toán suy diễn thống kê:
1.2.1. Kiểm định trung bình một tổng thể
1.2.1.1. Năng suất trung bình của 49 đối tượng trong nghiên cứu này là 51,38. Giả sử, trước đây năng suất trung bình là 50 tạ/ha với mức ý nghĩa 5%.
- Cặp giả thuyết đặt ra như sau:
H0: à = 50 H1: à # 50
- Tiến hành:
- Sử dụng lệnh t.test - Với:
+ Năng suất(tạ/ha): là biến số cần kiểm định + mu = 50 là giá trị giả thuyết
t = 1.0172, với 47 bậc tự do, trị số p_value = 0.3143 < α = 0.05. R cũng cho biết độ tin cậy 95% của Poductivity từ 48.64958 đến 54.11292 tạ/ha (50 tạ/ha nằm trong khoảng này).
Vậy ta chấp nhận H0.
1.2.1.2 Số sản lượng trung bình của lúa thuộc 49 đối tượng trong nghiến cứu này là 14165.87. Giả sử, trước đây số sản lượng trung bình là với mức ý nghĩa 5%.
- Kiểm Cặp giả thuyết đặt ra như sau:
H0: à = 14166 H1: à # 14166
- Tiến hành
- Sử dụng lệnh t.test - Với:
+ Quantity: là biến số cần kiểm định + mu= 14166 là giá trị giả thuyết
số t = -0.00020704, với 47 bậc tự do, trị số p_value = 0.9998 > α = 0.05. R cũng cho biết độ tin cậy 95% của biến kiếm định từ 12910.82 đến 15420.92 nghìn/tấn (14166 nghìn/tấn lúa nằm ngoài khoảng này).
Vậy ta từ chối H0.
1.2.2. Kiểm định mối liên hệ hai biến định danh, hay định danh thứ bậc 1.2.2.1. Ta kiểm định xem giữa biến Season và Poductivity.
- Giả thuyết đặt ra như sau:
+ H0: Season và Poductivity không có mối quan hệ + H1: Season và Poductivity có mối quan hệ
- Tiến hành:
- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)
Nhận xét:
p-value = 0.3894 > α = 0.05. Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ giữa Season và Poductivity.
+ H1: Season và Quantity có mối quan hệ - Tiến hành:
- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)
Nhận xét:
Kết quả p =0.4321 > α = 0.05. Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ giữa Season và Quantity.
1.2.2.3. Ta kiểm định xem giữa biến Poductivity và Quantity
- Giả thuyết đặt ra như sau:
+ H0: Poductivity và Quantity không có mối quan hệ + H1: Poductivity và Quantity có mối quan hệ
- Tiến hành:
- Dùng kiểm định Chi bình phương (Chi squared test, chisq.test)
Nhận xét:
Kết quả p =0.2452 > α = 0.05. Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ giữa Poductivity và Quantity.
1.2.3. Kiểm định trung bình hai tổng thể:
Qua phân tích Lúa ở Việt Nam theo mùa vụ, ta thấy rằng mùa vụ Đông xuân có năng suất nhiều hơn mùa vụ Hè thu (57,79 với 44,97). Vậy đây là sự khác biệt hệ thống hay là yếu tố ngẫu nhiên gây nên.
- Ta có:
+ H: à1 = à2 + K: à1 # à1
Nhận xét:
- P có giá trị rất nhỏ (< α = 0.05) điều này có nghĩa ta sẽ bác bỏ giả thuyết H0, tức là Năng suất lúa của 2 vụ mùa là khác nhau.
2.Dùng ngôn ngữ SSPS thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference) với các tập tin dữ liệu thực tế của Viêt Nam: “lúa.xlsx”
2.1. Kiểm định trung bình một tổng thể
2.1.1 Có thể cho rằng năng suất lúa trung bình của một vụ mùa là 50 tạ/ha Cặp giả thuyết đặt ra: H0: à = 50
H1: à ≠ 50 Tiến hành:
- Chọn Analyze à Compare Means à One-Sample T Test
- Đưa biến Năng suất vào khung Test Variable và nhập giá trị cần kiểm định vào ô Test Value.
Kết quả:
Nhận xét: - Trong bảng One-Sample Statistic, ta có giá trị trung bình của mẫu là
-1.35 4.113. Từ đó với độ tin cây 95%, khoảng tin cậy của năng suất lúa (48.65;54.113), có thể thấy năng suất lúa trung bình = 50 nằm trong khoảng tin cậy nên ta chấp nhật giả thuyết H0
2.1.2 Có thể cho rằng sản lượng lúa trung bình của một vụ mùa là 15 triệu tấn Cặp giả thuyết đặt ra: H0: à = 15000
H1: à ≠ 15000 Tiến hành: làm tương tự như năng suất Kết quả:
Nhận xét: - Trong bảng One-Sample Statistic, ta có giá trị trung bình của mẫu là 14165.861 và độ lệch chuẩn là 4322.2619
- Trong bảng One-Sample Test, biến Năng suất (tạ/ha) có không gian mẫu N = 48 nên df = 47, giá trị kiểm định t = -1.337, giá trị p-value (Sig.(2-tailed)) cho kiểm định hai phía này là 0.188 > 5% nên ta chấp nhận giả thuyết H0.
- Sự khác biệt trung bình = trung bình mẫu – trung bình giả thuyết = 15000 – 14165.861 = 834.139. Khoảng tin cậy 95% cho sự khác biệt với giá trị cần
2.2. Kiểm định trung bình hai tổng thể
2.2.1 Có thể cho rằng năng suất lúa của 2 vụ mùa như nhau không?
Cặp giả thuyết đặt ra: H0: à1 = à2 H1: à1 ≠ à2 Tiến hành:
Trước tiên chúng ta cần tạo một biến nhóm mới, bởi vì biến nhóm hiện tại trong tập dữ liệu bao gồm văn bản khá dài. Trong SPSS, a two-sample t-test phải được thực hiện với biến nhóm có chứa các giá trị số hoặc văn bản rất ngắn. Vì vậy, chúng ta cần tạo một biến mới có giá trị là 1 cho vụ mùa Hè Thu và 2 cho vụ mùa Đông Xuân, được gọi là biến giả
- Vào Transform -> Recode into Different Variables
Chọn Mùa vụ vào ô Input Variable -> Output variable.
Nhập Name và Label và nhấn nút Change
Làm tương tự như vậy với Đông xuân
Ta được kết quả như sau:
Để tiến hành Two-Sample T-Test: - Vào Analyze/Compare Means/Independent Samples T-Test
- Đưa biến định lượng muốn kiểm định (Năng suất (tạ/ha)) vào khung Test Variable. Đưa biến định tính muốn chia thành 2 nhóm vào khung Grouping Variable:
- Chọn nút Define Groups để chỉ định 2 nhóm cần so sánh với nhau, ở đây ta cần so sánh nhóm Hè thu có giá trị là 1 và nhóm Đông xuân giá trị là 2 nên ta nhập 1 vào Group 1 và nhập 2 vào Group 2
- Sau đó chọn Continue và OK Kết quả:
Nhận xét: - Kết quả ta có Sig. trong kiểm định Levene (kiểm định F) là 0.67 > 0.05 thì phương sai của 2 tổng thể không khác nhau, ta sử dụng kết quả kiểm định t ở dòng Equal variances assumed
- Ta có trong kiểm định t thì Sig = 0.00 <= 0.05 điều này có nghĩa ta sẽ bác bỏ giả thuyết H0, tức là Năng suất lúa của 2 vụ mùa là khác nhau
2.2.2 Có thể cho rằng sản lượng lúa của 2 vụ mùa như nhau không?
Cặp giả thuyết đặt ra: H0: à1 = à2 H1: à1 ≠ à2 Tiến hành: Làm tương tự như năng suất Kết quả:
Nhận xét: - Kết quả ta có Sig. trong kiểm định Levene (kiểm định F) là 0.27 > 0.05 thì phương sai của 2 tổng thể không khác nhau, ta sử dụng kết quả kiểm định t ở dòng Equal variances assumed
- Ta có trong kiểm định t thì Sig = 0.00 <= 0.05 điều này có nghĩa ta sẽ bác bỏ giả thuyết H0, tức là Sản lượng lúa của 2 vụ mùa là khác nhau