Kết quả: Câu 2: Chọn dữ liệu 2 biến định lượng hoặc xử lý số liệu theo nhóm cho phù hợp để lập bài toán kiểm định so sánh 2 trung bình tổng thể.. Lập bài toán cụ thể Khảo sát 100 sinh
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH
-*** -
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
GVHD: Nguyễn Kiều Dung
Nhóm: 07 Danh sách thành viên
2 Phạm Minh Uy 1915867 L01 Điện-Điện tử
3 Phan Quốc Bảo 1912687 L01 Điện-Điện tử
4 Nguyễn Quốc Vương 1916000 L01 Điện-Điện tử
5 Nguyễn Văn Trường 1915741 L01 Điện-Điện tử
6 Bùi Lê Thanh Hào 1913219 L01 Điện-Điện tử
8 Nguyễn Tuấn Kiệt 1913878 L05 Điện-Điện tử
9 Nguyễn Nhật Trường 1915735 L11 Điện-Điện tử
TP.HCM, ngày 5 tháng 12 năm 2020
Trang 2Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:
- Tìm các đặc trưng từ mẫu dữ liệu
- Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể
𝑥2
̅̅̅ = 𝑥12𝑝1+ 𝑥22𝑝2+ ⋯ + 𝑥𝑘2𝑝𝑘 =𝑥1
2𝑛1+ 𝑥22𝑛2+ ⋯ + 𝑥𝑘2𝑛𝑘
𝑛Theo tính chất của phương sai ta có:
𝑠̂2 = |𝑥̅̅̅ − (𝑥̅)2 2|
Trang 3- Phương sai mẫu hiệu chỉnh:
Ước lượng mẫu
- Ước lượng khoảng trung bình mẫu
𝑍𝛼 =𝜀√𝑛
𝑠𝑋̅ − 𝛼
𝑠 ∼ 𝑁(0,1) 𝑛ê𝑛 2Φ(𝑍𝛼) = 1 − 𝛼 Tra bảng tìm được 𝑍𝛼
Từ đó:
𝜀 = 𝑍𝛼 𝑠
√𝑛 𝑣à 𝑘ℎ𝑜ả𝑛𝑔 ướ𝑐 𝑙ượ𝑛𝑔 𝑎 𝑙à (𝑥̅ − 𝜀; 𝑥̅ + 𝜀)
- Ước lượng khoảng phương sai
Phương pháp giải trong trường hợp tổng thể có phân phối chuẩn
(𝑛 − 1)𝑆2
𝜎2 ∼ 𝑋2(𝑛 − 1) Với 𝛼1+ 𝛼2 = 𝛼 ta có:
Để thuận tiện cho tra bảng, trong các bài toán tìm khoảng ước lượng của
phương sai ta luôn xét 𝛼1= 𝛼2 =𝛼
2 Khi đó, khoảng ước lượng của phương sai là:
Trang 4C Lời giải tính tay
Trang 5Vậy khoảng ước lượng cần tìm là:
(99 × 0.457128.422 ;
99 × 0.45773.361 ) Hay (0.3523; 0.6167)
D Lời giải từ việc sử dụng exel
Step1: Nhập số liệu:
Step2: Sử dụng chức năng Data Analysis Chọn Descriptive Statistics
Trang 6Step3: Sử dụng hàm CHIINV và các công thức để tính khoảng ước lượng của phương sai
Kết quả:
Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp) để
lập bài toán kiểm định so sánh 2 trung bình tổng thể
A Lập bài toán cụ thể
Khảo sát 100 sinh viên K19 và 200 sinh viên K20 về mức chi tiêu cho việc ăn uống hàng tháng của trường Đại Học Bách Khoa Tp.HCM được bảng số liệu sau :
Trang 7Phải chăng số tiền trung bình cho việc chi tiêu ăn uống hàng tháng của sinh viên K19
và K20 như nhau với mức ý nghĩa 5% ?
B Cơ sở lý thuyết
- Kiểm định so sánh trung bình 2 tổng thể:
Giả thiết điều kiện H0: a1=a2
Giả thiết đối điều kiện H1: a1≠a2
n1 và n2 đều lớn hơn 30 nên sử dụng bảng tra Laplace: ϕ(Zα)=(1-α)/2 => Zα
Miền bác bỏ khi giả thiết đối là : Wα=(-∞;-Zα) ∪ (Zα;+∞)
Giá trị trung bình: 𝑥 = 1
𝑛∑𝑛𝑖=1𝑥𝑖 Phương sai mẫu hiệu chỉnh: 𝑠2 = 1
𝑛−1∑𝑛𝑖=1(𝑥𝑖 − 𝑥)2 Tiêu chuẩn kiểm định: 𝑍𝑞𝑠 = |𝑥1 −𝑥2|
√𝑠12
𝑛1+
𝑠22 𝑛2
Nếu 𝑍𝑞𝑠 thuộc miền bác bỏ thì bác bỏ giả thuyết 𝐻𝑜 và chất nhận giả thuyết điều kiện
𝐻1
C Lời giải tính tay
Gọi a1 và a2 là trung bình chi tiêu cho việc ăn uống của khóa K19 và K20
Phương sai mẫu hiệu chỉnh: 𝑠12 = 4.5707 × 1011
Độ lệch chuẩn mẫu hiệu chỉnh: 𝑠1 = 676070.05
K20: n2=200
Trung bình mẫu: 𝑥2 = 1.397.500vnđ
Phương sai mẫu hiệu chỉnh: 𝑠22 = 5.3718 × 1011
Trang 8Độ lệch chuẩn mẫu hiệu chỉnh: 𝑠2 = 732925.6
Tiêu chuẩn kiểm định: 𝑍𝑞𝑠 = |𝑥1−𝑥2|
√𝑠12
𝑛1+
𝑠22 𝑛2
= |1600000−1397500|
√4.5707×1011
100 +5.3718×1011200
= 2.3774
Ta thấy 𝑍𝑞𝑠 thuộc miền bác bỏ nên bác bỏ giả thiết 𝐻𝑜 và có thể chấpnhận giả thiết H1
Kết luận chi tiêu cho việc ăn uống của khóa K19 và K20 là khác nhau
D Lời giải từ việc sử dụng exel
Giả sử a1 và a2 lần lượt là trung bình số tiều chi tiêu cho việc ăn uống của sinh viên K19, K20 của đại học Bách Khoa
Giải thuyết Ho: a1= a2
Giải thuyết đối H1: a1≠a2
Với mức ý nghĩa 5% và n1 và n2 đều lớn hơn 30
=> ϕ(Zα) = 1−0.05
2 = 0.475 => Zα=1.96 Vậy miền bác bỏ w ( ; 1.96)(1.96;)
a Tìm các thông số cần tính trên exel
Step 1: Nhập số liệu vào excel
Step 2: Sử dụng Data Analysis Descriptive statistics
Step 3: Chọn vùng dữ liệu và vùng xuất
Trang 9Theo đề ta tính được các được trưng mẫu của khóa K19:
Trang 10Tương tự ta cũng tính cho khóa K20 :
-Trung bình mẫu 𝑥2 =1.397.500 ( vnđ )
-Phương sai mẫu hiệu chỉnh 2
2
s =5.3718x1011-Độ lệch chuẩn mẫu hiệu chỉnh 𝑆2=732925.4
Vậy theo công thức ta tính được 𝑍𝑞𝑠 = |𝑥1−𝑥2|
√𝑠12
𝑛1+
𝑠22 𝑛2
Trang 11Step 3: Chọn vùng dữ liệu:
- Nhóm 1 vào Variable 1 Range
- Nhóm 2 vào Variable 2 Range
Step 3: OK
- Kết quả
Vì 𝑍𝑞𝑠 thuộc khoảng 𝑊α nên ta có thể bác bỏ 𝐻0 tạm thời chấp nhận giả thiết đối 𝐻1 Kết luận số tiền chi tiêu trung bình cho việc ăn uống của sinh viên K19, K20 là khác nhau
Trang 12Câu 3: Chọn dữ liệu cho k biến (k >= 3) (hoặc xử lý số liệu theo nhóm cho phù hợp)
để lập bài toán so sánh về trung bình k tổng thể
- Các tổng thể này phân phối bình thường
- Các phương sai tổng thể bằng nhau
- Các quan sát được lấy mẫu độc lập với nhau
Nếu trung bình các tổng thể được kí hiệu là a1, a2, …, ak thì các giả định trên đươc đáp ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định giả thuyết như sau:
H0: a1 =a2=…=ak
Giả thuyết H0 cho rằng trung bình k tổng thể đều bằng nhau ( Giả thuyết cho rằng các yếu tố nguyên nhân không có tác động gì đến các vấn đề ta đang nghiêm cứu) Và giả thuyết đó là:
H1: Tồn tại ít nhất một cặp trung bình tổng thể khác nhau
Dựa vào 𝛼 Miền bác bỏ: 𝑊𝛼 = (𝐹𝛼(𝑘 − 1; 𝑛 − 𝑘); +∞)
Phương sai trong nội bộ nhóm: MSW
Khóa
Số tiền
(Triệu đồng)
K18 (Nhóm 1)
K19 (Nhóm 2)
K20 (Nhóm 3)
Trang 13Phương sai giữa các nhóm: MSG
Cuối cùng Tỷ số F: 𝐹 = 𝑀𝑆𝐺
𝑀𝑆𝑊
Sau đó so sánh 𝐹 & 𝑊𝛼 Kết luận giả thuyết.
(Lời giải chi tiết ở phần tiếp theo)
C Lời giải tính tay
Gọi 𝑎1, 𝑎2, 𝑎3 lần lượt là trung trung bình số tiền chi tiêu trên tháng cho việc giải trí của sinh viên K18, K19, K20
Phương sai trong nội bộ nhóm:
Trang 14𝑀𝑆𝑊 = 𝑆𝑆𝑊
𝑛 − 𝑘=
115.21
350 − 3 = 0.332 Phương sai giữa các nhóm:
𝑀𝑆𝐺 = 𝑆𝑆𝐺
𝑘 − 1 =
25.8686
2 = 12.9343 Tiêu chuẩn kiểm định 𝐹𝑞𝑠 : 𝐹𝑞𝑠 = 𝑀𝑆𝐺
Miền bác bỏ: 𝑊𝛼 = (𝐹𝛼(𝑘 − 1; 𝑛 − 𝑘); +∞)
Sử dụng hàm FINV trong exel : 𝐹0.05(2; 347) = 3.022
Vậy: 𝐹𝑞𝑠 ∈ 𝑊𝛼 nên bác bỏ giả thuyết số tiền chi tiêu trung bình trên tháng cho việc giải trí của sinh viên ba khóa K18, K19, K20 là bằng nhau
D Lời giải từ việc sử dụng excel
1 Nhập số liệu:
Trang 151 Dùng Data Analysis chọn Anova: Single Factor
2 Chọn vùng dữ liệu và vùng xuất:
Trang 163 Xuất ra kết quả như sau:
Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập bài
toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả
Trang 17A Lập bài toán cụ thể
Khảo sát về số tiền sinh viên chi tiêu cho việc ăn uống hàng tháng giữa sinh viên K19 và K20 (Trường Đại học Bách Khoa Tp.HCM) Chọn ngẫu nhiên 200 sinh viên để khảo sát, kết quả thu được cho ở bảng sau:
B Cơ sở lý thuyết giải bài toán
Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể
Công cụ giải: chức năng F-Test Two-Sample for Variances trên Excel
𝑠22 là phương sai của mẫu thứ nhất, có kích cỡ 𝑛2
Thông thường, để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai
ta làm như sau: Trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt ở
tử số, và như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất
Trang 18Giả thiết đặt ra kiểm định một bên:
𝐻0: 𝜎12= 𝜎22
𝐻1: 𝜎12 > 𝜎22
Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể
khó mà bằng nhau được, ngược lại nếu tỉ số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thiết 𝐻0 Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ 𝐹
có phân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối Fisher phụ thuộc vào hai giá trị bậc tự do, bậc tự do của tử số (𝑑𝑓1 = 𝑛1− 1) gắn liền với mẫu thứ nhất và bậc tự do của mẫu số (𝑑𝑓2 = 𝑛2− 1) gắn liền với mẫu thứ hai
Miền bác bỏ bên phải: 𝑊𝛼 = (𝑓𝛼(𝑑𝑓1; 𝑑𝑓2); +∞)
Quy tắc để bác bỏ 𝐻0 với kiểm định một bên với mức ý nghĩa 𝛼 là: Giả thiết 𝐻0
bị bác bỏ nếu giá trị kiểm định 𝐹 thuộc miền bác bỏ 𝑊𝛼 hay là giá trị kiểm định 𝐹 lớn hơn giá trị tới hạn 𝑓𝛼(𝑑𝑓1; 𝑑𝑓2)
Nếu 𝐹 không thuộc miền bác bỏ 𝑊𝛼 hay 𝐹 < 𝑓𝛼(𝑑𝑓1; 𝑑𝑓2), chấp nhận giả thiết
𝐻0 với xác suất (1 − 𝛼)
C Lời giải tính tay và nhận xét kết quả
Gọi 𝜎12 và 𝜎22 lần lượt là phương sai của số tiền chi tiêu cho việc ăn uống hàng tháng của sinh viên K20 và K19
Mức ý nghĩa 5% ⇒ 𝛼 = 0,05
Đặt giả thiết kiểm định:
𝐻0: 𝜎12 = 𝜎22 “Độ đồng đều chi phí ăn uống hàng tháng của sinh viên hai khóa K19 và K20 là như nhau.”
𝐻1: 𝜎12 > 𝜎22 “Độ đồng đều chi phí ăn uống hàng tháng của sinh viên K20 lớn hơn sinh viên K19.”
Tìm miền bác bỏ:
𝑓𝛼(𝑑𝑓1; 𝑑𝑓2) = 𝑓𝑎(𝑛1− 1; 𝑛2 − 1) = 𝑓0.05(116; 82) = 1,4091 (vì không có giá trị 𝑓0.05(116; 82) trong bảng nên kết quả được lấy từ hàm FINV(0,05;116;82) trong Excel để tăng tính chính xác khi tính toán)
Biện luận: vì 𝐹 không thuộc miền bác bỏ nên chấp nhận 𝐻0, bác bỏ 𝐻1
Kết luận: Độ đồng đều về chi phí ăn uống hàng tháng của sinh viên K19 và K20
là như nhau
Trang 19D Lời giải từ việc sử dụng Excel
Nhập dữ liệu vào Excel:
Chi tiêu cho việc ăn uống hàng tháng của sinh viên K19: A2 ⟹ A84
Chi tiêu cho việc ăn uống hàng tháng của sinh viên K20: C2 ⟹ C118
Chi tiêu cho việc ăn uống từng khoảng được lấy giá trị trung bình:
Trang 20 Mở Data Analysis chọn F-Test Two-Sample for Variances
Hộp thoại F-Test Two-Sample for Variances
Input
- Variable 1 Range: Phạm vi dữ liệu biến 1 (Chi tiêu cho việc ăn uống
của sinh viên K20:C2⇒C118)
- Variable 2 Range: Phạm vi dữ liệu biến 2 (Chi tiêu cho việc ăn uống
của sinh viên K19: A2⇒A84)
- Lable : Nhãn (“K19”, “K20”): tick chọn
- Alpha : Mức ý nghĩa (0,05)
Output options
- Output Range: Phạm vi xuất dữ liệu (G2)
Kết quả thu được:
Trang 21Tiêu chuẩn kiểm định: 𝑭 = 1,10774041 (H9)
Giá trị tới hạn một bên: 𝑭 𝐶𝑟𝑖𝑡𝑖𝑐𝑎𝑙 𝑜𝑛𝑒 − 𝑡𝑎𝑖𝑙 = 1,40913369 (H11)
Câu 5: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm
định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả
Bài toán kiểm định giả thiết thống kê gồm một cặp giả thiết 𝐻0 và giả thiết đối
𝐻1 Dựa vào thông tin mẫu lấy được từ tổng thể ta phải đưa ra quyết định bác bỏ hay
Trang 22chấp nhận giả thiết 𝐻0, việc chấp nhận giả thiết 𝐻0 tương đương với bác bỏ đối thiết
Tiêu chuẩn kiểm định Miền bác bỏ H0 với mức ý
C Lời giải tính tay
- Gọi 𝑃1, 𝑃2 lần lượt là tỉ lệ chi phí đi lại cao của sinh viên K19, K20
Trang 23D Lời giải từ việc sử dụng excel
So sánh tỉ lệ chi phí đi lại cao giữa K19 và K20
𝑃1, 𝑃2 lần lượt là tỉ lệ chi phí đi lại cao của SV K19,K20
- Giả thiết kiểm định 𝐻0 : 𝑃1 = 𝑃2
- Giả thiết đối 𝐻1 : 𝑃1 ≠ 𝑃2
Lấy từ số liệu chung cột chi phí đi lại của K19 và K20, tạo bảng số liệu mới về chi phí
đi lại Trong đó chi phí đi lại trên 200 nghìn đồng sẽ kí hiệu là 1, dưới 200 nghìn đồng
sẽ kí hiệu là 0 Như hình dưới:
- Thao tác trên Excel: Data/ Data Analysis/ t-Test: two-sample Assuming Equal
Variances
- Sau đó nhập số liệu theo từng ô:
Trang 24+Hai ô đầu tiên là nhập lần lượt cột số liệu của K19 và K20
+Dưới là sự khác nhau của trung bình nhập là 0
Trang 25- t Critical two-tail = Zα = 1,96795 𝑊𝛼 = (−∞ ; −1.9679) ∪ (1,9679 ; +∞) -Dễ nhận thấy 𝑧𝑞𝑠 nằm trong miền bác bỏ 𝑊𝛼 => bác bỏ 𝐻0, chấp nhận 𝐻1, nghĩa là tỉ
lệ chi phí đi lại của K19 và K20 là khác nhau, hơn nữa ta thấy 𝑍𝑞𝑠 > Zα nên 𝑃1 > 𝑃2, hay có thể nói chi tiêu cho đi lại của K19 cao hơn K20
* Nhận xét: chi phí đi lại của K20 thấp hơn K19 ta có thể đưa ra vài lí do:
- Năm nhất nên chưa quen đường, nên hay đi xe buýt => tiết kiệm tiền hơn
- Ít bạn bè, đa số chưa có người yêu nên ít đi chơi
- Năm nhất sẽ học quân sự ngay trong kì I nên ít tốn tiền đi lại
Câu 6: Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự đoán phương
trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận xét về mối tương quan tuyến tính giữa 2 biến
A Lập bài toán cụ thể
Khảo sát hệ số tương quan giữa thời gian thí nghiệm mạch điện tử (X) với năng lượng tiêu thụ trên tải (Y) Dự đoán phương trình đường hồi qua tuyến tính và nhận xét về mối tương quan tuyến tính giữ chúng
Bảng số liệu về thời gian thí nghiệm mạch điện tử với công suất tiêu thụ trên tải được lấy ngẫu nhiên trên các thiết bị :
(Nguồn: Bộ môn kĩ thuật điện, trường Đại học Bách Khoa TP.HCM)
B Cơ sở lý thuyết giải bài toán
Dạng bài: : Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự đoán
phương trình đường hồi quy tuyến tính
1 Tìm hệ số tương quan X và Y:
- Hệ số tương quan là một chỉ số đo lường của một số loại tương quan, nghĩa là mối
liên hệ thống kê giữa hai biến số
Trang 262 Phương trình đường hồi quy tuyến tính:
Phương trình hồi quy tuyến tính:
𝑦̅𝑥 = 𝑎 + 𝑏𝑥, 𝑎 = 𝑟 , 𝑏 = − 𝑎𝑥̅
Kiểm định hệ số a,b :
+ Giả thiết 𝐻0: Hệ số hồi quy không có ý nghĩa (=0)
+ Giả thiết 𝐻1: Hệ số hồi quy có ý nghĩa (≠ 0)
+ Trắc nghiệm t < 𝑡𝛼,𝑛−2: chấp nhận 𝐻0
Kiểm định phương trình hồi quy:
+ Giả thiết 𝐻0: “Phương trình hồi quy tuyến tính không thích hợp.”
+ Giả thiết 𝐻1: “Phương trình hồi quy tuyến tính thích hợp.”
Trang 27D Lời giải từ việc sử dụng excel
- Dùng công cụ Data analysis => Regression (như hình dưới) :
+ Chọn dữ liệu biến Y (thời gian) vào cột “INPUT Y RANGE”
Trang 28+ Chọn dữ liệu biến X (Năng lượng tiêu thụ) vào cột “INPUT X RANGE”
+ Đánh dấu tick vào mục “Line Fit Plots”: vẽ đồ thị minh họa (hình dưới)
-Kết quả:
+Đồ thị:
Trang 29“Multiple R “: 0.995588 = Hệ số tương quan
‘Intercept” = 47,07759 = hệ số A của phương trình hồi quy tuyến tính
“Thời gian( phút ) “= 6.961346 = hệ số B của phương trình hồi quy tuyến tính
Trang 30Số liệu thu thập: