Step3: Sử dụng hàm CHIINV và các công thức để tính khoảng ước lượng của phươngsai.Kết quả: Câu 2: Chọn dữ liệu 2 biến định lượng hoặc xử lý số liệu theo nhóm cho phù hợp để lập bài toán
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH
-*** -BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ
GVHD: Nguyễn Kiều Dung
Nhóm: 07 Danh sách thành viên
TP.HCM, ngày 5 tháng 12 năm 2020
Trang 2Câu 1: Chọn 1 biến định lượng nào đó và thực hiện:
- Tìm các đặc trưng từ mẫu dữ liệu
- Tìm các khoảng tin cậy cho giá trị trung bình và phương sai của tổng thể
Trang 3- Phương sai mẫu hiệu chỉnh:
Ước lượng mẫu
- Ước lượng khoảng trung bình mẫu
- Ước lượng khoảng phương sai
Phương pháp giải trong trường hợp tổng thể có phân phối chuẩn
Để thuận tiện cho tra bảng, trong các bài toán tìm khoảng ước lượng của
phương sai ta luôn xét 1 = 2 = 2 Khi đó, khoảng ước lượng của phương sai
là:
Trang 43
Trang 5C Lời giải tính tay
̅̅̅
= 100 = 3.0125 ̂ 2 = 3.0125 − 1.6 2 = 0.4525
Trang 6Vậy khoảng ước lượng cần tìm là:
99 × 0.457 99 × 0.457 ( 128.422 ;
73.361 ) Hay (0.3523; 0.6167)
D Lời giải từ việc sử dụng exel
Step1: Nhập số liệu:
Step2: Sử dụng chức năng Data Analysis Chọn Descriptive Statistics
Trang 7Step3: Sử dụng hàm CHIINV và các công thức để tính khoảng ước lượng của phươngsai.
Kết quả:
Câu 2: Chọn dữ liệu 2 biến định lượng (hoặc xử lý số liệu theo nhóm cho phù hợp) để
lập bài toán kiểm định so sánh 2 trung bình tổng thể
A Lập bài toán cụ thể
Khảo sát 100 sinh viên K19 và 200 sinh viên K20 về mức chi tiêu cho việc ăn uốnghàng tháng của trường Đại Học Bách Khoa Tp.HCM được bảng số liệu sau :
Trang 8Phải chăng số tiền trung bình cho việc chi tiêu ăn uống hàng tháng của sinh viên K19
và K20 như nhau với mức ý nghĩa 5% ?
B Cơ sở lý thuyết
- Kiểm định so sánh trung bình 2 tổng thể:
Giả thiết điều kiện H0: a1=a2
Giả thiết đối điều kiện H1: a1≠a2
n1 và n2 đều lớn hơn 30 nên sử dụng bảng tra Laplace: ϕ(Zα)=(1-α)/2 => Zα
Miền bác bỏ khi giả thiết đối là : W α =(-∞;-Z α ) ∪ (Z α ;+∞)
Nếuthuộc miền bác bỏ thì bác bỏ giả thuyết và chất nhận giả thuyết điều kiện 1
C Lời giải tính tay
Gọi a1 và a2 là trung bình chi tiêu cho việc ăn uống của khóa K19 và
Phương sai mẫu hiệu chỉnh: 1 = 4.5707 × 10 11
Độ lệch chuẩn mẫu hiệu chỉnh: 1 = 676070.05
K20: n2=200
Trung bình mẫu: 2 = 1.397.500vnđ
Phương sai mẫu hiệu chỉnh: 2 = 5.3718 × 10 11
Trang 9Độ lệch chuẩn mẫu hiệu chỉnh: 2= 732925.6
Tiêu chuẩn kiểm định:=
D Lời giải từ việc sử dụng exel
Giả sử a1 và a2 lần lượt là trung bình số tiều chi tiêu cho việc ăn uống của
sinh viên K19, K20 của đại học Bách Khoa
Giải thuyết Ho: a1= a2
Giải thuyết đối H1: a 1 ≠a 2
Với mức ý nghĩa 5% và n 1 và n 2 đều lớn hơn 30 => ϕ(Z α ) =1−02.05 = 0.475 =>
Z α =1.96
Vậy miền bác bỏ w ( ; 1.96) (1.96; )
Step 1: Nhập số liệu vào excel
Step 2: Sử dụng Data Analysis Descriptive statistics
Step 3: Chọn vùng dữ liệu và vùng xuất
Trang 10Theo đề ta tính được các được trưng mẫu của khóa K19:
- Trung bình mẫu: 1 =1.600.000 (vnđ)
- Phương sai mẫu hiệu chỉnh : s 2 =4.57x10 11 1
- Độ lệch chuẩn mẫu hiệu chỉnh 1 =676070.05
Trang 11Tương tự ta cũng tính cho khóa K20 :
Trang 12Step 3: Chọn vùng dữ liệu:
- Nhóm 1 vào Variable 1 Range
- Nhóm 2 vào Variable 2 Range
Step 3: OK
Vì thuộc khoảng αnên ta có thể bác bỏ 0 tạm thời chấp nhận giả thiết đối 1
Kết luận số tiền chi tiêu trung bình cho việc ăn uống của sinh viên K19, K20 là
khác nhau
Trang 13Câu 3: Chọn dữ liệu cho k biến (k >= 3) (hoặc xử lý số liệu theo nhóm cho phù hợp)
để lập bài toán so sánh về trung bình k tổng thể
A Lập bài toán cụ thể
Với mức ý nghĩa 5% Kiểm định so sánh trung bình số tiền chi tiêu mỗi tháng cho
việc giải trí của sinh viên K18, K19, K20 của trường Đại học Bách Khoa Tp.HCM
với số liệu khảo sát được ở bảng sau (giả sử các tổng thể phân phối bình thường):
Giả sử chúng ta muốn so sánh trung bình k tổng thể (với ví dụ trên k=3) dựa trên
các mẫu ngẫu nhiên độc lập n1, n2, …, nk quan sát từ k tổng thể này Ta có 3 giả định
về các nhóm tổng thể được tiến hành phân tích ANOVA
- Các tổng thể này phân phối bình thường
- Các phương sai tổng thể bằng nhau
- Các quan sát được lấy mẫu độc lập với nhau
Nếu trung bình các tổng thể được kí hiệu là a1, a2, …, ak thì các giả định trên đươc đáp
ứng, mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm
định giả thuyết như sau:
H0: a1 =a2=…=ak
Giả thuyết H0 cho rằng trung bình k tổng thể đều bằng nhau ( Giả thuyết cho rằng các
yếu tố nguyên nhân không có tác động gì đến các vấn đề ta đang nghiêm cứu) Và giả
Trang 14Phương sai giữa các nhóm: MSG.
Cuối cùng Tỷ số F:
=
Sau đó so sánh & Kết luận giả thuyết
(Lời giải chi tiết ở phần tiếp theo)
C Lời giải tính tay
Gọi 1 , 2 , 3 lần lượt là trung trung bình số tiền chi tiêu trên tháng cho việc giải trí của sinh viên K18, K19, K20.
Phương sai trong nội bộ nhóm:
Trang 15Sử dụng hàm FINV trong exel : 0.05 (2; 347) = 3.022
Vậy: ∈ nên bác bỏ giả thuyết số tiền chi tiêu trung bình trên tháng cho việc giải trí của sinh viên ba khóa K18, K19, K20 là bằng nhau.
D Lời giải từ việc sử dụng excel
Trang 161 Dùng Data Analysis chọn Anova: Single Factor
Trang 173 Xuất ra kết quả như sau:
Câu 4: Chọn dữ liệu cho 2 biến (hoặc xử lý số liệu theo nhóm cho phù hợp) để lập
bài toán kiểm định so sánh về sự phân tán Trình bày các bước thực hiện và nhận xét kết quả
Trang 18A Lập bài toán cụ thể
Khảo sát về số tiền sinh viên chi tiêu cho việc ăn uống hàng tháng giữa sinh viênK19 và K20 (Trường Đại học Bách Khoa Tp.HCM) Chọn ngẫu nhiên 200 sinh viên để khảo sát, kết quả thu được cho ở bảng sau:
Với mức ý nghĩa 5%, hãy nêu kết luận về sự đồng đều của số tiền chi tiêu cho việc
ăn uống hàng tháng giữa sinh viên K19 và sinh viên K20
B Cơ sở lý thuyết giải bài toán
Dạng bài: Kiểm định giả thuyết cho phương sai hai tổng thể.
Công cụ giải: chức năng F-Test Two-Sample for Variances trên Excel.
là phương sai của mẫu thứ nhất, có kích cỡ 1 là phương sai của mẫu thứ nhất, có kích cỡ 2
Thông thường, để xác định mẫu nào là mẫu thứ nhất và mẫu nào là mẫu thứ hai
ta làm như sau: Trong khi tính đại lượng F thì giá trị phương sai lớn hơn sẽ được đặt
ở tử số, và như vậy mẫu tương ứng với phương sai đó là mẫu thứ nhất
Trang 19Giả thiết đặt ra kiểm định một bên:
0 : 1 = 2
1 : 1 > 2
Nếu tỉ số F rất lớn hoặc rất nhỏ ta có thể suy diễn bằng hai phương sai tổng thể khó mà bằng nhau được, ngược lại nếu tỉ
số này gần đến 1 ta sẽ có bằng chứng ủng hộ giả thiết 0 Nếu tổng thể lấy mẫu được giả định có phân phối bình thường thì tỉ lệ có
phân phối xác suất gọi tên là phân phối Fisher Các giá trị tới hạn của phân phối
Fisher phụ thuộc vào hai giá trị bậc tự do, bậc tự do của tử số ( 1 = 1 − 1) gắn liền với mẫu thứ nhất và bậc tự do của mẫu số ( 2 = 2 − 1) gắn liền với mẫu thứ hai.
Miền bác bỏ bên phải: = ( ( 1 ; 2 ); +∞)
Quy tắc để bác bỏ 0 với kiểm định một bên với mức ý nghĩa là: Giả thiết 0 bị bác bỏ nếu giá trị kiểm định thuộc miền bác bỏ hay là giá trị kiểm định lớn hơn giá trị tới hạn ( 1 ; 2 ).
C Lời giải tính tay và nhận xét kết quả
Gọi 1 và 2 lần lượt là phương sai của số tiền chi tiêu cho việc ăn uống hàng tháng của sinh viên K20 và K19.
Mức ý nghĩa 5% ⇒ = 0,05
Đặt giả thiết kiểm định:
: 2 = 2 “Độ đồng đều chi phí ăn uống hàng tháng của sinh viên hai
Biện luận: vì không thuộc miền bác bỏ nên chấp nhận 0 , bác bỏ 1
Kết luận: Độ đồng đều về chi phí ăn uống hàng tháng của sinh viên K19 và K20
là như nhau
18
Trang 20D Lời giải từ việc sử dụng Excel
Nhập dữ liệu vào Excel:
Chi tiêu cho việc ăn uống hàng tháng của sinh viên K19: A2 ⟹ A84
Chi tiêu cho việc ăn uống hàng tháng của sinh viên K20: C2 ⟹ C118
Chi tiêu cho việc ăn uống từng khoảng được lấy giá trị trung bình:
Trang 21 Mở Data Analysis chọn F-Test Two-Sample for Variances
Hộp thoại F-Test Two-Sample for Variances
- Variable 1 Range: Phạm vi dữ liệu biến 1 (Chi tiêu cho việc ăn uống của sinh viên K20:C2⇒C118).
- Variable 2 Range: Phạm vi dữ liệu biến 2 (Chi tiêu cho việc ăn uống
của sinh viên K19: A2⇒A84).
- L able : Nhãn (“K19”, “K20”): tick chọn.
- A lpha : Mức ý nghĩa (0,05).
- O utput Range: Phạm vi xuất dữ liệu (G2)
Kết quả thu được:
Trang 22Tiêu chuẩn kiểm định: = 1,10774041 (H9)
Giá trị tới hạn một bên: − = 1,40913369 (H11)
Miền bác bỏ: = (1,40913369; +∞)
Từ bảng trên, ta thấy được ∉
⇒ Chấp nhận 0 , bác bỏ 1
K19 và sinh viên K20 là như nhau
Câu 5: Chọn dữ liệu phù hợp để lập bài toán so sánh các tỉ lệ ( hay là bài toán kiểm
định tính độc lập) Trình bày các bước thực hiện và nhận xét kết quả
Trang 23chấp nhận giả thiết0 , việc chấp nhận giả thiết 0 tương đương với bác bỏ đối thiết 1 và ngược lại.
- Điều kiện số quan sát mỗi mẫu 1 , 2 ≥ 30.
=
∪( ;+∞)
+ 1 )
C Lời giải tính tay
- Gọi 1, 2 lần lượt là tỉ lệ chi phí đi lại cao của sinh viên K19, K20.
Trang 24D Lời giải từ việc sử dụng excel
So sánh tỉ lệ chi phí đi lại cao giữa K19 và K20
1 , 2 lần lượt là tỉ lệ chi phí đi lại cao của SV K19,K20.
- Giả thiết kiểm định 0 : 1 = 2
- Giả thiết đối 1 : 1 ≠ 2
Lấy từ số liệu chung cột chi phí đi lại của K19 và K20, tạo bảng số liệu mới về chiphí đi lại Trong đó chi phí đi lại trên 200 nghìn đồng sẽ kí hiệu là 1, dưới 200 nghìnđồng sẽ kí hiệu là 0 Như hình dưới:
- Thao tác trên Excel: Data/ Data Analysis/ t-Test: two-sample Assuming Equal
Variances
- Sau đó nhập số liệu theo từng ô:
Trang 25+Hai ô đầu tiên là nhập lần lượt cột số liệu của K19 và
K20 +Dưới là sự khác nhau của trung bình nhập là 0
Trang 26- t Critical two-tail = Zα = 1,96795 = (−∞ ; −1.9679) ∪ (1,9679 ; +∞)
có thể nói chi tiêu cho đi lại của K19 cao hơn K20.
* Nhận xét: chi phí đi lại của K20 thấp hơn K19 ta có thể đưa ra vài lí do:
- Năm nhất nên chưa quen đường, nên hay đi xe buýt => tiết kiệm tiền hơn
- Ít bạn bè, đa số chưa có người yêu nên ít đi chơi
- Năm nhất sẽ học quân sự ngay trong kì I nên ít tốn tiền đi lại
Câu 6: Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự đoán phương
trình đường hồi quy tuyến tính giữa chúng ( có hình vẽ minh họa) và nhận xét về
mối tương quan tuyến tính giữa 2 biến
A Lập bài toán cụ thể
Khảo sát hệ số tương quan giữa thời gian thí nghiệm mạch điện tử (X) với năng
lượng tiêu thụ trên tải (Y) Dự đoán phương trình đường hồi qua tuyến tính và nhận
xét về mối tương quan tuyến tính giữ chúng
Bảng số liệu về thời gian thí nghiệm mạch điện tử với công suất tiêu thụ
trên tải được lấy ngẫu nhiên trên các thiết bị :
(Nguồn: Bộ môn kĩ thuật điện, trường Đại học Bách Khoa TP.HCM)
B Cơ sở lý thuyết giải bài toán
Dạng bài: : Khảo sát hệ số tương quan giữa 2 biến định lượng cụ thể, dự
đoán phương trình đường hồi quy tuyến tính
1 Tìm hệ số tương quan X và Y:
- Hệ số tương quan là một chỉ số đo lường của một số loại tương quan, nghĩa là mối liên hệ thống kê giữa hai biến số
Trang 272 Phương trình đường hồi quy tuyến tính:
̅”= + , = , = − ”
Kiểm định hệ số a,b :
+ Giả thiết 0: Hệ số hồi quy không có ý nghĩa (=0)
+ Giả thiết 1: Hệ số hồi quy có ý nghĩa (≠ 0)
+ Trắc nghiệm t < , −2: chấp nhận 0
Kiểm định phương trình hồi quy:
+ Giả thiết 0: “Phương trình hồi quy tuyến tính không thích hợp.”
+ Giả thiết 1: “Phương trình hồi quy tuyến tính thích hợp.”
Trang 28+ 56.430 + 70.535 + 75.587) = 18659,9
Hệ số tương quan là:
= 18659,9 − 43,2.349,2 = 0.998399
√520,76.24613,56
Ta có hệ số tương quan bằng 0.998399 ≈ 1 cho thấy thời gian và năng lượng tiêu thụ có quan hệ bậc nhất.
Phương trình đường hồi quy tuyến tính :
D Lời giải từ việc sử dụng excel
- Dùng công cụ Data analysis => Regression (như hình dưới) :
+ Chọn dữ liệu biến Y (thời gian) vào cột “INPUT Y RANGE”
Trang 29+ Chọn dữ liệu biến X (Năng lượng tiêu thụ) vào cột “INPUT X RANGE”
+ Đánh dấu tick vào mục “Line Fit Plots”: vẽ đồ thị minh họa (hình dưới)
-Kết quả:
+Đồ thị:
Trang 30“Multiple R “: 0.995588 = Hệ số tương quan.
‘Intercept” = 47,07759 = hệ số A của phương trình hồi quy tuyến tính
“Thời gian( phút ) “= 6.961346 = hệ số B của phương trình hồi quy tuyến tính
Trang 31Số liệu thu thập: