ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA o O o BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ Giáo viên hướng dẫn Nguyễn Bá Thi Sinh viên Nguyễn Quốc Khang MSSV 1710124 Nhóm 2 Lớp L08 A 1 Một nghiên cứ[.]
Trang 1ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA
………… o O o…………
BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊGiáo viên hướng dẫn : Nguyễn Bá Thi Sinh viên : Nguyễn Quốc Khang
MSSV : 1710124
Nhóm 2 - Lớp L08-A
Trang 21 Một nghiên cứu được tiến hành ở thành phố công nghiệp X
để xác định tỷ lệ những người đi làm bằng xe máy, xe đạp và xe buýt
Việc điều tra được tiến hành trên hai nhóm Kết quả như sau:
Với mức ý nghĩa α=5%, hãy nhận định xem có sự khác nhau về tỉ lệ sử dụng các phương tiện giao thông đi
làm trong hai nhóm công nhân nam và công nhân nữ hay không.
Giải
-Dạng bài: Kiểm định giả thuyết về tỉ lệ
-Giả thuyết H 0: tỷ lệ sử dụng các phương tiện giao thông đi làm trong
hai nhóm công nhân nam và công nhân nữ giống nhao
-Cách làm: để so sánh 2 tỉ số của 2 kết quả đó, ta dùng kiểm định χ2
(chi-squared)
Tính giá trị: P(X>χ2) =CHITEST
Hàm CHITEST( actual_range, expected_range)
Nếu P(X>χ2) > α thì chấp nhận H0 và ngược lại
-Quy trình thực hiện Excel
+ Nhập dữ liệu vào bảng tính:
Trang 4+ Áp dụng hàm CHITEST để tìm kết quả:
Cú pháp hàm chitest : CHITEST (actual_range, expected_range)
Điền vào ô F25 biểu thức “=CHITEST(E13:G14,E21:G22)”
Kết quả ta được kết quả của P(X<χ2)
Biện luận: vì P=0.002189 <α=0.05 nên không chấp nhận giả thuyết H0
Kết luận : Tỷ lệ những người đi làm bằng xe máy, xe đạp và xe buýt
giữa 2 nhóm công nhân nam và công nhân nữ là khác nhau
2 Để nghiên cứu chiều cao của nam thanh niên ở nước A
và B, người ta lấy ngẫu nhiên ở mỗi
nước 28 nam thanh niên và tiến hành đo chiều cao (tính bằng cm)thì được kết quả sau:
Trang 5a) Với độ tin cậy 95%, hay ước lượng chiều cao trung bình của
nam thanh niên ở mỗi nước.
b) Có ý kiếm cho rằng chiều cao của nam thanh niên ở hai quốc gia là khác nhau Với mức ý nghĩa
0,05 hãy nhận xét ý kiến này.
Giả sử chiều cao nam thanh niên ở mỗi nước tuân theo quy luật
phân phối chuẩn
Giải
a)
Dạng bài: Ước lượng khoảng trung bình tổng thể’
Công cụ: Descriptive Statistic trong mục Data Analysis
Cách làm: Ta thu số liệu về trung bình mẫu và độ chính xác về chiều
cao của 2 nước A và B bằng công cụ Descriptive Statistic, từ đó ta ước
lượng được khoảng chiều cao trung bình của mỗi nước
Nhập lại bảng số liệu:
Nhập lại bảng số liệu theo cột dọc, ta được:
Trang 6Vào thẻ Data, chọ Data Analysis, chọn Descriptive Statistic, nhập dữ liệu như hình sau:
Trang 7Ta thu được bảng số liệu nước A
Thao tác tương tự cho nước B:
Trang 8Ta thu được bảng số liệu nước B
Ta thu được Độ chính xác ɛ:
Trang 9Khoảng ước lượng chiều cao trung bình nước A:
- Nhập ‘=I34-I47’ vào G51 và ‘=I34+I47’ vào I51
Dạng bài: Kiểm định giá trị trung bình, bài toán 2 mẫu
Phương pháp: So sánh 2 trung bình với dữ liệu từng cặp
Công cụ: t-Test: Paired Two Sample for Means trong thẻ Data
Ta dung công cụ t-Test: Paired Two Sample for Means để quét
dữ liệu 2 nước Nếu:
Trang 10Nhập dữ liệu như hình sau:
Ta được bảng sau:
Trang 11Ta thấy: t Stat=-2.422718559 , t Critical two-tail=2.051830516 Suy ra: |t|>tα/2
(X,Y)= (15,13),(25,22),(10,6),(15,17),(20,21),(10,10),(20,25), (25,18),(30,14),(30,10)
Trang 12Dạng bài: Kiểm định tương quan và hồi quy
a)Phân tích tương quan tuyến tính
+ Công cụ Correlation trong thẻ Data Analysis
+Giả thuyết H0 : X và Y không có tương quan tuyến tính + Nhập dữ liệu vào máy tính
Mở hộp thoại Data Analysis trong thẻ Data, chọn Correlation
Ta thu được kết quả:
Trang 13Kết luận : X và Y không tương quan tuyến tính.
b) Phân tích tương quang phi tuyến :
Công cụ: Anova Single Factor
o Giả thiết H1: X và Y không có tương quan phi tuyến
Copy dòng 9,10 đến dòng 27,28
Chọn vùng dữ liệu số cần sắp xếp lại rồi sắp xếp theo dòng X
Trang 14Ta được bảng số liệu
Thống kê lại ta được số liệu
Mở hộp thoại Data Analysis trong thẻ Data, chọn Anova Single FactorHộp thoại Anova Single Factor xuất hiện:
Trang 16Suy ra: F= 10.69167
Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (3, 7)
Dùng hàm FINV tính được
c = F.INV.RT(0.05,3,7) = 5.409451
F > c nên bác bỏ giả thiết H1
Vậy X và Y có tương quan phi tuyến
+ Phân tích đường hồi quy
Công cụ: Regression
Giả thiết H1: Hệ số hồi quy không có ý nghĩa
Giả thiết H2: Phương trình đường hồi quy không thích hợp
Nhập dữ liệu theo cột dọc bằng cách copy vùng A9->K10 đến ô B62 rồi sắp xếp theo độ lớn X tăng dần
Sau đó Copy toàn bộ B62:L63 rồi chọn H65, Paste Special, chọn
Transpose, chọn OK
Trang 17Ta được bảng sau:
Mở Data Analysis chọn Regression
Trang 18Ta được bảng số liệu:
Trang 19Và
Trang 20->Hệ số tự do không có ý nghĩa thống kê
Giá trị P của hệ số góc (P-value) = 0.36763> α = 0,05 => chấp nhậngiả thiết H
->Hệ số góc không có ý nghĩa thống kê
Giá trị F (Significance F) = 0.36763> α = 0,05 => Chấp nhận giả
X và Y không tương quan tuyến tính với mức ý nghĩa 5%
X và Y có tương quan phi tuyến với mức ý nghĩa 5%
Phương trình đường hồi quy của Y đối với X: y= 0.26x+ 10 không thíchhợp
Trang 214 Trên cơ sở tập số dữ liệu sau đây hãy phân tích xem tỷ lệ đỗ loại giỏi có phụ thuộc vào trường phổ thông và ban hay không với mức ý nghĩa α=0,05.
Ở đây z là tỷ lệ đỗ loại giỏi(%); f là tỷ lệ trường phổ thông số 1,2,3,4 ; g là ban (1 = Ban A, 2 = Ban B)
Giải
Dạng bài: Phân tích phương sai 2 nhân tố có lặp
Công cụ: Anova - Two Factor With Replication
Giả thiết H1: tỷ lệ đỗ loại giỏi không phụ thuộc vào ban
Giả thiết H2:tỷ lệ đỗ loại giỏi không phụ thuộc vào trường phổ thông
Quy trình thực hiện Excel
Giả thiết H3: không có sự tương tác giữa trường và ban
Nhập dữ liệu:
Vào Data Analysis chọn Anova- Two Factor With Replication, nhập dữ
liệu như sau:
Trang 22Ta được :
Và
Trang 23Biện luận:
Fsample =11.57143 > Fcrit= 5.317655 nên bác bỏ giả thuyết H1 (ban)
Fcolumns=55.38095 > Fcrit=4.066181 nên bác bỏ giả thuyết H2 (trường)Finteraction=0.904762 < Fcrit=4.066181 nên chấp nhận giả thiết H3
Kết luận: Vậy tỷ lệ đỗ loại giỏi có phụ thuộc vào trường phổ thông và
ban, không có sự tương tác giữa trường và ban