Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3 Báo cáo bài tập lớn xstk nhóm 3Báo cáo bài tập lớn xstk nhóm 3
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HỒ CHÍ MINH
BÁO CÁO
BÀI TẬP LỚN
Bộ môn:
XÁC SUẤT THỐNG KÊ
GVHD:Nguyễn Bá Thi
Tên : Trần Văn Huy
MSSV:
Lớp :
Nhóm : L02-A
Nhóm : 03
Trang 2Câu 1:
Một xí nghiệp may sản xuất áo khoác với 4 màu: đỏ, xanh, vàng và tím than So khách hàng nam và nữ mua áo khoác với các màu được ghi trong bảng sau
than
Với mức ý nghĩa 1% hãy so sánh tỷ lệ khách hàng nam và nữ ưa chuộng các màu sắc nói trên
Dạng bài:
bài toán kiểm định giả thiết tỷ lệ
Phương pháp giải:
Giả thiết H0: Tỷ lệ khách hàng ưa chuộng các màu sắc nói trên là như nhau trong 2 nhóm
Giá trị thống kê:
χ2
=∑
i=1
k
[ (O i−E i)2
E i ]
Oi – các tần số thực nghiệm (TSTN)
Ei – các tần số lý thuyết (TSLT)
Trong Excel có hàm CHITEST có thể nhận giá trị χ2 theo công thức:
χ2=∑
j=1
r
∑
j =1
c
[ (O ij−E ij)2
E ij ]
Oij – các tần số thực nghiệm của các ô thuộc hàng i cột j
Eij - các tần số lý thuyết của các ô thuộc hàng i cột j
r là số hàng và c là số cột
Xác suất P (X>χ²) với bậc tự do DF = (r-1)(c-1)
Biện luận: nếu P (X>χ²) > α => chấp nhận giả thuyết : H0
Công cụ giải: Microsolf Excel
Cú pháp hàm CHITEST(actual_range,expected_range)
Trong đó:
- actual_range: Phạm vi dữ liệu chứa các giá trị cần đối chiếu với giá trị dự kiến, là
tham số bắt buộc
Trang 3- expected_range: Phạm vi dữ liệu chứa tỷ lệ của phép nhân tổng hàng và tổng cột
với tổng cộng
Ý nghĩa của hàm CHITEST: trả về giá trị của hàm xác suất từ phân phối
chi-squared và số bậc tự do tương ứng
Thực hiện bài toán bằng Excel:
Nhập số liệu vào Excel:
Tính các tổng số:
Tổng hàng: chọn ô F2 và nhập biểu thức = SUM(B2:E2)
Dùng con trỏ kéo nút tự điền từ ô F2->F3
Tổng cột: chọn ô B4 và nhập biểu thức =SUM(B2:B3)
Dùng con trỏ kéo nút tự điền từ ô B4->E4
Tổng cộng: chọn ô F4 và nhập biểu thức = SUM(B4:E4)
Tính các tần số lý thuyết:
Nữ thích màu đỏ: chọn ô B7 và nhập biểu thức = B4*F2/F4
Nữ thích màu xanh: chọn ô C7 và nhập biểu thức = C4*F2/F4
Nữ thích màu vàng: chọn ô D7 và nhập biểu thức = D4*F2/F4
Nữ thích màu tím than: chọn ô E7 và nhập biểu thức = E4*F2/ F4
Nam thích màu đỏ: chọn ô B8 và nhập biểu thức =B4*F3/F4 Nam thích màu xanh: chọn ô C8 và nhập biểu thức =C4*F3/F4 Nam thích màu vàng: chọn ô D8 và nhập biểu thức
=D4*F3/F4
Nam thích màu tím than: chọn ô E8 và nhập biểu thức
=E4*F3/F4
Trang 4Áp dụng hàm số CHITEST:
Chọn ô B10 và nhập vào =CHITEST(B2:E3,B7:E8)
Ta sẽ có được kết quả của P(X>X²):
Biện luận: Giá trị P = 0.0000000000000000017151444 < α = 0.01 => bác bỏ giả thiết H0
Kết luận: Tỷ lệ khách hàng ưa chuộng các màu sắc nói trên là khác nhau trong 2 nhóm nam và nữ
Trang 5Câu 2:
Điểm môn toan của một học sinh khối 5 của hai trường có số liệu như sau:
Với độ tin cậy 95%, hãy ước lượng điểm trung bình mon toán của hai trường Với mức ý nghĩa 5%,haỹ xem xét trung bình môn toán của hai trường có thực sự khác nhau không ? Giả sử điểm môn toán co quy luật phân phối chuẩn
Dạng bài: Kiểm định giả thiết về giá trị trung bình,.
Giả thiết: điểm trung bình môn toán hai trường giống nhau
Thực hiện bài toán bằng Excel:
Nhập dữ liệu:
Vào Data-Data Analysis-Descriptive Statistics
Thiết lập như hình:
Trang 6Ta được kết quả:
Theo công thức: x - ξ , x+ ξ
Ta có khoảng ước lượng điểm trung bình môn toán của Trường A là:
(7.6 - 0.5958; 7.6 + 0.5958)
Ta có khoảng ước lượng điểm trung bình môn toán của Trường B là:
Trang 7(7.32 – 0.5424 ; 7.32 +0.5424)
khác nhau không
Vào Data-Data Analysis-(t-Test:Two-Sample Assuming Unequal
Variances)-Ok
Trang 8Ta thấy rằng giá trị Tqs < Tα(n1 + n2 -2) 0.71724 < 2.01063
vậy nên điểm môn toán trung bình của 2 trường là giống nhau
Trang 9Câu 3
Từ 12 cặp quan sát (xi, yi) sau đây của cặp hai biến (X, Y), tính tỷ số tương quan, hệ số tương quan và hệ số xác định của Y đối với X Với mức ý nghĩa
α = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến
không? Có tuyến tính không?) Tìm đường hồi quy của Y đối với X
3 356 111 118 123 356 111 118 123 356 111 118
Y 4,2 4,1 3,7 3,9 4,5 4,1 3 3,8 2 3,1 3,4 3
Dạng bài:Phân tích tương quan và hồi quy
Phương pháp giải:
Phân tích tương quan tuyến tính:
Tìm hệ số tương quan r
Tìm hệ số xác định r2
Tính giá trị T theo công thức
So sánh T với c tra từ bảng với bậc tự do (n-2) và mức ý nghĩa α = 5% để đưa ra kết luận
Phân tích tương quan phi tuyến :
TÌm F theo công thức:
F=(η Y / X
2
−r2)(n−k )
(1−ηY / X2 )(k −2)
- Tính tỉ số tương quan η Y / X2 :
η Y / X2 =SSF
SST
Với SSF là tổng bình phương do nhân tố.
SST là tổng bình phương chung.
=> Tỷ số tương quan: ηY/X
Sử dụng Phân bố Fisher
Sau đó xét F so với c để đưa ra kết luận
Phân tích đường hồi quy:
Tìm đường hồi quy từ Excel Dạng y=A+Bx
Trang 10Công cụ giải: Excel- Data Analysis
Phân tích tương quan tuyến tính
Giả thuyết H 0: X và Y không tương quan tuyến tính
Nhập bảng số liệu sau:
Mở Data Analysis chọn Correlation
Hộp thoại Correlation xuất hiện
Input Range: phạm vi đầu vào (ô A1 ô M2) Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng) Labels in first column: nhãn ở cột đầu tiên (chọn)
Output Range: phạm vi dữ liệu xuất ra (ô A4)
Ta được kết quả:
Biện luận:
n = 12
Từ bảng kết quả, ta tìm được hệ số tương quan r = 0,177098
Hệ số xác định r² = 0,031364
Giá trị T = 0,569028
Phân phối Student mức α = 0,05 với bậc tự do n-2 = 10:
c = T.INV.2T(0,05;10) = 2,228139
Trang 11 |T| < c nên chưa bác bỏ giả thiết HT|T| < c nên chưa bác bỏ giả thiết H < c nên chưa bác bỏ giả thiết H0(chấp nhận giả thiết H0) Kết luận:
Vậy X và Y không có tương quan tuyến tính
Phân tích tương quan phi tuyến
Giả thiết H1: X và Y không có tương quan phi tuyến.
Nhập dữ liệu vào bảng tính sau khi đã sắp xếp lại:
Mở Data Analysis chọn Anova Single Factor
Hộp thoại Anova Single Factor xuất hiện
Input Range: phạm vi đầu vào (ô B8 ô E11)
Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn cột) Labels in first row: nhãn ở cột đầu tiên (chọn)
Alpha: giá trị α (0,05)
Output Range: phạm vi dữ liệu xuất ra (ô A13)
Ta được kết quả:
Trang 12Biện luận:
n = 12 , k = 4
Tổng bình phương giữa các nhóm SSF = 0,24
Tổng bình phương nhân tố SST = 5,366667
η2
Y/X = SSF/SST = 0,04472 Tỷ số tương quan : ηY/X =
0,211472
Giá trị F = 0,055929
Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (2, 8)
c = F.INV.RT(0,05; 2; 8) = 4,45897
F < c chấp nhận giả thiết H1
Kết luận:
X và Y không có tương quan phi tuyến
Phân tích đường hồi quy
Giả thiết H: Hệ số không thích hợp
Nhập dữ liệu vào bảng tính theo cột dọc:
Trang 13Mở Data Analysis chọn Regression
Hộp thoại Regression xuất hiện
Input Y Range: phạm vi đầu vào (ô B30 ô B42) Input X Range: phạm vi đầu vào (ô A30 ô A42) Labels: nhãn (chọn)
Line Fit Plots: vẽ đồ thị (chọn)
Output Range: phạm vi dữ liệu xuất ra (ô A44)
Ta được kết quả:
Trang 14Biện luận:
Hệ số góc = 0,001145
Hệ số tự do = 3,363998
Giá trị P của hệ số tự do (P-value) = 9,95x10-6 < α = 0,05 => Bác bỏ giả thiết H
Hệ số tự do có ý nghĩa thống kê
Giá trị P của hệ số góc (P-value) = 0,581892 > α = 0,05 => Chấp nhận giả thiết H
Hệ số góc không có ý nghĩa thống kê
Giá trị F (Significance F) = 0,581892 > α = 0,05 => Chấp nhận giả thiết H
Phương trình đường hồi quy không thích hợp
Kết luận phân tích đường hồi quy:
Phương trình đường hồi quy không thích hợp
Kết luận:
Trang 15Tỷ số tương quan ηY/X = 0,211472
Hệ số tương quan r = 0,177098
Hệ số xác định r² = 0,031364
X và Y không có tương quan tuyến tính với mức ý nghĩa 5%
X và Y không có tương quan phi tuyến với mức ý nghĩa 5% Phương trình đường hồi quy của Y đối với X: Y = 0,001145X + 3,363998 là không thích hợp
Trang 16Câu 4.
Với mức ý nghĩa 0,05 , hãy phân tích sự biến động của thu nhập ($/tháng/ người) trên cơ sở số liệu điều tra về thu nhập trung bình của 4 loại ngành nghề ở 4 khu vực khác nhau sau đây:
Loại ngành
Giả thiết H: Các giá trị trung bình bằng nhau.
Thực hiện bài toán bằng Excel:
Nhập dữ liệu bảng:
Áp dụng chương trình Anova : Two Factor Without Replication trong thẻ Data => Data Analysis
Ta được kết quả:
Trang 17Biện luận:
0.05
R
F F => Bác bỏ giả thiết H ( Ngành nghề )
0.05
C
F F => Chấp nhận giả thiết H ( Nơi làm việc ) Kết luận:
Chỉ có Ngành nghề ảnh hưởng đến thu nhập trung bình