Bài tập lớn Xác suất thống kê thầy Thi Đại học bách khoa TPHCM Bao gồm file báo cáo + Excel + Thuyết trình CÂU 1: 1. ĐỀ BÀI 01 12 23 34 46 >=6 4050 71 430 1072 1609 1178 158 5060 54 324 894 1202 903 112 Mức ý nghĩa α = 5% 2. DẠNG BÀI Kiểm định tính độc lập (so sánh các tỷ lệ) 3. PHƯƠNG PHÁP GIẢI a. Giả thuyết: H: Các cặp Pi và Pi,0 bằng nhau : Có ít nhất một cặp Pi và Pi,0 khác nhau b. Giá trị thống kê Trong đó: Oij tần số thực nghiệm của ô thuộc hàng i, cột j (Observed Frequency) Eij tần số lý thuyết của ô thuộc hàng i, cột j (Expacted Frequency) r số hàng c số cột c. Biện luận: Nếu: => Bác bỏ giả thiết H và ngược lại Giá trị theo hàm CHITEST: Xác suất với bậc tự do df = (r1)(c1) Nếu => chấp nhận giả thiết H và ngược lại 4. CÔNG CỤ GIẢI Dùng MSEXCEL: Hàm tính tổng SUM và CHITEST 5. TÍNH TOÁN VÀ KẾT QUẢ Tỷ lệ hai nhóm tuổi là như nhau α = 5% Bảng số liệu nhập vào: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 50 tuổi và nhóm từ 50 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930. Nhóm tuổi Thu nhập Có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề này không? χ
Trang 1CÂU 1:
1 ĐỀ BÀI
Mức ý nghĩa α = 5%
2 DẠNG BÀI
Kiểm định tính độc lập (so sánh các tỷ lệ)
3 PHƯƠNG PHÁP GIẢI
a Giả thuyết:
- H: <=>"Các cặp Pi và Pi,0 bằng nhau"
- : "Có ít nhất một cặp Pi và Pi,0 khác nhau"
b Giá trị thống kê
Trong đó:
Oij - tần số thực nghiệm của ô thuộc hàng i, cột j (Observed Frequency)
Eij - tần số lý thuyết của ô thuộc hàng i, cột j (Expacted Frequency)
r - số hàng
c - số cột
c Biện luận:
-Nếu: => Bác bỏ giả thiết H và ngược lại
-Giá trị theo hàm CHITEST:
Xác suất với bậc tự do df = (r-1)(c-1)
Nếu => chấp nhận giả thiết H và ngược lại
4 CÔNG CỤ GIẢI
-Dùng MS-EXCEL:
Hàm tính tổng SUM và CHITEST
5 TÍNH TOÁN VÀ KẾT QUẢ
-Tỷ lệ hai nhóm tuổi là như nhau α = 5%
-Bảng số liệu nhập vào:
Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 - 50 tuổi và nhóm
từ 50 - 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930
Có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các công nhân lành
nghề này không?
χ > χ − 1 − 1
χ
E
P X > χ
P X > χ > α
H
P = P , P , … , P
Trang 20-1 1-2 2-3 3-4 4-6 >=6
-Tính tần số thực nghiệm:
+Tính tổng các hàng và các cột
+Dùng hàm SUM với cú pháp =SUM(number 1, number 2)
+Ví dụ tính tổng hàng từ B58 đến G58
Ta dùng cú pháp: =SUM(B58:G58)
-Xuất ra tần số thực nghiệm:
-Tính tần số lý thuyết
+Tần số lý thuyết:
+Nhóm 40-50; thu nhập 0-1: Chọn ô B71 và nhập =H58*B60/H60
+Tương tự cho các ô còn lại
-Xuất ra tần số lý thuyết:
40-50 70.53203 425.4492 1109.33 1586.12 1174.22 152.349
50-60 54.46797 328.5508 856.672 1224.88 906.783 117.651
-Áp dụng hàm CHITEST:
-Chọn ô B77 và nhập =CHITEST(B58:G59,B71:G72)
Giá trị P: 0.511582
=> Chấp nhận H
6 KẾT LUẬN
Không có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi 40-50 và 50-60 trong số các
công nhân lành nghề ở Thụy Điển năm 1930
+Sau đó dùng con trỏ chuột kéo nút tự điền cho các hàng hoặc cột tương tự
cần tính
ổ ộ
P X > χ = 0.51158 > α = 0.05
Trang 3CÂU 2:
1 ĐỀ BÀI
2 DẠNG BÀI
-Ước lượng khoảng của trung bình tổng thể a
-Kiểm định giá trị trung bình
3 PHƯƠNG PHÁP GIẢI
a Ước lượng khoảng của trung bình tổng thể a
+Chưa biết phương sai tổng thể và n < 30
+Giá trị trung bình:
+Độ lệch chuẩn:
+Tra bảng:
+Giới hạn tin cậy:
+Khoảng ước lượng:
b Kiểm định giá trị trung bình
+Chưa biết phương sai tổng thể và các mẫu kích thước < 30
+Kiểm định giả thiết:
+Tra giá trị ngưỡng:
+Nếu
4.CÔNG CỤ GIẢI
-Sử dụng MS-EXCEL
+Ước lượng trung bình: dùng chương trình Descriptive Statistics để tìm giá trị
trung bình (Mean) và giới hạn tin cậy (Confidence Level)
Trước một chiến dịch quảng cáo, tỷ lệ phòng có khách ở trong một khách sạn được theo
dõi ngẫu nhiên trong 15 ngày và thu được kết quả là 86 92 83 88 79 81 90 76 80 91 85 89
77 91 và 83 phần trăm Sau khi kết thúc chiến dịch quảng cáo người ta theo dõi tỷ lệ này
trong 15 ngày và thu được kết quả là 88 94 97 99 89 93 92 98 89 90 97 91 87 80 và 96 phần
trăm Giả sử tỷ lệ phòng có khách là phân phối chuẩn Hãy ước lượng với độ tin cậy 95% tỷ
lệ phòng có khách trước và sau chiến dịch quảng cáo Với mức ý nghĩa 5% hãy cho ý kiến
là chiến dịch quảng cáo có thành công hay không?
+Kiểm định giá trị trung bình: dùng chương trình "t-Test: Two-Sample
Assuming Unequal Variances" để tìm tiêu chuẩn kiểm định (t Stat) và phân vị
một phía (t Critical one-tail)
̅ = ∑
= (n-1)
̅ − < < ̅ +
=
+
H: a < a H: a = a
T < −T n + n − 2 ⇒ a < a : chấp nhận giả thiết H
T ≥ T n + n − 2 ⇒ a = a : bác bỏ giả thiết H
Trang 45 TÍNH TOÁN VÀ KẾT QUẢ
a Ước lượng trung bình:
-Nhập bảng số liệu:
Trước QC Sau QC
-Thiết lập bảng Descriptive Statistics
+Data -> Data Analysis -> Descriptive Statistics
+Xuất hiện bảng Descriptive Statistics:
Input range (phạm vi đầu vào): $C$125:$D$140
Grouped By: columns
Confidence Level for Mean: 95%
-Bảng số liệu xuất ra:
Standard Error 1.381740333 Standard Error 1.316561177
Standard Deviation 5.3514573 Standard Deviation 5.099019514
Sample Variance 28.63809524 Sample Variance 26
Confidence Level(95.0%) 2.963538273 Confidence Level(95.0%) 2.823742887
Trang 5-Khoảng ước lượng: ε = (Mean) ± (Confidence Level)
81.7698 87.69687 89.1763 94.8237
b Kiểm định giá trị trung bình:
-Thiết lập bảng t-Test: Two-Sample Assuming Unequal Variances:
+Data->Data Analysis->t-Test: Two-Sample Assuming Unequal Variances
+ Xuất hiện bảng t-Test: Paired Two Sample for Means
Variable 1 Range: $C$125:$C$140
Variable 2 Range: $D$125:$D$140
Alpha: 0.05
-Bảng số liệu xuất ra:
6 KẾT LUẬN
-Tỷ lệ phòng có khách của khách sạn trước và sau quảng cáo là:
-Chiến dịch quảng cáo của khách sạn thành công
x − ε
x ε
x + ε x − ε x + ε
t= −3.80744 < −t + − 2 = −1.7011309
⇒ a < a : Chấp nhận giả thiết H
t-Test: Two-Sample Assuming Unequal Variances
Hypothesized Mean Difference 0
P(T<=t) one-tail 0.0003512
t Critical one-tail 1.7011309
P(T<=t) two-tail 0.0007025
t Critical two-tail 2.0484071
Trước QC: 81.7698 < a < 87.6969
Sau QC: 89.176 < a < 94.824
Trang 6CÂU 3:
1 ĐỀ BÀI
2 DẠNG BÀI
-Phân tích tương quan
-Hồi quy tuyến tính
3 PHƯƠNG PHÁP GIẢI
a Phân tích tương quan
-Hệ số tương quan:
-Hệ số xác định:
-Tỷ số tương quan:
: tổng các chênh lệch bình phương giữa các nhóm
: tổng các chênh lệch bình phương toàn bộ
b Hồi quy tuyến tính:
-Đường hồi quy tuyến tính: y = ax+b
Tuổi X và huyết áp Y của bệnh nhân trẻ em (dưới 14 tuổi), chọn ngẫu nhiên được cho
trong bảng sau đây:
Tính tỷ số tương quan, hệ số tương quan và hệ số xác định của Y đối với X Với mức
ý nghĩa α =5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có
tuyến tính không?)? Tìm đường hồi quy tuyến tính của Y đối với X Tính sai số tiêu chuẩn
của đường hồi quy
-Hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN X và Y, tuy
nhiên chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung
-Hệ số tương quan giữa X và Y rất bé thậm chí bằng không thì giữa X và Y vẫn có một
mối quan hệ phi tuyến tính rất chặt chẽ
-Vậy để đo mức độ phụ thuộc của đại lượng ngẫu nhiên Y và đại lương ngẫu nhiên X
người ta đưa ra khái niệm tỷ số tương quan
Y 100 83 112 152 104 90 92 85 110 73 132 122 134 98 82 65
r = n(∑ xy) − (∑ x)(∑ y)
n ∑ x − ∑ x n ∑ y − ∑ y r
η / = SSF
SST SSF = n (x − x)
a =n ∑ xy − (∑ x)(∑ y)
n ∑ x − ∑ x
b = y − ax =∑ y − a ∑ x
n
Trang 7-Kiểm định tương quan tuyến tính:
+Giả thiết:
Trong đó c là phân vị mức α/2 của phân bố Student với bậc tự do n-2
-Kiểm định tương quan phi tuyến:
+Giả thiết:
Trong đó c là phân phối Fisher với bậc tự do là (k-2)(n-k)
4 CÔNG CỤ GIẢI
-Sử dụng MS-EXCEL:
+Phân tích tương quan: dùng chương trình Correlation
+Hồi quy tuyến tính: dùng Anova: Single Factor và Regression
5 TÍNH TOÁN VÀ KẾT QUẢ
a Phân tích tương quan:
-Nhập bảng số liệu:
H: ρ = 0 X, Y không tương quan H: ρ ≠ 0
+T =r n − 2
1 − r +Nếu T < c ⇒ Chấp nhận H và ngược lại
H: η − ρ ≠ 0 không có tương quan phi tuyến +F =( − )( − )
(1 − )( − 2) +Nếu F > c ⇒ Bác bỏ H và ngược lại
Trang 8-Thiết lập bảng Correlation:
+Data -> Data -> Correlation
+Xuất hiện bảng Correlation
Input Range (phạm vi đầu vào): $B$274:$C$290
Grouped by (nhóm dữ liệu theo): Columns (cột)
Output Range: $B$303
-Bảng số liệu xuất ra:
+Hệ số tương quan: r = 0.466627
+Hệ số xác định:
-Kiểm định tương quan tuyến tính:
+Giả thiết:
+Phân phối Student với α = 0.05 và bậc tự do n-2 = 14
Tra bảng ta được: c = 2.145 (=TINV(0.05,14))
+Vậy X, Y không có tương quan tuyến tính
b Phân tích tương quan phi tuyến:
-Sắp xếp lại và nhập bảng số liệu:
-Thiết lập bảng Anova: Single Factor
+Data -> Data Analysis -> Anova: Single Factor
Input Range (phạm vi đầu vào): $A$321:$G$325
Grouped by: Columns
Output Range: $A$340
-Bảng số liệu xuất ra:
Y
r = 0.218 H: ρ = 0 X, Y không tương quan +T =r n − 2
1 − r = 1.974050155
+ T < c ⇒ Chấp nhận H
Trang 9Anova: Single Factor
SUMMARY
ANOVA
6943.75 5 1388.75 8.83429 0.00196 3.32583453
-Tỷ lệ tương quan:
+Tổng chênh lệch bình phương các giữa nhóm: SSF = 6943.75
+Tổng chênh lệch bình phương toàn bộ: SST = 8515.75
-Kiểm định tương quan phi tuyến:
+Giả thiết:
+Phân phối Fisher với α = 0.05; k-2 = 4; n-k = 10
Tra bảng ta được c = 3.47805 (=FINV(α, k-2, n-k))
+Vậy X, Y có tương quan phi tuyến
Source of Variation
Between Groups
Within Groups
Total
η / = SSF
SST=
6943.75 8515.75= 0.815401
η / = 0.903
H: η − ρ ≠ 0 không có tương quan phi tuyến +F =( − )( − )
(1 − )( − 2) = 8.094031
+F > c ⇒ Bác bỏ H
Trang 10c Đường hồi quy tuyến tính:
-Nhập lại bảng số liệu:
-Thiết lập bảng Regression
+Data -> Data Analysis -> Regression
Input Y Range (phạm vi đầu vào Y): $B$388:$B$403
Input X Range (phạm vi đầu vào X): $C$388:$C$403
Output Range: $A$412
-Bảng số liệu xuất ra:
SUMMARY OUTPUT
Regression Statistics
0.466627 0.21774 0.161865 21.81337 16
ANOVA
Regression 1 1854.224 1854.22 3.89687
Residual 14 6661.526 475.823
Significance F
0.068444012 Observations
Multiple R
R Square
Adjusted R Square
Standard Error
Trang 11Observation Predicted Y Residuals
1 118.4721 -18.4721
2 88.11324 -5.11324
3 106.7956 5.204412
4 102.125 49.875
5 106.7956 -2.79559
6 113.8015 -23.8015
7 88.11324 3.886765
8 92.78382 -7.78382
9 118.4721 -8.47206
10 88.11324 -15.1132
11 106.7956 25.20441
12 102.125 19.875
13 106.7956 27.20441
14 113.8015 -15.8015
15 88.11324 -6.11324
16 92.78382 -27.7838
-Hệ số góc: a = 2.335294
-Hệ số tự do: b = 85.77794
-Vậy đường hồi quy tuyến tính là: Y = 2.335294X + 85.77794
6 KẾT LUẬN
-Tỷ số tương quan:
-Hệ số tương quan: r = 0.466627
-Hệ số xác định: = 0.217741
-X, Y không có tương quan tuyến tính và có tương quan phi tuyến với α = 5%
-Phương trình đường hồi quan tuyến tính Y = 2.335294X + 85.77794
Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%
Intercept 85.777941 9.915316165 8.651 5E-07 64.51170306 107.0442 64.5117031 107.044179
X Variable 1 2.3352941 1.182996344 1.974 0.068 -0.20198069 4.872569 -0.2019807 4.87256893
η / = 0.903
0 20 40 60 80 100 120 140 160
X
X Line Fit Plot
Y Predicted Y
Trang 12CÂU 4:
1 ĐỀ BÀI
Mức ý nghĩa α = 10%
2 DẠNG BÀI
Phân tích phương sai hai yếu tố (không lặp)
3 PHƯƠNG PHÁP GIẢI
a Giả thiết:
- : Các giá trị doanh thu trung bình bằng nhau
- : Có ít nhất hai giá trị doanh thu trung bình khác nhau
b Giá trị thống kê:
Bảng ANOVA
c Biện luận:
4 CÔNG CỤ GIẢI
-Sử dụng MS-EXCEL:
Dùng chương trình "Anova: Two-Factor Without Replication"
Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành trên cơ sở số
liệu về doanh thu trung bình như sau:
Khu vực kinh doanh Ngành nghề kinh doanh
Vật liệu xây dựng
Điện lạnh
Dịch vụ tin học
H: ≠
H: μ = μ = ⋯ = μ
Nguồn sai số Bậc tự do Tổng số
bình phương
Bình phương trung
gian
Giá trị thống kê Yếu tố A (hàng) r-1 SSB
Yếu tố B (cột) c-1 SSF
Sai số (r-1)(c-1)
SSE=SST-(SSF+SSB) Tổng cộng rc-1 SST
MSB = SSB
r − 1 F =
MSB MSE MSF = SSF
c − 1 F =
MSF MSE MSE = SSE
(r − 1)(c − 1)
-Nếu:F < F r − 1, r − 1 c − 1 ⇒Chấp nhận giả thiết H (yếu tố A)
-Nếu:F < F c − 1, r − 1 c − 1 ⇒ Chấp nhận giả thiết H (yếu tố B)
Trang 135 TÍNH TOÁN VÀ KẾT QUẢ
-Nhập bảng số liệu:
-Thiết lập bảng Anova: Two-Factor Without Replication
+Data -> Data Analysis -> Anova: Two-Factor Whithout Replication
+Xuất hiện bảng Anova: Two-Factor Without Replication
Input Range (phạm vi đầu vào): $B$46:$F$50
Labels (nhãn dữ liệu)
Alpha: 0.1
-Bảng số liệu xuất ra:
Anova: Two-Factor Without Replication
4 18.2 4.55 1.21667
4 11.7 2.925 2.72917
3 14.5 4.83333 0.92333
3 19.9 6.63333 52.9233
3 15.2 5.06667 17.1433
ANOVA
176.4817 2 88.2408 7.41953 0.02387 3.46330407 34.72917 3 11.5764 0.97337 0.46482 3.288761563 71.35833 6 11.8931
-Kết quả biện luận:
6 KẾT LUẬN
Doanh thu ở 4 quận nội thành không phụ thuộc khu vực kinh doanh mà phụ thuộc vào
ngành nghề
Source of Variation
Rows
Columns
Error
Total
Điện lạnh
Vật liệu xây dựng
Dịch vụ tin học
Ngành nghề kinh doanh Khu vực kinh doanh
Q2
Q3
Q4
SUMMARY
Điện lạnh
Vật liệu xây dựng
Dịch vụ tin học
Q1
F = 7.4195 > F r − 1, r − 1 c − 1 = 3.4633
⇒ Bác bỏ giả thiết H (yếu tố nghành nghề)
F = 0.9734 < F c − 1, r − 1 c − 1 = 3.2888
⇒ Chấp nhận giả thiết H (yếu tố khu vực)