1. Trang chủ
  2. » Cao đẳng - Đại học

Bài tập lớn Xác suất thống kê

13 248 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 227,52 KB
File đính kèm Full Bài tập lớn XSTK.rar (601 KB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài tập lớn Xác suất thống kê thầy Thi Đại học bách khoa TPHCM Bao gồm file báo cáo + Excel + Thuyết trình CÂU 1: 1. ĐỀ BÀI 01 12 23 34 46 >=6 4050 71 430 1072 1609 1178 158 5060 54 324 894 1202 903 112 Mức ý nghĩa α = 5% 2. DẠNG BÀI Kiểm định tính độc lập (so sánh các tỷ lệ) 3. PHƯƠNG PHÁP GIẢI a. Giả thuyết: H: Các cặp Pi và Pi,0 bằng nhau : Có ít nhất một cặp Pi và Pi,0 khác nhau b. Giá trị thống kê Trong đó: Oij tần số thực nghiệm của ô thuộc hàng i, cột j (Observed Frequency) Eij tần số lý thuyết của ô thuộc hàng i, cột j (Expacted Frequency) r số hàng c số cột c. Biện luận: Nếu: => Bác bỏ giả thiết H và ngược lại Giá trị theo hàm CHITEST: Xác suất với bậc tự do df = (r1)(c1) Nếu => chấp nhận giả thiết H và ngược lại 4. CÔNG CỤ GIẢI Dùng MSEXCEL: Hàm tính tổng SUM và CHITEST 5. TÍNH TOÁN VÀ KẾT QUẢ Tỷ lệ hai nhóm tuổi là như nhau α = 5% Bảng số liệu nhập vào: Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 50 tuổi và nhóm từ 50 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930. Nhóm tuổi Thu nhập Có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các công nhân lành nghề này không? χ

Trang 1

CÂU 1:

1 ĐỀ BÀI

Mức ý nghĩa α = 5%

2 DẠNG BÀI

Kiểm định tính độc lập (so sánh các tỷ lệ)

3 PHƯƠNG PHÁP GIẢI

a Giả thuyết:

- H: <=>"Các cặp Pi và Pi,0 bằng nhau"

- : "Có ít nhất một cặp Pi và Pi,0 khác nhau"

b Giá trị thống kê

Trong đó:

Oij - tần số thực nghiệm của ô thuộc hàng i, cột j (Observed Frequency)

Eij - tần số lý thuyết của ô thuộc hàng i, cột j (Expacted Frequency)

r - số hàng

c - số cột

c Biện luận:

-Nếu: => Bác bỏ giả thiết H và ngược lại

-Giá trị theo hàm CHITEST:

Xác suất với bậc tự do df = (r-1)(c-1)

Nếu => chấp nhận giả thiết H và ngược lại

4 CÔNG CỤ GIẢI

-Dùng MS-EXCEL:

Hàm tính tổng SUM và CHITEST

5 TÍNH TOÁN VÀ KẾT QUẢ

-Tỷ lệ hai nhóm tuổi là như nhau α = 5%

-Bảng số liệu nhập vào:

Bảng sau đây cho ta phân bố thu nhập của hai nhóm tuổi: Nhóm từ 40 - 50 tuổi và nhóm

từ 50 - 60 tuổi trong số các công nhân lành nghề ở Thụy Điển năm 1930

Có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi này trong số các công nhân lành

nghề này không?

χ > χ − 1 − 1

χ

E

P X > χ

P X > χ > α

H

P = P , P , … , P

Trang 2

0-1 1-2 2-3 3-4 4-6 >=6

-Tính tần số thực nghiệm:

+Tính tổng các hàng và các cột

+Dùng hàm SUM với cú pháp =SUM(number 1, number 2)

+Ví dụ tính tổng hàng từ B58 đến G58

Ta dùng cú pháp: =SUM(B58:G58)

-Xuất ra tần số thực nghiệm:

-Tính tần số lý thuyết

+Tần số lý thuyết:

+Nhóm 40-50; thu nhập 0-1: Chọn ô B71 và nhập =H58*B60/H60

+Tương tự cho các ô còn lại

-Xuất ra tần số lý thuyết:

40-50 70.53203 425.4492 1109.33 1586.12 1174.22 152.349

50-60 54.46797 328.5508 856.672 1224.88 906.783 117.651

-Áp dụng hàm CHITEST:

-Chọn ô B77 và nhập =CHITEST(B58:G59,B71:G72)

Giá trị P: 0.511582

=> Chấp nhận H

6 KẾT LUẬN

Không có sự khác nhau về tỷ lệ thu nhập giữa hai nhóm tuổi 40-50 và 50-60 trong số các

công nhân lành nghề ở Thụy Điển năm 1930

+Sau đó dùng con trỏ chuột kéo nút tự điền cho các hàng hoặc cột tương tự

cần tính

ổ ộ

P X > χ = 0.51158 > α = 0.05

Trang 3

CÂU 2:

1 ĐỀ BÀI

2 DẠNG BÀI

-Ước lượng khoảng của trung bình tổng thể a

-Kiểm định giá trị trung bình

3 PHƯƠNG PHÁP GIẢI

a Ước lượng khoảng của trung bình tổng thể a

+Chưa biết phương sai tổng thể và n < 30

+Giá trị trung bình:

+Độ lệch chuẩn:

+Tra bảng:

+Giới hạn tin cậy:

+Khoảng ước lượng:

b Kiểm định giá trị trung bình

+Chưa biết phương sai tổng thể và các mẫu kích thước < 30

+Kiểm định giả thiết:

+Tra giá trị ngưỡng:

+Nếu

4.CÔNG CỤ GIẢI

-Sử dụng MS-EXCEL

+Ước lượng trung bình: dùng chương trình Descriptive Statistics để tìm giá trị

trung bình (Mean) và giới hạn tin cậy (Confidence Level)

Trước một chiến dịch quảng cáo, tỷ lệ phòng có khách ở trong một khách sạn được theo

dõi ngẫu nhiên trong 15 ngày và thu được kết quả là 86 92 83 88 79 81 90 76 80 91 85 89

77 91 và 83 phần trăm Sau khi kết thúc chiến dịch quảng cáo người ta theo dõi tỷ lệ này

trong 15 ngày và thu được kết quả là 88 94 97 99 89 93 92 98 89 90 97 91 87 80 và 96 phần

trăm Giả sử tỷ lệ phòng có khách là phân phối chuẩn Hãy ước lượng với độ tin cậy 95% tỷ

lệ phòng có khách trước và sau chiến dịch quảng cáo Với mức ý nghĩa 5% hãy cho ý kiến

là chiến dịch quảng cáo có thành công hay không?

+Kiểm định giá trị trung bình: dùng chương trình "t-Test: Two-Sample

Assuming Unequal Variances" để tìm tiêu chuẩn kiểm định (t Stat) và phân vị

một phía (t Critical one-tail)

̅ = ∑

= (n-1)

̅ − < < ̅ +

=

+

H: a < a H: a = a

T < −T n + n − 2 ⇒ a < a : chấp nhận giả thiết H

T ≥ T n + n − 2 ⇒ a = a : bác bỏ giả thiết H

Trang 4

5 TÍNH TOÁN VÀ KẾT QUẢ

a Ước lượng trung bình:

-Nhập bảng số liệu:

Trước QC Sau QC

-Thiết lập bảng Descriptive Statistics

+Data -> Data Analysis -> Descriptive Statistics

+Xuất hiện bảng Descriptive Statistics:

Input range (phạm vi đầu vào): $C$125:$D$140

Grouped By: columns

Confidence Level for Mean: 95%

-Bảng số liệu xuất ra:

Standard Error 1.381740333 Standard Error 1.316561177

Standard Deviation 5.3514573 Standard Deviation 5.099019514

Sample Variance 28.63809524 Sample Variance 26

Confidence Level(95.0%) 2.963538273 Confidence Level(95.0%) 2.823742887

Trang 5

-Khoảng ước lượng: ε = (Mean) ± (Confidence Level)

81.7698 87.69687 89.1763 94.8237

b Kiểm định giá trị trung bình:

-Thiết lập bảng t-Test: Two-Sample Assuming Unequal Variances:

+Data->Data Analysis->t-Test: Two-Sample Assuming Unequal Variances

+ Xuất hiện bảng t-Test: Paired Two Sample for Means

Variable 1 Range: $C$125:$C$140

Variable 2 Range: $D$125:$D$140

Alpha: 0.05

-Bảng số liệu xuất ra:

6 KẾT LUẬN

-Tỷ lệ phòng có khách của khách sạn trước và sau quảng cáo là:

-Chiến dịch quảng cáo của khách sạn thành công

x − ε

x ε

x + ε x − ε x + ε

t= −3.80744 < −t + − 2 = −1.7011309

⇒ a < a : Chấp nhận giả thiết H

t-Test: Two-Sample Assuming Unequal Variances

Hypothesized Mean Difference 0

P(T<=t) one-tail 0.0003512

t Critical one-tail 1.7011309

P(T<=t) two-tail 0.0007025

t Critical two-tail 2.0484071

Trước QC: 81.7698 < a < 87.6969

Sau QC: 89.176 < a < 94.824

Trang 6

CÂU 3:

1 ĐỀ BÀI

2 DẠNG BÀI

-Phân tích tương quan

-Hồi quy tuyến tính

3 PHƯƠNG PHÁP GIẢI

a Phân tích tương quan

-Hệ số tương quan:

-Hệ số xác định:

-Tỷ số tương quan:

: tổng các chênh lệch bình phương giữa các nhóm

: tổng các chênh lệch bình phương toàn bộ

b Hồi quy tuyến tính:

-Đường hồi quy tuyến tính: y = ax+b

Tuổi X và huyết áp Y của bệnh nhân trẻ em (dưới 14 tuổi), chọn ngẫu nhiên được cho

trong bảng sau đây:

Tính tỷ số tương quan, hệ số tương quan và hệ số xác định của Y đối với X Với mức

ý nghĩa α =5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến không? Có

tuyến tính không?)? Tìm đường hồi quy tuyến tính của Y đối với X Tính sai số tiêu chuẩn

của đường hồi quy

-Hệ số tương quan dùng để đo mức độ phụ thuộc tuyến tính giữa hai ĐLNN X và Y, tuy

nhiên chưa có một chỉ tiêu để đo mức độ phụ thuộc nói chung

-Hệ số tương quan giữa X và Y rất bé thậm chí bằng không thì giữa X và Y vẫn có một

mối quan hệ phi tuyến tính rất chặt chẽ

-Vậy để đo mức độ phụ thuộc của đại lượng ngẫu nhiên Y và đại lương ngẫu nhiên X

người ta đưa ra khái niệm tỷ số tương quan

Y 100 83 112 152 104 90 92 85 110 73 132 122 134 98 82 65

r = n(∑ xy) − (∑ x)(∑ y)

n ∑ x − ∑ x n ∑ y − ∑ y r

η / = SSF

SST SSF = n (x − x)

a =n ∑ xy − (∑ x)(∑ y)

n ∑ x − ∑ x

b = y − ax =∑ y − a ∑ x

n

Trang 7

-Kiểm định tương quan tuyến tính:

+Giả thiết:

Trong đó c là phân vị mức α/2 của phân bố Student với bậc tự do n-2

-Kiểm định tương quan phi tuyến:

+Giả thiết:

Trong đó c là phân phối Fisher với bậc tự do là (k-2)(n-k)

4 CÔNG CỤ GIẢI

-Sử dụng MS-EXCEL:

+Phân tích tương quan: dùng chương trình Correlation

+Hồi quy tuyến tính: dùng Anova: Single Factor và Regression

5 TÍNH TOÁN VÀ KẾT QUẢ

a Phân tích tương quan:

-Nhập bảng số liệu:

H: ρ = 0 X, Y không tương quan H: ρ ≠ 0

+T =r n − 2

1 − r +Nếu T < c ⇒ Chấp nhận H và ngược lại

H: η − ρ ≠ 0 không có tương quan phi tuyến +F =( − )( − )

(1 − )( − 2) +Nếu F > c ⇒ Bác bỏ H và ngược lại

Trang 8

-Thiết lập bảng Correlation:

+Data -> Data -> Correlation

+Xuất hiện bảng Correlation

Input Range (phạm vi đầu vào): $B$274:$C$290

Grouped by (nhóm dữ liệu theo): Columns (cột)

Output Range: $B$303

-Bảng số liệu xuất ra:

+Hệ số tương quan: r = 0.466627

+Hệ số xác định:

-Kiểm định tương quan tuyến tính:

+Giả thiết:

+Phân phối Student với α = 0.05 và bậc tự do n-2 = 14

Tra bảng ta được: c = 2.145 (=TINV(0.05,14))

+Vậy X, Y không có tương quan tuyến tính

b Phân tích tương quan phi tuyến:

-Sắp xếp lại và nhập bảng số liệu:

-Thiết lập bảng Anova: Single Factor

+Data -> Data Analysis -> Anova: Single Factor

Input Range (phạm vi đầu vào): $A$321:$G$325

Grouped by: Columns

Output Range: $A$340

-Bảng số liệu xuất ra:

Y

r = 0.218 H: ρ = 0 X, Y không tương quan +T =r n − 2

1 − r = 1.974050155

+ T < c ⇒ Chấp nhận H

Trang 9

Anova: Single Factor

SUMMARY

ANOVA

6943.75 5 1388.75 8.83429 0.00196 3.32583453

-Tỷ lệ tương quan:

+Tổng chênh lệch bình phương các giữa nhóm: SSF = 6943.75

+Tổng chênh lệch bình phương toàn bộ: SST = 8515.75

-Kiểm định tương quan phi tuyến:

+Giả thiết:

+Phân phối Fisher với α = 0.05; k-2 = 4; n-k = 10

Tra bảng ta được c = 3.47805 (=FINV(α, k-2, n-k))

+Vậy X, Y có tương quan phi tuyến

Source of Variation

Between Groups

Within Groups

Total

η / = SSF

SST=

6943.75 8515.75= 0.815401

η / = 0.903

H: η − ρ ≠ 0 không có tương quan phi tuyến +F =( − )( − )

(1 − )( − 2) = 8.094031

+F > c ⇒ Bác bỏ H

Trang 10

c Đường hồi quy tuyến tính:

-Nhập lại bảng số liệu:

-Thiết lập bảng Regression

+Data -> Data Analysis -> Regression

Input Y Range (phạm vi đầu vào Y): $B$388:$B$403

Input X Range (phạm vi đầu vào X): $C$388:$C$403

Output Range: $A$412

-Bảng số liệu xuất ra:

SUMMARY OUTPUT

Regression Statistics

0.466627 0.21774 0.161865 21.81337 16

ANOVA

Regression 1 1854.224 1854.22 3.89687

Residual 14 6661.526 475.823

Significance F

0.068444012 Observations

Multiple R

R Square

Adjusted R Square

Standard Error

Trang 11

Observation Predicted Y Residuals

1 118.4721 -18.4721

2 88.11324 -5.11324

3 106.7956 5.204412

4 102.125 49.875

5 106.7956 -2.79559

6 113.8015 -23.8015

7 88.11324 3.886765

8 92.78382 -7.78382

9 118.4721 -8.47206

10 88.11324 -15.1132

11 106.7956 25.20441

12 102.125 19.875

13 106.7956 27.20441

14 113.8015 -15.8015

15 88.11324 -6.11324

16 92.78382 -27.7838

-Hệ số góc: a = 2.335294

-Hệ số tự do: b = 85.77794

-Vậy đường hồi quy tuyến tính là: Y = 2.335294X + 85.77794

6 KẾT LUẬN

-Tỷ số tương quan:

-Hệ số tương quan: r = 0.466627

-Hệ số xác định: = 0.217741

-X, Y không có tương quan tuyến tính và có tương quan phi tuyến với α = 5%

-Phương trình đường hồi quan tuyến tính Y = 2.335294X + 85.77794

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%

Intercept 85.777941 9.915316165 8.651 5E-07 64.51170306 107.0442 64.5117031 107.044179

X Variable 1 2.3352941 1.182996344 1.974 0.068 -0.20198069 4.872569 -0.2019807 4.87256893

η / = 0.903

0 20 40 60 80 100 120 140 160

X

X Line Fit Plot

Y Predicted Y

Trang 12

CÂU 4:

1 ĐỀ BÀI

Mức ý nghĩa α = 10%

2 DẠNG BÀI

Phân tích phương sai hai yếu tố (không lặp)

3 PHƯƠNG PHÁP GIẢI

a Giả thiết:

- : Các giá trị doanh thu trung bình bằng nhau

- : Có ít nhất hai giá trị doanh thu trung bình khác nhau

b Giá trị thống kê:

Bảng ANOVA

c Biện luận:

4 CÔNG CỤ GIẢI

-Sử dụng MS-EXCEL:

Dùng chương trình "Anova: Two-Factor Without Replication"

Hãy phân tích tình hình kinh doanh của một số ngành nghề ở 4 quận nội thành trên cơ sở số

liệu về doanh thu trung bình như sau:

Khu vực kinh doanh Ngành nghề kinh doanh

Vật liệu xây dựng

Điện lạnh

Dịch vụ tin học

H: ≠

H: μ = μ = ⋯ = μ

Nguồn sai số Bậc tự do Tổng số

bình phương

Bình phương trung

gian

Giá trị thống kê Yếu tố A (hàng) r-1 SSB

Yếu tố B (cột) c-1 SSF

Sai số (r-1)(c-1)

SSE=SST-(SSF+SSB) Tổng cộng rc-1 SST

MSB = SSB

r − 1 F =

MSB MSE MSF = SSF

c − 1 F =

MSF MSE MSE = SSE

(r − 1)(c − 1)

-Nếu:F < F r − 1, r − 1 c − 1 ⇒Chấp nhận giả thiết H (yếu tố A)

-Nếu:F < F c − 1, r − 1 c − 1 ⇒ Chấp nhận giả thiết H (yếu tố B)

Trang 13

5 TÍNH TOÁN VÀ KẾT QUẢ

-Nhập bảng số liệu:

-Thiết lập bảng Anova: Two-Factor Without Replication

+Data -> Data Analysis -> Anova: Two-Factor Whithout Replication

+Xuất hiện bảng Anova: Two-Factor Without Replication

Input Range (phạm vi đầu vào): $B$46:$F$50

Labels (nhãn dữ liệu)

Alpha: 0.1

-Bảng số liệu xuất ra:

Anova: Two-Factor Without Replication

4 18.2 4.55 1.21667

4 11.7 2.925 2.72917

3 14.5 4.83333 0.92333

3 19.9 6.63333 52.9233

3 15.2 5.06667 17.1433

ANOVA

176.4817 2 88.2408 7.41953 0.02387 3.46330407 34.72917 3 11.5764 0.97337 0.46482 3.288761563 71.35833 6 11.8931

-Kết quả biện luận:

6 KẾT LUẬN

Doanh thu ở 4 quận nội thành không phụ thuộc khu vực kinh doanh mà phụ thuộc vào

ngành nghề

Source of Variation

Rows

Columns

Error

Total

Điện lạnh

Vật liệu xây dựng

Dịch vụ tin học

Ngành nghề kinh doanh Khu vực kinh doanh

Q2

Q3

Q4

SUMMARY

Điện lạnh

Vật liệu xây dựng

Dịch vụ tin học

Q1

F = 7.4195 > F r − 1, r − 1 c − 1 = 3.4633

⇒ Bác bỏ giả thiết H (yếu tố nghành nghề)

F = 0.9734 < F c − 1, r − 1 c − 1 = 3.2888

⇒ Chấp nhận giả thiết H (yếu tố khu vực)

Ngày đăng: 16/09/2018, 20:39

TỪ KHÓA LIÊN QUAN

w