bài tập xác xuất thống kê

Với mức ý nghĩa α = 5%, mức độ thỏa mãn cuộc sống có giống nhau trong 5 thành phố trên hay không? Bài làm Dạng bài: Kiểm định giả thiết về tỉ lệ. Phương pháp giải: Áp dụng kiểm định khi bình phương ꭓ 2 Cơ sở lý thuyết: Giả thiết: H0: P1 = P1,0, P2 = P2,0=... = Pk,0  “ Các cặp Pi và Pi,0 giống nhau” H1: Ít nhất có một cặp Pi và Pi,0 khác nhau” Trong trắc nghiệm khi bình phương cho phép so sánh không những hai mà nhiều tỷ số (tỷ lệ hay xác suất) một cách tiện lợi. Dạng thống kê hay sử dụng nhất là: ꭓ 2= ∑ (Oi−Ei ) 2 Ei h i=1 Với Oi – các tần số thực nghiệm (observed frequency) Ei – các tần số lý thuyết ( expected frequency) Biện luận: + Nếu ꭓ 2 > ꭓ 2 a ⇒ Bác bỏ giả thiết H0( DF= k1) Trong chương trình MSEXCELVới mức ý nghĩa α = 5%, mức độ thỏa mãn cuộc sống có giống nhau trong 5 thành phố trên hay không? Bài làm Dạng bài: Kiểm định giả thiết về tỉ lệ. Phương pháp giải: Áp dụng kiểm định khi bình phương ꭓ 2 Cơ sở lý thuyết: Giả thiết: H0: P1 = P1,0, P2 = P2,0=... = Pk,0  “ Các cặp Pi và Pi,0 giống nhau” H1: Ít nhất có một cặp Pi và Pi,0 khác nhau” Trong trắc nghiệm khi bình phương cho phép so sánh không những hai mà nhiều tỷ số (tỷ lệ hay xác suất) một cách tiện lợi. Dạng thống kê hay sử dụng nhất là: ꭓ 2= ∑ (Oi−Ei ) 2 Ei h i=1 Với Oi – các tần số thực nghiệm (observed frequency) Ei – các tần số lý thuyết ( expected frequency) Biện luận: + Nếu ꭓ 2 > ꭓ 2 a ⇒ Bác bỏ giả thiết H0( DF= k1) Trong chương trình MSEXCELVới mức ý nghĩa α = 5%, mức độ thỏa mãn cuộc sống có giống nhau trong 5 thành phố trên hay không? Bài làm Dạng bài: Kiểm định giả thiết về tỉ lệ. Phương pháp giải: Áp dụng kiểm định khi bình phương ꭓ 2 Cơ sở lý thuyết: Giả thiết: H0: P1 = P1,0, P2 = P2,0=... = Pk,0  “ Các cặp Pi và Pi,0 giống nhau” H1: Ít nhất có một cặp Pi và Pi,0 khác nhau” Trong trắc nghiệm khi bình phương cho phép so sánh không những hai mà nhiều tỷ số (tỷ lệ hay xác suất) một cách tiện lợi. Dạng thống kê hay sử dụng nhất là: ꭓ 2= ∑ (Oi−Ei ) 2 Ei h i=1 Với Oi – các tần số thực nghiệm (observed frequency) Ei – các tần số lý thuyết ( expected frequency) Biện luận: + Nếu ꭓ 2 > ꭓ 2 a ⇒ Bác bỏ giả thiết H0( DF= k1) Trong chương trình MSEXCEL

Trang 1

Mục lục

Trang

Bài 1……… 3

Bài 2……… 4

Bài 3……… 9

Bài 4……….16

Trang 2

Bài 1:

Một cuộc điều tra xã hội được tiến hành ở 5 thành phố A, B, C ,D E yêu cầu những người được hỏi diễn tả mức độ thỏa mãn của mình đối với thành phố mà họ đang sống Kết như sau:

Thành phố Mức độ thỏa mãn

Rất thỏa mãn Tương đối Không

A 220 121 63

B 130 207 75

D 156 95 43

E 122 164 73

Với mức ý nghĩa α = 5%, mức độ thỏa mãn cuộc sống có giống nhau trong 5 thành phố trên hay không?

Bài làm

Dạng bài: Kiểm định giả thiết về tỉ lệ

Phương pháp giải: Áp dụng kiểm định khi bình phương ꭓ2

Cơ sở lý thuyết:

- Giả thiết:

H0: P1 = P1,0, P2 = P2,0=… = Pk,0  “ Các cặp Pi và Pi,0 giống nhau”

H1: Ít nhất có một cặp Pi và Pi,0 khác nhau”

- Trong trắc nghiệm khi bình phương cho phép so sánh không những hai mà nhiều tỷ số (tỷ lệ hay xác suất) một cách tiện lợi Dạng thống kê hay sử dụng nhất là:

ꭓ2= ∑ [(𝑂𝑖−𝐸𝑖)2

𝐸𝑖 ]

ℎ 𝑖=1

Với 𝑂𝑖 – các tần số thực nghiệm (observed frequency)

𝐸𝑖 – các tần số lý thuyết ( expected frequency)

- Biện luận:

+ Nếu ꭓ2 > ꭓ2𝑎 ⇒ Bác bỏ giả thiết H0( DF= k-1)

Trong chương trình MS-EXCEL có hàm số Chitest có thể tính:

Giá trị ꭓ2 theo biểu thức:

ꭓ2 = ∑ ∑ [(𝑂𝑖𝑗 − 𝐸𝑖𝑗)2

𝑐

𝑗=1

𝑟

𝑖=1

Với 𝑂𝑖𝑗 – các tần số thực nghiệm của ô thuộc hàng j cột j

𝐸𝑖𝑗 – các tần số lý thuyết của ô thuộc hàng j cột j

𝑟 là số hàng, 𝑐 là số cột

- Xác suất P(X> ꭓ2) với bậc tự do DF = (𝑟 -1)( 𝑐 -1) trong đó 𝑟 là số hàng, 𝑐 là số cột trong bảng ngẫu nhiên ( Contingency table)

- Nếu P(X> ꭓ2) > α⇒ Chấp nhận giả thiết H0 và ngược lại

Công cụ giải: hàm CHITEST trên Excel

Trang 3

Thực hiện thuật toán bằng Excel

• Nhập dữ liệu vào bảng tính:

Thành phố Mức độ thỏa mãn

A 220 121 63

B 130 207 75

D 156 95 43

E 122 164 73

• Tính tổng các hàng và các cột

Thành phố

Mức độ thỏa mãn

Tổng hàng

A 220 121 63 404

B 130 207 75 412

C 84 54 24 162

D 156 95 43 294

E 122 164 73 359 Tổng cột 712 641 278 1631

• Tính các tần số lý thuyết: tần số lý thuyết = (tổng hàng x tổng cột)/(tổng cộng)

Rất thảo mãn Tương đối Không

A 176.3629675 158.7762109 68.86082158

B 179.8553035 161.9202943 70.22440221

C 70.7198038 63.66768853 27.61250766

D 128.3433476 115.5450644 50.11158798

E 156.7185776 141.0907419 61.19068056

• Sử dụng hàm CHITEST để tính xác suất

CHITEST 3.52990E-13

• Kết quả và biện luận

Giả thiết H0: Mức độ thỏa mãn cuộc sống của 5 thành phố là như nhau

H1: Mức độ thỏa mãn cuộc sống của 5 thành phố là khác nhau

Ta có: P(X>ꭓ2) = 3.5299E-13 < α = 0.05

⇒Ta bác bỏ giả thiết H0 , chấp nhận giả thiết H1

Vậy: Mức độ thỏa mãn cuộc sống của 5 thành phố là khác nhau

Trang 4

Bài 2:

Để đánh giá hiệu quả của một chiến dịch quảng cáo, người ta so sánh doanh số của công

ty tại 6 khu vực thị trường trước và sau chiến dịch quảng cáo và thu được các số liệu sau ( đơn vị: triệu đồng/ tháng):

Trước khi quảng cáo Sau khi quảng cáo

Với độ tin cậy là 95% hãy ước lượng doanh số trung bình trước và sau chiến dịch quảng cáo Với mức ý nghĩa 5% hãy cho ý kiến là chiến dịch quảng cáo là có thành công hay không? Biết rằng doanh số của công ty là biến ngẫu nhiên phân phối chuẩn

Bài làm

Dạng bài: Kiểm định giá trị trung bình với phương sai bằng nhau và ước lượng hai trung

bình tổng thể

- Ước lượng giá trị trung bình:

Ta tính khoảng ước lượng trung bình theo công thức sau:

Với 𝑥 ̅ là giá trị trung bình còn là độ chính xác

- So sánh giá trị trung bình với phương sai bằng nhau

 Giả thiết:

Trường hợp hai mẫu có dữ liệu tương ứng từng cặp:

Ho: giả thuyết chiến dịch quảng cáo thành công

H1: giả thuyết chiến dịch quảng cáo không thành công

 Giá trị thống kê:

t = (𝑋1̅̅̅̅−𝑋2̅̅̅̅)−(𝜇1− 𝜇2)

√𝑆𝑝2(𝑁11+ 𝑁21)

= (𝑋1̅̅̅̅− 𝑋2̅̅̅̅)

√𝑆𝑝2(𝑁11+ 𝑁21)

Có phân phối Student với 𝛾 = N1 + N2 – 2 bậc tự do

𝑆𝑝2 = (𝑁1 − 1) 𝑆12+ (𝑁2 − 1) 𝑆21

𝑁1 + 𝑁2 − 2

Trang 5

 Biện luận:

Nếu | t | < t𝛼 hay 𝑡𝛼

2

(𝛾 = N1 + N2 – 2) => Chấp nhận giả thiết Ho

Thực hiện thuật toán bằng Excel

Phần 1: Ước lượng doanh số trung bình trước và sau chiến dịch quảng cáo

Mở hộp thoại Data Analysis chọn Descriptive Statistics

Nhập vào hộp thoại Desciptive Statistics

ₒ Input Range: phạm vi dữ liệu nhập vào

ₒ Grouped By: nhóm dữ liệu theo hàng hoặc cột (chọn hàng)

ₒ Labels in first row: nhãn ở cột đầu tiên (chọn)

ₒ Output Range: phạm vi dữ liệu xuất ra

ₒ Tích dấu chọn vào Summary statistics

ₒ Confidence Level for Mean: Nhập 95 (%)

Trước khi quảng cáo 620 600 640 630 570 600 Sau khi quảng cáo 660 620 670 620 580 630

Trang 6

Ta được bảng kết quả

Trước khi quảng cáo

Mean 610 Standard Error 10.32795559 Median 610 Mode 600 Standard Deviation 25.29822128 Sample Variance 640

Kurtosis

-0.166015625 Skewness -0.55586912 Range 70 Minimum 570 Maximum 640 Sum 3660

Confidence Level(95.0%) 26.54885504

Kết luận:

Doanh số trước khi quảng cáo là:

610 ± 26.5488550386206

Mở hộp thoại Data Analysis chọn Descriptive Statistics

Nhập vào hộp thoại Desciptive Statistics

Trang 7

Sau khi quảng cáo

Mean 630 Standard Error 13.16561177 Median 625 Mode 620 Standard Deviation 32.24903099 Sample Variance 1040

Kurtosis

-0.011094675

Skewness

-0.322013253 Range 90 Minimum 580 Maximum 670 Sum 3780

Confidence Level(95.0%) 33.84328248

Trang 8

Kết luận:

Doanh số sau khi quảng cáo là:

630 ± 33.8432824763682

Tổng kết:

+ Chiến dịch quảng cáo có tác dụng với doanh số

+ Doanh số trước khi quảng cáo là: 610 ± 26.5488550386206

+ Doanh số sau khi quảng cáo là: 630 ± 33.8432824763682

Phần 2: Tìm kết luận về tác dụng của chiến dịch quảng cáo

Mở hộp thoại Data Analysis chọn t-Test Two-Sample Assuming Equal Variances

Nhập vào hộp thoại t-Test Two-Sample Assuming Equal Variances

Trang 9

t-Test: Two-Sample Assuming Equal Variances

Kết quả

Trước khi quảng cáo Sau khi quảng cáo

Pooled Variance 840

Hypothesized Mean

Difference 0

t Stat -1.195228609

P(T<=t) one-tail 0.129786466

t Critical one-tail 1.812461123

P(T<=t) two-tail 0.259572932

t Critical two-tail 2.228138852

Giả thiết:

+ H0 : Chiến dịch quảng cáo thành công

+ H1 : Chiến dịch quảng cáo không thành công

Vì t Start < tα/2 nên chấp nhận giả thiết H0

Vậy chiến dịch quảng cáo thành công

Bài 3:

Một nghiên cứu được tiến hành ở Mỹ để xác định mối quan hệ giữa chiều cao của một người cỡ giày của họ Nhà nghiên cứu đã thu được số liệu như sau:

Trang 10

X 66 63 67 71 62 64 66 63 67 71 62 64

Y 9 7 8 10 6 11 6 8 5 12 5 9

trong đó X là chiều cao (đơn vị inches) còn Y là cỡ giày Tính tỷ số tương quan, tương quan giữa X và Y hệ số tương quan và hệ số xác định Y đối với X Với mức ý nghĩa α = 5%, có kết luận gì về mối tương quan giữa X và Y (Có phi tuyến hay không? Có tuyến tính hay không?) Tìm đường hồi quy của Y đối với X

Bài làm

Dạng bài: Bài toán kiểm định tương quan và hồi quy

a Phân tích tương quan:

- Hệ số tương quan có thể được ước tính bởi biểu thức:

𝜌̂ = 𝑅 = 𝑆𝑋𝑌

√𝑆𝑋𝑋𝑆𝑌𝑌 =

∑𝑛𝑖=1(𝑋𝑖 − 𝑋)(𝑌𝑖− 𝑌)

√∑ (𝑋𝑖 − 𝑋)2∑𝑛 (𝑌𝑖 − 𝑌)2

𝑖=1

𝑛 𝑖=1

- Hệ số xác định R2 ( Coeffocient of determination) là một trong các chỉ tiêu dung đánh giá mức độ phù hợp của mô hình thể hiện mối liên hệ tương quan tuyến tính, hệ số xác định

là bình phương của hệ số tương quan

- Kiểm định giả thiết về hệ số tương quan:

Giả thiết H0: X và Y không có tương quan tuyến tính

𝑇 = 𝑟√𝑛 − 2

√1 − 𝑟2

Dựa vào phân phối Student với bậc tự do n-2 ta có được giá trị 𝑡𝑛−2(𝛼

2), nếu giả thiết Ho là đúng Vì vậy, giả thiết Ho sẽ bị bác bỏ ở mức ý nghĩa 𝛼 nếu |T| > 𝑡𝑛−2(𝛼

2)

b Hồi quy tuyến tính :

𝑌̂𝑋 = 𝐵0+ 𝐵𝑋

𝐵0 = 𝑌̅ − 𝐵𝑋̅

𝐵 =∑ 𝑋𝑖𝑌𝑖− ∑ 𝑋𝑖𝑌𝑖/𝑁

∑ 𝑋𝑖2− 𝑁(𝑋̅)2

𝑌 − là biến số phụ thuộc (dependent / reponse variable)

𝑋 − là biến số độc lập ( independent / predictor variable)

𝐵0 𝑣à 𝐵 – các hệ số hồi quy ( regresstion coeficients)

Bảng Anova:

Trang 11

+ Giá trị thống kê:

Giá trị R-bình phương ( R-square):

𝑅 = 𝑆𝑆𝐴

𝑆𝑆𝐸 (100𝑅2: % của biến đổi trên Y được giải thích bởi X)

Độ lệch chuẩn ( Standard Error):

𝑆 = √ 1

𝑁 − 2∑(𝑋𝑖− 𝑌𝑖)2

(Sự phân tán của dữ liệu càng ít thì giá trị S càng gần 0)

+ Trắc nghiệm thống kê:

Đối với phương trình hồi quy, 𝑌̂𝑋 = 𝐵0+ 𝐵𝑋 , ý nghĩa thống kê của các hệ số 𝐵𝑗 (

𝐵0 ℎ𝑎𝑦 𝐵0)được đánh giá bằng trắc nghiệm t ( phân phối Student) trong khi tính chất thích hợp của phương trình 𝑌̂𝑋 = 𝑓(𝑥) được đánh giá trắc nghiệm F ( phân bố Fisher)

+ Trắc nghiệm t

- Giả thiết :

H0: 𝛽𝑖 = 0 “ Hệ số hồi quy không có ý nghĩa”

H1: 𝛽𝑖 ≠ 0 “ Hệ số hồi quy có ý nghĩa”

- Giá trị thống kê:

𝑡 = |𝐵𝑖− 𝛽𝑖|

√𝑆𝑛2 ; 𝑆𝑛2 = 𝑆

2

∑(𝑋𝑖− 𝑋̅)2 = 𝐵

√𝑆𝑛2

Phân bố Student 𝛾 = 𝑁 − 2

Biện luận:

Nếu t < tα(N-2) ⇒Chấp nhận giả thiết H0

+ Trắc nghiệm F

- Giả thiết

H0: 𝛽𝑖 = 0 “ Phương trình hồi quy không có ý nghĩa”

H1: 𝛽𝑖 ≠ 0 “ Phương trình hồi quy có ý nghĩa”

Trang 12

i Giá trị thống kê:

F= 𝑀𝑆𝑅

𝑀𝑆𝐸

Phân bố fisher 𝑣1 = 1, 𝑣2 = 𝑁 − 2 Kết luận

Nếu F< Fα(1, N-2) ⇒ Chấp nhận giả thiết H0

Công cụ giải: Correlation

Thực hiện thuật toán bằng Excel:

• Nhập dữ liệu:

X 66 63 67 71 62 64 66 63 67 71 62 64

Y 9 7 8 10 6 11 6 8 5 12 5 9

Mở hộp thoại Data Analysis chọn Correlation

Nhập vào hộp thoại Correlation

X 1

Y 0.53314 1

Biện luận:

n = 12

Từ bảng, ta có hệ số tương quan r = 0.533142623546057

Hệ số xác định: r2= 0.284241057

T= 1.992783017 Giá trị của T = 1.992783017 xác định theo công thức

Trang 13

Giả thiết: H0: X và Y không tương quan tuyến tính

Dựa vào phân phối Student với n-2 = 10 bậc tự do, mức ý nghĩa α= 0.05, ta tra bảng tìm tn-2(α/2) hoặc dùng hàm TINV

tn-2(α/2) = 2.228138852

So sánh ta thấy |T| < tn-2(α/2) Do đó chưa đủ cơ sở để bác bỏ giả thiết H

Vậy: X và Y không tương quan tuyến tính

Phân tích tương quan phi tuyến tính:

Nhập dữ liệu theo thứ tự tăng dần

X 62 63 64 66 67 71

Y 6 7 11 9 8 10

5 8 9 6 5 12

Giả thiết H1: X và Y không có tương quan phi tuyến

Mở hộp thoại Data Analysis chọn Anova Single Factor

Nhập vào hộp thoại Anova Single Factor

Trang 14

Anova: Single Factor

SUMMARY

Groups Count Sum Average Variance

62 2 11 5.5 0.5

63 2 15 7.5 0.5

64 2 20 10 2

66 2 15 7.5 4.5

67 2 13 6.5 4.5

71 2 22 11 2

ANOVA

Source of

Variation SS df MS F

P-value F crit Between Groups 44 5 8.8 3.7714 0.0685 4.387

Within Groups 14 6 2.333

Total 58 11

n=12, k=6

Tổng bình phương giữa các nhóm SSF = 44

Tổng bình phương nhân tố SST = 58

η2

Y/X = SSF/SST = 0.75862069

Tỷ số tương quan : ηY/X = 0.870988341

Giá trị F = 2.947930574

Phân bố Fisher mức α = 0,05 với bậc tự do (k-2, n-k) = (4,6)

Trang 15

Dùng hàm FINV ta tính được: C= 4.53367695

FINV là hàm tính toán trong excel để cho ra kết quả là nghịch đảo của phân bố xác suất F

Vì F < c nên chấp nhận giả thuyết H1

Vậy X và Y không tương quan phi tuyến tính

Phân tích hồi quy (sử dụng Regression)

Giả thiết H: Hệ số không thích hợp

Nhập bảng dữ liệu:

X Y

62 6

62 5

63 7

63 8

64 11

64 9

66 9

66 6

67 8

67 5

71 10

71 12

Trang 16

Mở Data Analysis chọn Regression

Nhập vào hộp thoại Regression

SUMMARY OUTPUT

Regression Statistics

Multiple R 0.53314

R Square 0.28424

Adjusted R Square 0.21267

Standard Error 2.0375

Observations 12

Trang 17

ANOVA

Significanc

e F

Regression 1 16.486

16.4

9

3.971

2 0.0743

Residual 10 41.514

4.15

1 Total 11 58

Coefficien

ts

Standar

d Error

t Stat

P-value

Lower 95%

Uppe

r 95%

Lower 95.0%

Upper 95.0%

Intercept -17.71 12.915

-1.37

1

0.200

3 -46.49 11.07 -46.49 11.07

X 0.39252 0.197

1.99

3

0.074

3 -0.046 0.831 -0.046 0.831

RESIDUAL OUTPUT

Observation

Predicted

Y

Residual

s

1 8.19626 0.8037

2 7.01869 -0.019

3 8.58879 -0.589

4 10.1589 -0.159

5 6.62617 -0.626

6 7.41121 3.5888

7 8.19626 -2.196

8 7.01869 0.9813

9 8.58879 -3.589

10 10.1589 1.8411

11 6.62617 -1.626

12 7.41121 1.5888

Hệ số góc = 0.392523364485981

Hệ số tự do = -17.7102803738318

Giá trị P của hệ số tự do (P-value) = 0.200270866648733 > α = 0,05 => Bác bỏ giả thiết H

Suy ra, hệ số tự do có ý nghĩa thống kê

Giá trị P của hệ số góc (P-value) =0.0742756317313767 > α = 0,05 => bác bỏ giả thiết H

Suy ra, hệ số góc có ý nghĩa thống kê

Giá trị F (Significance F) = 0.0742756317313767 > α = 0,05 => Bác bỏ giả thiết H

->Phương trình đường hồi quy thích hợp

Kết luận:

Trang 18

Tỷ số tương quan ηY/X =0.870988341

Hệ số tương quan r = 0.533142623546057

Hệ số xác định r² = 0.284241057

X và Y không tương quan tuyến tính với mức ý nghĩa 5%

X và Y không tương quan phi tuyến với mức ý nghĩa 5%

Phương trình đường hồi quy của Y đối với X: Y =0.392523364485981X + -17.7102803738318

Bài 4:

Hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt động kinh tế của các hộ gia đình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập của một hộ tươngứng với các ngành nghề nói trên như sau ( mức ý nghĩa 5%):

Nghề chính Nghề phụ (1) (2) (3) (4)

Trông lúa (1) 3.5 7.4 8 3.5 Trồng cây ăn quả (2) 5.6 4.1 6.1 9.6 Chăn nuôi (3) 4.1 2.5 1.8 2.1 Dịch vụ (4) 7.2 3.2 2.2 1.5

Bài làm:

Dạng bài: bài toán phân tích phương sai hai yếu tố không lặp

Giả thiết

Trang 19

H0: 𝜇1 = 𝜇2 = = 𝜇k  “Các giá trị trung bình bằng nhau”

H1: 𝜇i ≠ 𝜇j  “Ít nhất có hai giá trị trung bình khác nhau”

Giá trị thống kê:

𝐹𝑅 = 𝑀𝑆𝐵

𝑀𝑆𝐸 và 𝐹𝐶 = 𝑀𝑆𝐹

𝑀𝑆𝐸

Biện luận:

Nếu FR < Fα[r-1,(r-1)(c-1)] ⇒ chấp nhận H0 (yếu tố A)

Nếu FC < Fα[r-1,(r-1)(c-1)] ⇒ chấp nhận H0 (yếu tố A)

Công cụ giải: Two-Factor Without Replication

Thực hiện thuật toán bằng Excel

Giả thiết H: Các giá trị trung bình bằng nhau

Mở hộp thoại Data Analysis chọn Anova: Two-Factor Without Replication

Nghề chính Nghề phụ (1) (2) (3) (4) Trông lúa (1) 3.5 7.4 8 3.5 Trồng cây ăn quả (2) 5.6 4.1 6.1 9.6 Chăn nuôi (3) 4.1 2.5 1.8 2.1 Dịch vụ (4) 7.2 3.2 2.2 1.5

Định dạng
Số trang	20
Dung lượng	1,06 MB