Các phương pháp dự báo (chuyên ngành: Toán ứng dụng)

Tính chất: Nếu biến ngẫu nhiên gốc có kỳ vọng toán EX =à , Độ lệch chuẩn này của X dùng để phản ánh sai số ước lượng gọi là sai số chuẩn Se của trung bình mẫu X: Se X n trong dãy số li

Trang 1

đại học thái nguyên trường đại học sư phạm

khoa toán

Các phương pháp dự báo Các phương pháp dự báo

Chuyên ngành: Toán ứng dụng

luận văn tốt nghiệp Đại học

Người hướng dẫn khoa học: C.n Mã Thế Đông

thái nguyên-2006

Mục lục

Trang 2

Trang

Trang bìa phụ……… 1

Mục lục 2

Mở đầu .3

Chương 1 Tổng quan về thống kê toán và các bài toán cơ bản 5

1.1 Tổng quan về thống kê toán .5

1.2 Các bài toán cơ bản 18

Chương 2 Phân tích hồi quy .45

2.1 Mục đích của phương pháp phân tích hồi quy 45

2.2 Hàm hồi quy 46

2.3 Mô hình hồi quy tuyến tính đơn .46

Chương 3 Phân tích chỗi thời gian 54

3.1 Một số khái niệm 54

3.2 Phân tích bằng hàm xu thế .55

3.3 Phân tích biến động mùa vụ .59

3.4 Phân tích biến động chu kỳ .60

Chương 4 Thống kê Bayes và lý thuyết quyết định thống kê 61

4.1 Thống kê Bayes .61

4.2 Lý thuyết quyết định thống kê 66

Một vài ứng dụng thực tế .76

Kết luận .82

Tài liệu tham khảo 83

Trang 3

Mở đầu

1 Lý do chọn đề tài

Trong khoa học và đời sống người ta cần phải thu thập các số liệu chẳng hạn về số lượng năng suất lúa ở các vùng trong nhiều năm, số liệu điều tra dân

số, số liệu về trình độ nhận thức của học sinh

Vấn đề đặt ra là: Sau khi thu thập các số liệu, ta phải trình bầy các số liệu đó một cách có hệ thống như thế nào? Từ các số liệu đó rút ra kết luận gì? Các số liệu đó phản ánh quy luật nào của sự vật đang xét, độ tin cậy của các kết luận? Phán đoán sự phát triển của sự vật? Cần phải có những quyết định gì trong hoạt động thực tiễn

Tất cả các vấn đề trên được quy tụ về bộ môn: Thống kê toán Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên

có tính chất số lớn trên cơ sở thu thập và xử lý các số liệu thống kê, các kết quả quan sát Nội dung chủ yếu của thống kê toán là xây dựng các phương pháp thu thập và xử lý các số liệu thống kê nhằm rút ra các kết luận khoa học

và thực tiễn Các phương pháp thống kê toán là công cụ để giải quyết nhiều vấn đề khoa học và thực tiễn nảy sinh trong các lĩnh vực khác nhau của tự nhiên và kinh tế xã hội

“Các phương pháp dự báo” là một trong những phương pháp thống kê toán Ta thấy việc lựa chọn quyết định hoạt động ở tương lại sẽ thuận lợi hơn, mang lại hiệu quả hơn khi đã biết phân bố xác suất của các dữ kiện ngẫu nhiên Các xác suất này thực chất là được đưa ra từ các kết quả thống kê của quá khứ dùng làm dự báo cho khả năng xảy ra trong tương lai Với mục đích chính của các phương pháp dự báo là dự báo đại lượng ngẫu nhiên trong tương lai Vì vậy các phương pháp dự báo được ứng dụng trong nhiều lĩnh vực khác nhau như: Kinh tế sản xuất, giao thông vận tải, xây dựng, và kể cả trong

Trang 4

giáo dục Dự báo được các kết cục xảy ra trong tương lai sẽ là điều kiện cơ sở

Chương 3: Phân tích chuỗi thời gian

Chương 4: Thống kê Bayes và lý thuyết quyết định thống kê

3 Mục đích yêu cầu

Đề tài Các phương pháp dự báo nghiên cứu nhằm:

- Tìm hiểu, hệ thống các vấn đề tổng quan về thống kê toán, các bài toán cơ bản của thống kê toán

- Bước đầu tìm hiểu kỹ thuật phán đoán, kỹ thuật phân tích hồi quy, kỹ thuật phân tích chuỗi thời gian để từ đó đưa ra một số ứng dụng thực tế

Trang 5

Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu

định tính hoặc định l−ợng nào đó đ−ợc gọi là tổng thể nghiên cứu hay tổng thể

Để nghiên cứu tổng thể có 2 cách:

- Nghiên cứu toàn bộ mọi phần tử của tổng thể

- Nghiên cứu đại diện: Lấy một số phần tử ra để nghiên cứu Từ những thông tin nhận đ−ợc, ta kết luận cho cả tổng thể

Trang 6

Một mẫu được coi là tốt nếu n vừa đủ để nghiên cứu và các phần tử vừa

được chọn ngẫu nhiên, vừa có tính đại diện cao

1.1.1.2.3 Phân loại mẫu (2 loại)

- Mẫu không lặp: Các phần tử của mẫu là khác nhau

- Mẫu lặp: Một phần tử của tổng thể có thể rơi vào mẫu nhiều lần (được nghiên cứu nhiều lần)

Nếu n rất bé, N rất lớn, ta có thể coi mẫu lặp và không lặp như nhau 1.1.2 Mẫu ngẫu nhiên

Xét biến ngẫu nhiên X, thử X n lần một cách độc lập Biến ngẫu nhiên X

Giả sử X1 nhận giá trị x1, ,Xn nhận giá trị xn Tập hợp n giá trị x1, ,

xn tạo thành một giá trị của mẫu ngẫu nhiên (mẫu thực nghiệm)

1.1.3.1.1 Sắp xếp theo các giá trị khác nhau

Từ tổng thể với biến ngẫu nhiên gốc X, rút ra 1 mẫu cụ thể có kích thước n :W = (X1, X2, ,Xn), ta xác định được k giá trị khác nhau k ≤ n

Trong đó: Giá trị x1 xuất hiện với tần số n1

Giá trị xk xuất hiện với tần số nk

Trang 7

a Sắp xếp các giá trị cụ thể xi theo trình tự tăng dần, ta có bảng phân phối tần

số thực nghiệm sau:

xi x1 x2 xk

ni n1 n2 nkTrong đó: n1 + n2 + + nk = n

Cho 1 mẫu ngẫu nhiên W = (X1, X2, ,Xn)

Ký hiệu: ωi(i = 1 ,k) - Tần số tích luỹ của xi, ω = i ∑

< ) (x j

j i

j

x x

n n

<

∑

Trang 8

1.1.3.2.2 Tính chất của hàm phân phối mẫu

1.1.3.3.1 Đa giác tần số

Đa giác tần số là đường gMy khúc mà các đoạn thẳng của nó nối các

điểm (x1, n1), (x2, n2), , (xk, nk) trên mặt phẳng (H.1)

1.1.3.3.2 Đa giác tần suất

Đa giác tần suất là đường gMy khúc mà các đoạn thẳng của nó nối các

điểm (x1, f1), (x2, f2), , (xk, fk) trên mặt phẳng.(H.2)

1.1.3.3.3 Tổ chức đồ

Khi dấu hiệu nghiên cứu có phân phối liên tục, ta xây dựng biểu đồ tần

số (tần suất) gọi là tổ chức đồ tần số (tần suất) (H.3)

Ta chia khoảng chứa tất cả các giá trị quan sát của mấu thành 1 số đoạn

có chiều dài bằng h, tại mỗi đoạn đưa vào tần số (tần suất) tương ứng Như vậy biểu đồ tần số sẽ là 1 hình thang tạo nên bởi nhiều hình chữ nhật, có đáy bằng

Trang 9

Tương tự biểu đồ tần suất là 1 hình bậc thang tạo nên bởi nhiều hình chữ nhật có đáy bằng h, chiều cao bằng

h

f

h i , lúc đó diện tích của hình chữ nhật thứ i bằng:

1.1.4.2 Một số thống kê đặc trưng của mẫu ngẫu nhiên

1.1.4.2.1 Các thống kê đặc trưng xu hướng trung tâm của phân phối của mẫu

a Trung bình mẫu (X )

W (X1 , X2 , , Xn) là mẫu ngẫu nhiên kích thức n

Trung bình mẫu là 1 thống kê, là trung bình của các giá trị mẫu:

∑

=

n i

Trang 10

Tính chất: Nếu biến ngẫu nhiên gốc có kỳ vọng toán E(X ) =à ,

Độ lệch chuẩn này của X dùng để phản ánh sai số ước lượng gọi là sai

số chuẩn Se của trung bình mẫu (X): Se (X)

n

trong dãy số liệu

+ n chẵn: trung vị là 2 giá trị nằm chính giữa của dãy số liệu Nó được gọi là khoảng trung vị

- Nếu các số liệu mẫu được ghép lớp theo phân phối tần số thì giá trị trung vị có thể tính gần đúng bởi công thức sau:

Xd ≈ L + h

n

S n

S - Tổng tần số của các lớp đứng trước lớp chứa trung vị

nx d - Tần số của lớp chứa trung vị

h - Độ dài của lớp chứa trung vị

Ví dụ 1:

Giả sử có số liệu mẫu: 240, 220, 210, 225, 235, 225, 270, 250, 280

Trang 11

Có n = 9 số liệu nên trung vị là giá trị thứ 5

2

1 9

= + trong dãy số liệu

đ−ợc xếp theo thứ tự tăng dần:

210, 220, 225, 225, 235, 240, 250, 270, 280

XdGiả sử có thêm số liệu 200, tức n = 10, do đó trung vị là 2 giá trị nằm chính giữa của dãy số liệu:

=

−

Trang 12

c Môt (X0)

Môt là giá trị có tần số lớn nhất trong dMy số liệu mẫu

- Nếu số liệu mẫu là rời rạc, và các giá trị x1, x2, ,xk xuất hiện với tần

số tương ứng n1, n2, , nk thì có thể xác định trực tiếp giá trị của mốt trên bảng phân phối tần số của mẫu

- Nếu các số liệu mẫu là ghép lớp theo bảng phân phối tần số thì:

Xo ≈ L + h

d d

L - Giới hạn dưới của lớp chứa môt

d1 - Hiệu số giữa tần số của lớp chứa môt và tần số của lớp đứng trước

d2- Hiệu số giữa tần số của lớp chứa môt và tần số của lớp đứng sau

h - Độ dài của lớp chứa môt

Ví dụ : Từ số liệu bảng 1 tìm giá trị môt :

Xo ≈ 20 + 5

12 20

a Khoảng biến thiên (R)

Khoảng biến thiên là sai lệch giữa giá trị lớn nhất và nhỏ nhất của mẫu

R = Xmax - Xmin

b Khoảng tứ phân vị

Nếu mẫu được chia thành 4 phần bằng nhau Tứ phân vị đầu là giá trị của mẫu đứng ở vị trí cách đơn vị đầu tiên 1/4 số đơn vị của mẫu Tứ phân vị thứ hai chính là trung vị Tứ phân vị thứ ba là giá trị của mẫu đứng ở vị trí cách đơn vị đầu tiên 3/4 số đơn vị của mẫu

Nếu các số liệu mẫu được ghép lớp thì các tứ phân vị được tính:

Trang 13

h n

S n

Q Q

Q

h n S n

hQ1, hQ3 - Độ dài của các lớp chứa Q1, Q3

Ví dụ 1: Từ dãy số liệu: 200, 210, 220, 225, 225, 235, 240, 250, 270, 280

Ta có : tứ phân vị đầu là giá trị nằm ở vị trí thứ n/4 =10/4 =2,5

Do thứ tự vị trí phải là nguyên do đó nó là giá trị nằm ở vị trí thứ 3 tức:

Q1 =220

Tứ phân vị thứ 3 là giá trị nằm ở vị trí 3n /4 = 3.10/ 4 = 7,5 do đó nó là giá trị nằm ở vị trí thứ 8 tức Q3 = 250

Trang 14

) (

.

1

X X

n i

n i i

n X X

2 1

2 2

1

1 ) (

1

X

2 ) (

1

- Kú väng to¸n cña tÇn suÊt mÉu E(f) = p

Sai sè chuÈn cña tÇn suÊt mÉu: Se(f) =

n

p

p( 1 − )

(13) NÕu mÉu lÊy ra theo ph−¬ng ph¸p kh«ng hoµn l¹i th× sai sè chuÈn mÉu:

Se (f) =

n

p p N

n

1

Trang 15

ở đây dấu hiệu nghiên cứu là chiều cao thanh niên Để xác định các thống kê mẫu như trung bình mẫu, phương sai mẫu ta lập bảng tính trong đó các lớp giá trị xi được thay bằng giá trị giữa của mỗi lớp

1.1.5 Quy luật phân phối xác suất của một số thống kê đặc trưng mẫu

Vì bản chất của các thống kê đặc trưng mẫu là các biến ngẫu nhiên Do

đó để nắm được đầy đủ thông tin về các thống kê này cần khảo sát quy luật phân phối xác suất của chúng

Quy luật phân phối xác suất của các thống kê đặc trưng mẫu phụ thuộc chặt chẽ vào quy luật phân phối xác suất của biến ngẫu nhiên gốc X

1.1.5.1 Biến ngẫu nhiên gốc phân phối theo quy luật chuẩn

Giả sử dấu hiệu nghiên cứu trong tổng thể xem như một biến ngẫu nhiên tuân theo quy luật chuẩn: E(X) = à, V(X) = δ2 Các tham số này đã biết

Trang 16

Nếu các biến ngẫu nhiên độc lập và cùng phân phối theo quy luật chuẩn thì mọi tổ hợp tuyến tính của các biến ngẫu nhiên cũng phân phối theo quy luật chuẩn

Vậy ta có X , S*2 phân phối theo quy luật chuẩn

) (

2 2

2

) (

1

δ

à à

δ δ

n i

X X

n

S n n X

n

) 1 (

) 1 ( : ) (

1

2 2 2

à δ

δ

à χ

Trang 17

Tần xuất mẫu f phân phối theo quy luật nhị thức với các tham số đặc tr−ng:

p p

−

1 1

< 0,3 thì tần suất mẫu phân phối chuẩn với E(f) = p,

Nếu đã biết quy luật phân phối xác suất cũng nh− các tham số đặc tr−ng của tổng thể thì có thể sử dụng các kết luận đó để suy đoán về tính chất của một mẫu ngẫu nhiên rút ra từ tổng thể Đây chính là việc sử dụng thông tin của tổng thể để suy đoán về một bộ phận của tổng thể

1.1.6.1 Suy diễn về mẫu ngẫu nhiên rút ra từ tổng thể phân phối chuẩn

1.1.6.1.1 Suy đoán về giá trị của trung bình mẫu

Có χ2 = 2

2 ) 1 (

Trang 18

P [ δ χ2 (α1 )

1 2

Giả sử biến ngẫu nhiên X trong tổng thể phân phối không –một với tần

số p.Từ tổng thể rút ra một mẫu kích thước n.Ta có thống kê: U =

) 1 (

) (

p p

n p f

p p

ư

1 1

< 0,3 thì với xác suất

1 - α, tìm được cặp α1, α2: α1 + α2 = α và giá trị tới hạn u(1ưα1),uα2tương ứng thoả:

1.2.1.Bài toán 1: Ước lượng các tham số của biến ngẫu nhiên

Bài toán ước lượng tham số: cho biến ngẫu nhiên X với quy luật phân phối xác suất đM biết song chưa biết tham số θ nào đó của nó Phải ước lượng (xác định một cách gần đúng) giá trị θ

Phương pháp mẫu cho phép ta giải quyết bài toán này bằng quy nạp thống kê như sau: Từ tổng thể nghiên cứu rút ra một mẫu ngẫu nhiên kích thước n và dựa vào đó để xây dựng thống kê θˆ dùng để ước lượng θ bằng cách này hay cách khác Có hai phương pháp sử dụng θˆ để ước lượng θ là phương pháp ước lượng điểm và phương pháp ước lượng bằng khoảng tin cậy

Trang 19

1.2.1.1 Phương pháp ước lượng điểm

Phương pháp ước lượng điểm là phương pháp dùng một giá trị để thay thế cho tham số θ chưa biết của tổng thể Thông thường giá trị được chọn là một thống kê θˆ nào đó của biến ngẫu nhiên

Ví dụ: Đại lượng ∑

=

n i i

X n

X 1 là ước lượng điểm của kỳ vọng toán à

1

1 )

ư

n X

)

n X

lượng điểm của δ 2

1.2.1.1.1.2 Các tiêu chuẩn lựa chọn hàm ước lượng

a Ước lượng không chệch

Thống kê θˆ của mẫu được gọi là ước lượng không chệch của tham số θ

của biến ngẫu nhiên gốc X nếu E(θˆ) = θ

Ngược lại E(θˆ) ≠ θ thì θˆ gọi là ước lượng chệch của θ

Ta có: - Trung bình mẫu X là ước lượng không chệch của kỳ vọng toán à của biến ngẫu nhiên gốc [E(X ) = à]

- Phương sai mẫu S2 và phương sai S*2 là ước lượng không chệch của phương sai δ2 của biến ngẫu nhiên gốc [E(S2)= δ2 , E(S*2) = δ2.]

- Tần suất mẫu f là ước lượng không chệch của xác suất p của biến ngẫu nhiên gốc [E(f) = p]

Trang 20

b Ước lượng hiệu quả

Thống kê của mẫu được gọi là ước lượng hiệu quả nhất của tham số θ

của biến ngẫu nhiên gốc X nếu nó là ước lượng không chệch và có phương sai

nhỏ nhất so với mọi ước lượng không chệch khác được xây dựng trên cùng

mẫu đó

Người ta sử dụng định lý sau đây để kiểm tra θˆ có phải là có phương sai

bé nhất hay không?

Định lý Crame-Rao: Cho X là biến ngẫu nhiên liên tục, f(x, θ) ,từ biến

ngẫu nhiên X lấy một mẫu (X1, X2, Xn), dựng một hàm thống kê θˆ = θˆ(X1, X2,

Xn)

) , ( ln 1

θˆ được gọi là ước lượng đủ của θ nếu nó chứa toàn bộ các thông tin

trong mẫu về tham số θ của ước lượng

n → ∞ xác suất

Trang 21

d θ < 0 => lnL max => θˆ=f (x1, , xn) lµ −íc l−îng

®iÓm hîp lý tèi ®a cÇn t×m

1.2.1.2 Ph−¬ng ph¸p −íc l−îng b»ng kho¶ng tin cËy

1.2.1.2.1 §Þnh nghÜa

Kho¶ng (G1, G2) cña thèng kª G ®−îc gäi lµ kho¶ng tin cËy cña tham sè

θ nÕu víi x¸c suÊt b»ng (1-α) cho tr−íc tho¶ mMn ®iÒu kiÖn:

P (G1 < θ < G2) = 1-α (19)

Trang 22

Xác suất (1-α) được gọi là độ tin cậy của ước lượng, còn I = G2 – G1

được gọi là độ dài khoảng tin cậy

1.2.1 2.2 Phương pháp tìm khoảng tin cậy

Từ một mẫu (X1, X2, Xn) ta cần phải xác định θ với độ tin cậy 1 - α cho trước Lấy G = G (X1, X2 Xn,θ)

Trang 23

π

u t dt e

0

2 /

2

n u X

Ví dụ: Trọng l−ợng 1 loại sản phẩm là biến ngẫu nhiên phân phối theo quy luật chuẩn với độ lệch chuẩn là 1 g Cân thử 25 sản phẩm loại này thu đ−ợc kết quả:

Trang 24

Ta có: ∑

=

= 25

1 25

1

i i

X

X Từ bảng số liệu ta tìm được:

64 , 19 25

21 2 20 15 19 5 18

3

= + +

+

=

Với độ tin cậy 1 - α = 0,95 thì α/2 = 0,025 => u0,025 = 1,96

áp dụng công thức tìm khoảng tin cậy X u / 2 X u / 2

n

S t X n

S t

2 / 1

2 /

ư

n

tα sao cho thoả: P (T ≥ 1

2 /

ư

n

tα ) = α Bước 3: Tính độ chính xác của ước lượng:

* Khi n ≥ 30 thì T ≈ U Khi đó ta coi 1

2 /

độ tin cậy của việc ước lượng là 99%.Giả thiết trọng lượng đóng bao của các bao bột là biến ngẫu nhiên phân phối chuẩn

Trang 25

Bài giải: Gọi X là trọng lượng bột đóng bao, theo giả thiết X phân phối chuẩn.Vậy trọng lượng đóng bao trung bình chính là giá trị à.Đây là bài toán

ước lượng bằng khoảng tin cậy đối xứng giá trị của tham sốàphân phối N(à,δ 2) khi chưa biết δ 2 của X là :

Với độ tin cậy 1-α=0,99 thì α / 2=0,005.Tra bảng phân phối Student

c.Chưa biết phân phối của X nhưng n ≥ 30

Ta tiến hành ước lượng như phân phối chuẩn

Ví dụ : Để xác định kích thước trung bình của chi tiết do một máy sản xuất ta lấy ngẫu nhiên 200 chi tiết để đo kích thước và thu được X = 54,83525, S = 0,0164 Với độ tin cậy 95% hãy ước lượng bằng khoảng tin cậy đối xứng kích thước trung bình của chi tiết do máy đó sản xuất Giả thiết kích thước chi tiết là biến ngẫu nhiên phân phối chuẩn

Bài giải: Gọi X là kích thước do máy đó sản xuất theo giả thiết X phân phối chuẩn.Vậy kích thước trung bình của chi tiết chính là tham số à.Đây là bài toán ước lượng khoảng tin cậy đối xứng giá trị của tham số à của phân phối N(à,δ 2)khi chưa biết phương sai δ 2.Vậy khoảng tin cậy của à là:

(X - 1

2 /

ư

n

t n

S

2 /

ư

n

t n

) (

p p

n p f

Trang 26

Có: uα/2 = - u1-α/2 => P ( - uα/2 < U < uα/2) = 1 - α (25)

Thay (24) vào (25), giải ra đ−ợc:

2 /

2 2 / 2

/ 2

2 /

4

1 ) 1 ( 2

1

α

α α

α

u n

u f nf u u nf

+

−

± +

(26) Với độ tin cậy(1-α) khoảng tin cậy đối xứng của p là: p1 < p < p2

Khi n ≥ 100, chọn thống kê: G = U

) 1 (

) (

f f

n p f

α1 = α, α2 = 0=> khoảng tin cậy bên trái: 

Qua mẫu cụ thể có f=60/100=0,6;uα/2=u0,025=1,96 Với độ tin cậy 0,95

áp dụng công thức (24) khoảng tin cậy đối xứng của p qua mẫu cụ thể là

(0,6- 1 , 96

100

4 , 0 6 , 0

;0,6+ 1 , 96

100

4 , 0 6 , 0

) hay (90,504<p<0,696)

Trang 27

Do M =pN=P.2000 nên ta có khoảng tin cậy đố xứng của M với độ tin cậy 0,95 qua mẫu cụ thể này là:1008≤ M ≤ 1392

1.2.1.2.5 Ước lượng phương sai của biến ngẫu nhiên phân phối theo quy luật chuẩn

) ( 2 2

Hao phí nguyên liệu(g): 19,5 20 20,5

Số sản phẩm tương ứng: 5 18 2

Với độ tin cậy1-α=0,9 hãy ước lượngδ 2 nếu

05 , 0 2 /

2 /

2 2

α

χ =χ 2 ( 25 ) 37 , 65

05 ,

2 ( 25 )

2 /

i x n n

Trang 28

b Chưa biết kỳ vọng toán

) 1 ( 2 2

2

) 1 (

n

S n

α

χ ; ( 2(1)1) )

1 2

/

2

α

Bài giải: Đây là bài toán ước lượng phương sai của phân phối N(à , δ2)

khi chưa biếtà.Nếu α1 = α2 = α / 2 = 0 , 025 Khoảng tin cậy của δ 2là

2 )

1 ( 2 2 /

2

) 1 (

; ) 1 (

n n

S n S n

α

χVới S2=0,0002689; n=200.Tra bảng χ 2:χ02,(975199) ≈ 198 , 98 χ02,(025199) ≈ 284 , 8

Vậy với độ tin cậy 0,95 qua mẫu cụ thể khoảng tin cậy của δ 2 là (0,000188<δ 2<0,000269)

1.2.2.Bài toán 2: Kiểm định giả thuyết thống kê

1.2.2.1.Một số khái niệm

1.2.2.1.1 Giả thuyết thống kê

Là giả thuyết về dạng phân phối xác suất của biến ngẫu nhiên, về các tham số đặc trưng của biến ngẫu nhiên hoặc về tính độc lập của các biến ngẫu nhiên

Giả thuyết (ký hiệu: H0)

Khi đưa ra giả thuyết H0, người ta còn nghiên cứu giả thuyết mâu thuẫn (đối lập) với nó (ký hiệu H1)

Khi xét giả thuyết H0, người ta thường xét kèm theo giả thuyết đối lập

H1 (H0, H1) tạo thành cặp giả thuyết thống kê

Trang 29

1.2.2.1.2 Kiểm định giả thuyết thống kê

Việc đ−a ra quyết định chấp nhận H0 (bác bỏ H1) hoặc bác bỏ H0 (chấp nhận H1) gọi là kiểm định giả thuyết thống kê

1.2.2.1.3 Tiêu chuẩn kiểm định

Lấy một mẫu (X1, X2 ., Xn), tập hợp các mẫu này gọi là không gian mẫu (KH: Rn), trong không gian này ta tìm 1 miền (KH : W) đ−ợc gọi là miền bác bỏ giả thuyết H0 Nếu W là 1 miền sao cho với 1 mẫu quan sát đ−ợc (X1,

X2 , Xn) mà mẫu này đ−ợc coi là 1 điểm trong không gian n chiều Nếu điểm này rơi vào miền W thì lập tức bác bỏ giả thuyết H0 Phần bù của W đ−ợc gọi

là miền chấp nhận của giả thuyết H0

1.2.2.1.4 Các sai lầm mắc phải khi kiểm định

a Sai lầm 1

- Bác bỏ giả thuyết H0 trong khi nó đúng

- Xác suất mắc phải sai lầm loại này là P (W/H1) = α

b Sai lầm 2

- Chấp nhận giả thuyết H0 trong khi nó sai

- Xác suất mắc phải sai lầm loại này là P (W/H1) = β

c Quan hệ giữa kiểm định giả thuyết và các loại sai lầm

Tình huống

Bác bỏ H0

Sai lầm loại 1 xác suất bằng α

Quyết định đúng Xác suất bằng (1 - β) Không bác bỏ H0

Quyết định đúng xác suất bằng (1 - α)

Sai lầm loại hai Xác suất bằng β

1.2.2.1.5 Quy trình kiểm định giả thuyết thống kê

Trang 30

( Kiểm định với giá trị cho trước của α)

Bước 1: Xây dựng giả thuyết cơ sở H0 cần kiểm định

Bước 2: Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên kích thước n

Bước 3 Chọn tiêu chuẩn kiểm định G và xác định quy luật phân phối xác suất của nó với điều kiện giả thuyết H0 là đúng

Bước 4: Với mức ý nghĩa α cho trước xác định miền bác bỏ tốt nhất tuỳ thuộc vào giả thuyết đối H1

Bước 5: Lập mẫu cụ thể và tìm giá trị quan sát của tiêu chuẩn kiểm định trên mẫu

Bước 6: So sánh giá trị quan sát của tiêu chuẩn kiểm định với miền bác

bỏ và kết luận

Bước 7: Đánh giá xác suất mắc sai lầm loại 2 theo các giá trị khác nhau của H1

1.2.2.2 Kiểm định tham số

1.2.2.2.1 Kiểm định giả thuyết về kỳ vọng toán của biến ngẫu nhiên

Giả sử kỳ vọng của biến ngẫu nhiên X là à = E (X) Ta xét các bài toán sau về kiểm định

(A): H0: à = ào H1: à ≠ ào

(B): H0: à = ào H1: à > ào

(C) H0: à = ào H1: à< ào

Như vậy ta thấy rằng cùng 1 giả thiết có thể có nhiều đối thiết (không

đối lập nhau mà chỉ khác nhau)

a X có phân phối chuẩn N (à, δδδδ 2), đ^ biết phương sai (δδδδ2)

Chọn G = U = X o n

δ à

ư

Trang 31

Nếu giả thuyết H0 là đúng thì U có phân phối chuẩn N (0,1), do đó miền bác bỏ giả thuyết H0 trong trường hợp (A) như sau:

ư

(B,C): uα = ? sao cho φ (Uα) = ư α

2 1

- Kết luận: (A): Nếu U ≥ uα/2 thì bác bỏ Ho

(B): Nếu U ≥ uα thì bác bỏ Ho

(C): Nếu U ≤ - uα thì bác bỏ Ho

Ví dụ: Theo thoả thuận giữa người ươm giống cây và lâm trường thì khi nào cây con cao hơn 1m mới đem đi trồng Người ta đo ngẫu nhiên 50 cây trong vườn cây giống thì tính được chiều cao trung bình của 50 cây là 1,1m Biết rằng chiều cao của cây tuân theo quy luật phân phối chuẩn với độ lệch chuẩn 0,1m, độ tin cậy 95% Vậy vườn cây giống đem đi trồng được chưa?

Bài giải: Gọi àlà chiều cao trung bình của cả vườn cây Theo giả thiết chiều cao của cây tuân theo quy luật phân phối chuẩn với độ lệch chuẩn 0,1m

Ta cần phải kiểm định bài toán sau:

1 1 ,

1 , 7

Trang 32

Với độ tin cậy = 95% ⇒α = 0 , 05=> uα=1,65

Nhận xét: U =7,1>1,65 = uα Vậy bác bỏ giả thiết H0 điều đó có nghĩa

là vườn cây mang đi trồng được rồi

b X có phân phối chuẩn N (à, δδδδ2) chưa biết phương sai (δδδδ2)

Chọn G = T = ư∗ = ư nư 1

S

X n S

Nếu à = ào thì T có phân phối Student với (n-1) bậc tự do

Làm tương tự như phân phối chuẩn ta có các bước kiểm định như sau: Bước 1: Tính X,S hoặc S*

1

α

ư

n thì bác bỏ Ho (C): Nếu T ≤ - t( )

Bài giải: Gọi X là chiều cao của trẻ em lứa tuổi từ 2-3 tuổi.àlà chiều cao trung bình, ta có à=E(X) Ta phải kiểm định bài toán sau:

Trang 33

c Trường hợp X có phân phối không chuẩn

Nếu n ≥ 30, ta tiến hành như phân phối chuẩn, cơ sở tiến hành phân phối chuẩn dựa vào định lý giới hạn trung tâm

Ví dụ: Độ bền của một loại sản phẩm công nghiệp cũ là 150 Sau khi cải tiến

kỹ thuật người ta lấy mẫu 100 sản phẩm để thử thì tính được độ bền trung bình

là 185 Độ lệch tiêu chuẩn mẫu hiệu chỉnh là 25 Với mức ý nghĩa α=0,05 cho biết cải tiến kỹ thuật có hiệu quả hay không?

Bài giải: Thấy rằng n = 100 là khá lớn nên không cần giả thiết độ bền của sản phẩm là chuẩn ta kiểm định bài toán sau:

Để kiểm định giả thuyết trên ta xét một số trường hợp sau:

a Nếu đ^ biết các phương sai δδδδ12, δδδδ22 của các biến ngẫu nhiên gốc trong tổng thể và từ 2 tổng thể trên có thể rút ra hai mẫu độc lập kích thước n1, n2:

Trang 34

Tiêu chuẩn kiểm định được chọn là thống kê

G = U =

2

2 2 1

2 1

2 1 2

(

n n

X X

δ δ

à à

2 1

2

(

n n

X X

δ δ

1 2

2 1 1 1

1

;

i i n

i

n x x n x

và tính Uqs =

2

2 2 1

2 1

n n

x x

δ δ

Phương án 1: Chi phí nguyên liệu cho 5 sản phẩm trung bình là 3,3 Phương án 2: Chi phí nguyên liệu cho 6 sản phẩm trung bình là 2,5

Trang 35

Với mức ý nghĩa α=0,05 hãy kết luận về vấn đề trên Biết rằng chi phí nguyên liệu theo cả 2 phương án gia công đều là các biến ngẫu nhiên phân phối chuẩn với δ12 = δ22 = 0 , 16

Bài giải: Gọi X1, X2 tương ứng là chi phí nguyên liệu theo cả 2 phương

án gia công trên X1, X2 theo phân phối chuẩn Vậy chi phí nguyên liệu trung bình theo các phương án đó là à1, à2 Ta có bài toán kiểm định sau:

H0:à 1 = à 2; H1:à 1 ≠ à2

Chọn tiêu chuẩn kiểm định G = U =

2

2 2 1

2 1

n n

X X

δ δ

+

ư

Với X1 = 3 , 3 ;X2 = 2 , 5 ; δ12 = δ22 = 0 , 16 ;n1 = 5 ,n2 = 6ta có U = 3,33

96 , 1 05

1 , δ

δ của biến ngẫu nhiên gốc trong tổng thể song

2 2

δ =

Chọn G = T =

2 1

2 1 2 1

1 1

) (

n n Sp

X X

2 1

2 2 2 2 1 1

ư +

ư

n n

S n S n

Giả sử Ho đúng khi đó: G = T =

2 1

2 1 1 1

n n Sp

X X

Trang 36

(C) Ho: à1 = à2, H1 : à1 < à2

Miền bác bỏ: W ={ T , T< -tα(n1+n2 ư 2 )}

2 2 1 2

1 ,x ,S ,S

x , T Xét T có thuộc vào miền bác bỏ Wkhông và kết luận

Ví dụ: Tiến hành thí nghiệm chăn nuôi gà theo 2 phương án khác nhau và theo dõi sau 1 tháng ta được các số liệu như sau:

Phương pháp 1: n1=100con, X1=1,1kg; S12 = 0 , 04 (X 1 là mức tăng trọng trung bình) Phương pháp 2: n2=150con, X 2 =1,2kg; 2

2

S =0,09 (X 2 là mức tăng trọng trung bình) Giả thiết mức tăng trọng của gà tuân theo quy luật phân phối chuẩn

Bài giải: Gọi à 1 , à 2 là mức tăng trọng trung bình theo phương pháp 1 và

2 Ta phải kiểm định bài toán sau: H0:à1 = à2; H1:à1<à2

Chọn thống kê Chọn G = T =

2 1

2 1 2 1

1 1

) (

n n Sp

X X

2 1

2 2 2 2 1 1

ư +

ư

n n

S n S n

Thay các giá trị ta tìm được T = -10,403

91 , 2 05

) 1 )(

1 (

1 2 2

2

2 1

ư

ư +

ư

n c c

n

n n

bậc tự do

Trang 37

với C =

2

2 2 1

2 1 1 2

1 /

n

S n S

n S

+

Nếu Ho đúng, thì G = T =

2

2 2 1

2 1

n

S n S

X X

Nhóm 1: Cho uống thuốc tẩy giun

Nhóm 2: Không uống thuốc tẩy giun

Sau một thời gian dùng thuốc, khi giết thịt 2 nhóm lợn trên cho kết quả sau về số giun có trong những con lợn thuộc 2 nhóm trên

2 1

S S

X X

+

−

Trang 38

2 1 1 2

1 /

n

s n s n

+

δ

=0,4798 ⇒k =

) 1 ( ) 1 ( ) 1 (

) 1 )(

1 (

1 2 2

2

2 1

−

− +

−

n c c

n

n n

≈12

Vớiα=0,05 ⇒ t012,05 = 1 , 782 Có T >-t12

05 ,

0 Nên với mức ý nghĩaα=0,05 ch−a có cơ sở bác bỏ H0 hay ch−a thể nói loại thuốc tẩy giun đ−ợc thực nghiệm là có hiệu quả

1.2.2.2.3 Kiểm định tỷ lệ

a Kiểm định tham số p của biến ngẫu nhiên phân phối không – một

Giả sử xét biến cố có xác suất p, ta có thể có các bài toán sau:

p p

p f

o o

o

) 1 (

) (

Trang 39

thực sự mang lại hiệu quả hay không Để làm điều đó người ta phỏng vấn ngẫu nhiên

400 khách hàng thì thấy có 250 người tiêu dùng loại sản phẩm nói trên Với mức ý nghĩa 0,05 hãy kết luận về hiệu quả của chiến dịch quảng cáo đó

Bài giải: Gọi p là tỷ lệ khách hàng tiêu dùng loại sản phẩm đó ở địa phương A Bài toán kiểm định tham số p của phân phối A(p):

H0: p = 0,6; H1:p>0,6

Vì n>5 và

6 , 0

4 , 0 4 , 0

6 , 0

ư / 400=0,02<0,3 Nên ta dùng công thức kiểm định

p p

p f

o o

o

) 1 (

) (

ư

ư Với α =0 , 05 ⇒uα = 1 , 645

α

u U U

n p

b Kiểm định giả thuyết về 2 tham số p của hai biến ngẫu nhiên phân phối A (p)

Giả sử 2 tổng thể nghiên cứu trong đó các biến ngẫu nhiên X1, X2 phân phối không – một với tần số tương ứng p1, p2 Ta có thể có các bài toán

Nếu n1> 30, n2> 30 => U ~ N(0,1)

Trang 40

Nếu giả thiết Ho đúng (p1 = p2 = p ) thì G = U =

) 1 1 )(

1 (

2 1

n n p p

f f

2 1

n n

m m

+ +

Khi đó: G = U =

) 1 1 )(

1 (

2 1

n n f f

f f

Ví dụ: Có 2 loại thuốc A, B cùng chữa một loại bệnh Qua theo dõi:

160 người dùng thuốc A thấy 120 người khỏi

56 người dùng thuốc B thấy 40 người khỏi

Vớiα=0,05 tỷ lệ chữa khỏi bệnh của 2 loại thuốc này có như nhau không? Bài giải: Gọi p1,p2 là tỷ lệ khỏi bệnh khi dùng 2 loại thuốc A,B Ta phải kiểm định bài toán sau: H0: p1= p2; H1: p1 ≠ p2

Có f1=120/160=0,750; f2=40/56=0,714; 0 , 741

56 160

40 120

= +

1 (

2 1

n n f f

f f

+

ư

Thay vào ta có U=0,59

Vớiα =0 , 05 ⇒uα/2 =1 , 96 ⇒U <uα/2.Vậy bác bỏ H1 có nghĩa là tỷ lệ chữa khỏi bệnh của 2 loại thuốc là như nhau

Định dạng
Số trang	83
Dung lượng	1,2 MB