Tính chất: Nếu biến ngẫu nhiên gốc có kỳ vọng toán EX =à , Độ lệch chuẩn này của X dùng để phản ánh sai số ước lượng gọi là sai số chuẩn Se của trung bình mẫu X: Se X n trong dãy số li
Trang 1đại học thái nguyên trường đại học sư phạm
khoa toán
Các phương pháp dự báo Các phương pháp dự báo
Chuyên ngành: Toán ứng dụng
luận văn tốt nghiệp Đại học
Người hướng dẫn khoa học: C.n Mã Thế Đông
thái nguyên-2006
Mục lục
Trang 2Trang
Trang bìa phụ……… 1
Mục lục 2
Mở đầu .3
Chương 1 Tổng quan về thống kê toán và các bài toán cơ bản 5
1.1 Tổng quan về thống kê toán .5
1.2 Các bài toán cơ bản 18
Chương 2 Phân tích hồi quy .45
2.1 Mục đích của phương pháp phân tích hồi quy 45
2.2 Hàm hồi quy 46
2.3 Mô hình hồi quy tuyến tính đơn .46
Chương 3 Phân tích chỗi thời gian 54
3.1 Một số khái niệm 54
3.2 Phân tích bằng hàm xu thế .55
3.3 Phân tích biến động mùa vụ .59
3.4 Phân tích biến động chu kỳ .60
Chương 4 Thống kê Bayes và lý thuyết quyết định thống kê 61
4.1 Thống kê Bayes .61
4.2 Lý thuyết quyết định thống kê 66
Một vài ứng dụng thực tế .76
Kết luận .82
Tài liệu tham khảo 83
Trang 3Mở đầu
1 Lý do chọn đề tài
Trong khoa học và đời sống người ta cần phải thu thập các số liệu chẳng hạn về số lượng năng suất lúa ở các vùng trong nhiều năm, số liệu điều tra dân
số, số liệu về trình độ nhận thức của học sinh
Vấn đề đặt ra là: Sau khi thu thập các số liệu, ta phải trình bầy các số liệu đó một cách có hệ thống như thế nào? Từ các số liệu đó rút ra kết luận gì? Các số liệu đó phản ánh quy luật nào của sự vật đang xét, độ tin cậy của các kết luận? Phán đoán sự phát triển của sự vật? Cần phải có những quyết định gì trong hoạt động thực tiễn
Tất cả các vấn đề trên được quy tụ về bộ môn: Thống kê toán Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tượng ngẫu nhiên
có tính chất số lớn trên cơ sở thu thập và xử lý các số liệu thống kê, các kết quả quan sát Nội dung chủ yếu của thống kê toán là xây dựng các phương pháp thu thập và xử lý các số liệu thống kê nhằm rút ra các kết luận khoa học
và thực tiễn Các phương pháp thống kê toán là công cụ để giải quyết nhiều vấn đề khoa học và thực tiễn nảy sinh trong các lĩnh vực khác nhau của tự nhiên và kinh tế xã hội
“Các phương pháp dự báo” là một trong những phương pháp thống kê toán Ta thấy việc lựa chọn quyết định hoạt động ở tương lại sẽ thuận lợi hơn, mang lại hiệu quả hơn khi đã biết phân bố xác suất của các dữ kiện ngẫu nhiên Các xác suất này thực chất là được đưa ra từ các kết quả thống kê của quá khứ dùng làm dự báo cho khả năng xảy ra trong tương lai Với mục đích chính của các phương pháp dự báo là dự báo đại lượng ngẫu nhiên trong tương lai Vì vậy các phương pháp dự báo được ứng dụng trong nhiều lĩnh vực khác nhau như: Kinh tế sản xuất, giao thông vận tải, xây dựng, và kể cả trong
Trang 4giáo dục Dự báo được các kết cục xảy ra trong tương lai sẽ là điều kiện cơ sở
Chương 3: Phân tích chuỗi thời gian
Chương 4: Thống kê Bayes và lý thuyết quyết định thống kê
3 Mục đích yêu cầu
Đề tài Các phương pháp dự báo nghiên cứu nhằm:
- Tìm hiểu, hệ thống các vấn đề tổng quan về thống kê toán, các bài toán cơ bản của thống kê toán
- Bước đầu tìm hiểu kỹ thuật phán đoán, kỹ thuật phân tích hồi quy, kỹ thuật phân tích chuỗi thời gian để từ đó đưa ra một số ứng dụng thực tế
Trang 5Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu
định tính hoặc định l−ợng nào đó đ−ợc gọi là tổng thể nghiên cứu hay tổng thể
Để nghiên cứu tổng thể có 2 cách:
- Nghiên cứu toàn bộ mọi phần tử của tổng thể
- Nghiên cứu đại diện: Lấy một số phần tử ra để nghiên cứu Từ những thông tin nhận đ−ợc, ta kết luận cho cả tổng thể
Trang 6Một mẫu được coi là tốt nếu n vừa đủ để nghiên cứu và các phần tử vừa
được chọn ngẫu nhiên, vừa có tính đại diện cao
1.1.1.2.3 Phân loại mẫu (2 loại)
- Mẫu không lặp: Các phần tử của mẫu là khác nhau
- Mẫu lặp: Một phần tử của tổng thể có thể rơi vào mẫu nhiều lần (được nghiên cứu nhiều lần)
Nếu n rất bé, N rất lớn, ta có thể coi mẫu lặp và không lặp như nhau 1.1.2 Mẫu ngẫu nhiên
Xét biến ngẫu nhiên X, thử X n lần một cách độc lập Biến ngẫu nhiên X
Giả sử X1 nhận giá trị x1, ,Xn nhận giá trị xn Tập hợp n giá trị x1, ,
xn tạo thành một giá trị của mẫu ngẫu nhiên (mẫu thực nghiệm)
1.1.3.1.1 Sắp xếp theo các giá trị khác nhau
Từ tổng thể với biến ngẫu nhiên gốc X, rút ra 1 mẫu cụ thể có kích thước n :W = (X1, X2, ,Xn), ta xác định được k giá trị khác nhau k ≤ n
Trong đó: Giá trị x1 xuất hiện với tần số n1
Giá trị xk xuất hiện với tần số nk
Trang 7a Sắp xếp các giá trị cụ thể xi theo trình tự tăng dần, ta có bảng phân phối tần
số thực nghiệm sau:
xi x1 x2 xk
ni n1 n2 nkTrong đó: n1 + n2 + + nk = n
Cho 1 mẫu ngẫu nhiên W = (X1, X2, ,Xn)
Ký hiệu: ωi(i = 1 ,k) - Tần số tích luỹ của xi, ω = i ∑
< ) (x j
j i
j
x x
n n
<
∑
Trang 81.1.3.2.2 Tính chất của hàm phân phối mẫu
1.1.3.3.1 Đa giác tần số
Đa giác tần số là đường gMy khúc mà các đoạn thẳng của nó nối các
điểm (x1, n1), (x2, n2), , (xk, nk) trên mặt phẳng (H.1)
1.1.3.3.2 Đa giác tần suất
Đa giác tần suất là đường gMy khúc mà các đoạn thẳng của nó nối các
điểm (x1, f1), (x2, f2), , (xk, fk) trên mặt phẳng.(H.2)
1.1.3.3.3 Tổ chức đồ
Khi dấu hiệu nghiên cứu có phân phối liên tục, ta xây dựng biểu đồ tần
số (tần suất) gọi là tổ chức đồ tần số (tần suất) (H.3)
Ta chia khoảng chứa tất cả các giá trị quan sát của mấu thành 1 số đoạn
có chiều dài bằng h, tại mỗi đoạn đưa vào tần số (tần suất) tương ứng Như vậy biểu đồ tần số sẽ là 1 hình thang tạo nên bởi nhiều hình chữ nhật, có đáy bằng
Trang 9Tương tự biểu đồ tần suất là 1 hình bậc thang tạo nên bởi nhiều hình chữ nhật có đáy bằng h, chiều cao bằng
h
f
h i , lúc đó diện tích của hình chữ nhật thứ i bằng:
1.1.4.2 Một số thống kê đặc trưng của mẫu ngẫu nhiên
1.1.4.2.1 Các thống kê đặc trưng xu hướng trung tâm của phân phối của mẫu
a Trung bình mẫu (X )
W (X1 , X2 , , Xn) là mẫu ngẫu nhiên kích thức n
Trung bình mẫu là 1 thống kê, là trung bình của các giá trị mẫu:
∑
=
=
n i
Trang 10Tính chất: Nếu biến ngẫu nhiên gốc có kỳ vọng toán E(X ) =à ,
Độ lệch chuẩn này của X dùng để phản ánh sai số ước lượng gọi là sai
số chuẩn Se của trung bình mẫu (X): Se (X)
n
trong dãy số liệu
+ n chẵn: trung vị là 2 giá trị nằm chính giữa của dãy số liệu Nó được gọi là khoảng trung vị
- Nếu các số liệu mẫu được ghép lớp theo phân phối tần số thì giá trị trung vị có thể tính gần đúng bởi công thức sau:
Xd ≈ L + h
n
S n
S - Tổng tần số của các lớp đứng trước lớp chứa trung vị
nx d - Tần số của lớp chứa trung vị
h - Độ dài của lớp chứa trung vị
Ví dụ 1:
Giả sử có số liệu mẫu: 240, 220, 210, 225, 235, 225, 270, 250, 280
Trang 11Có n = 9 số liệu nên trung vị là giá trị thứ 5
2
1 9
= + trong dãy số liệu
đ−ợc xếp theo thứ tự tăng dần:
210, 220, 225, 225, 235, 240, 250, 270, 280
XdGiả sử có thêm số liệu 200, tức n = 10, do đó trung vị là 2 giá trị nằm chính giữa của dãy số liệu:
=
−
Trang 12c Môt (X0)
Môt là giá trị có tần số lớn nhất trong dMy số liệu mẫu
- Nếu số liệu mẫu là rời rạc, và các giá trị x1, x2, ,xk xuất hiện với tần
số tương ứng n1, n2, , nk thì có thể xác định trực tiếp giá trị của mốt trên bảng phân phối tần số của mẫu
- Nếu các số liệu mẫu là ghép lớp theo bảng phân phối tần số thì:
Xo ≈ L + h
d d
L - Giới hạn dưới của lớp chứa môt
d1 - Hiệu số giữa tần số của lớp chứa môt và tần số của lớp đứng trước
d2- Hiệu số giữa tần số của lớp chứa môt và tần số của lớp đứng sau
h - Độ dài của lớp chứa môt
Ví dụ : Từ số liệu bảng 1 tìm giá trị môt :
Xo ≈ 20 + 5
12 20
a Khoảng biến thiên (R)
Khoảng biến thiên là sai lệch giữa giá trị lớn nhất và nhỏ nhất của mẫu
R = Xmax - Xmin
b Khoảng tứ phân vị
Nếu mẫu được chia thành 4 phần bằng nhau Tứ phân vị đầu là giá trị của mẫu đứng ở vị trí cách đơn vị đầu tiên 1/4 số đơn vị của mẫu Tứ phân vị thứ hai chính là trung vị Tứ phân vị thứ ba là giá trị của mẫu đứng ở vị trí cách đơn vị đầu tiên 3/4 số đơn vị của mẫu
Nếu các số liệu mẫu được ghép lớp thì các tứ phân vị được tính:
Trang 13h n
S n
Q Q
Q
h n S n
hQ1, hQ3 - Độ dài của các lớp chứa Q1, Q3
Ví dụ 1: Từ dãy số liệu: 200, 210, 220, 225, 225, 235, 240, 250, 270, 280
Ta có : tứ phân vị đầu là giá trị nằm ở vị trí thứ n/4 =10/4 =2,5
Do thứ tự vị trí phải là nguyên do đó nó là giá trị nằm ở vị trí thứ 3 tức:
Q1 =220
Tứ phân vị thứ 3 là giá trị nằm ở vị trí 3n /4 = 3.10/ 4 = 7,5 do đó nó là giá trị nằm ở vị trí thứ 8 tức Q3 = 250
Trang 14) (
.
1
X X
n i
n i i
n X X
2 1
2 2
1
1 ) (
1
X
2 ) (
1
- Kú väng to¸n cña tÇn suÊt mÉu E(f) = p
Sai sè chuÈn cña tÇn suÊt mÉu: Se(f) =
n
p
p( 1 − )
(13) NÕu mÉu lÊy ra theo ph−¬ng ph¸p kh«ng hoµn l¹i th× sai sè chuÈn mÉu:
Se (f) =
n
p p N
n
1
Trang 15ở đây dấu hiệu nghiên cứu là chiều cao thanh niên Để xác định các thống kê mẫu như trung bình mẫu, phương sai mẫu ta lập bảng tính trong đó các lớp giá trị xi được thay bằng giá trị giữa của mỗi lớp
1.1.5 Quy luật phân phối xác suất của một số thống kê đặc trưng mẫu
Vì bản chất của các thống kê đặc trưng mẫu là các biến ngẫu nhiên Do
đó để nắm được đầy đủ thông tin về các thống kê này cần khảo sát quy luật phân phối xác suất của chúng
Quy luật phân phối xác suất của các thống kê đặc trưng mẫu phụ thuộc chặt chẽ vào quy luật phân phối xác suất của biến ngẫu nhiên gốc X
1.1.5.1 Biến ngẫu nhiên gốc phân phối theo quy luật chuẩn
Giả sử dấu hiệu nghiên cứu trong tổng thể xem như một biến ngẫu nhiên tuân theo quy luật chuẩn: E(X) = à, V(X) = δ2 Các tham số này đã biết
Trang 16Nếu các biến ngẫu nhiên độc lập và cùng phân phối theo quy luật chuẩn thì mọi tổ hợp tuyến tính của các biến ngẫu nhiên cũng phân phối theo quy luật chuẩn
Vậy ta có X , S*2 phân phối theo quy luật chuẩn
) (
2 2
2
) (
) (
1
δ
à à
δ δ
n i
X X
n
S n n X
n
) 1 (
) 1 ( : ) (
1
2 2 2
à δ
δ
à χ
Trang 17Tần xuất mẫu f phân phối theo quy luật nhị thức với các tham số đặc tr−ng:
p p
−
−
1 1
< 0,3 thì tần suất mẫu phân phối chuẩn với E(f) = p,
Nếu đã biết quy luật phân phối xác suất cũng nh− các tham số đặc tr−ng của tổng thể thì có thể sử dụng các kết luận đó để suy đoán về tính chất của một mẫu ngẫu nhiên rút ra từ tổng thể Đây chính là việc sử dụng thông tin của tổng thể để suy đoán về một bộ phận của tổng thể
1.1.6.1 Suy diễn về mẫu ngẫu nhiên rút ra từ tổng thể phân phối chuẩn
1.1.6.1.1 Suy đoán về giá trị của trung bình mẫu
Có χ2 = 2
2 ) 1 (
Trang 18P [ δ χ2 (α1 )
1 2
Giả sử biến ngẫu nhiên X trong tổng thể phân phối không –một với tần
số p.Từ tổng thể rút ra một mẫu kích thước n.Ta có thống kê: U =
) 1 (
) (
p p
n p f
p p
ư
ư
1 1
< 0,3 thì với xác suất
1 - α, tìm được cặp α1, α2: α1 + α2 = α và giá trị tới hạn u(1ưα1),uα2tương ứng thoả:
1.2.1.Bài toán 1: Ước lượng các tham số của biến ngẫu nhiên
Bài toán ước lượng tham số: cho biến ngẫu nhiên X với quy luật phân phối xác suất đM biết song chưa biết tham số θ nào đó của nó Phải ước lượng (xác định một cách gần đúng) giá trị θ
Phương pháp mẫu cho phép ta giải quyết bài toán này bằng quy nạp thống kê như sau: Từ tổng thể nghiên cứu rút ra một mẫu ngẫu nhiên kích thước n và dựa vào đó để xây dựng thống kê θˆ dùng để ước lượng θ bằng cách này hay cách khác Có hai phương pháp sử dụng θˆ để ước lượng θ là phương pháp ước lượng điểm và phương pháp ước lượng bằng khoảng tin cậy
Trang 191.2.1.1 Phương pháp ước lượng điểm
Phương pháp ước lượng điểm là phương pháp dùng một giá trị để thay thế cho tham số θ chưa biết của tổng thể Thông thường giá trị được chọn là một thống kê θˆ nào đó của biến ngẫu nhiên
Ví dụ: Đại lượng ∑
=
=
n i i
X n
X 1 là ước lượng điểm của kỳ vọng toán à
1
1 )
ư
n X
)
n X
lượng điểm của δ 2
1.2.1.1.1.2 Các tiêu chuẩn lựa chọn hàm ước lượng
a Ước lượng không chệch
Thống kê θˆ của mẫu được gọi là ước lượng không chệch của tham số θ
của biến ngẫu nhiên gốc X nếu E(θˆ) = θ
Ngược lại E(θˆ) ≠ θ thì θˆ gọi là ước lượng chệch của θ
Ta có: - Trung bình mẫu X là ước lượng không chệch của kỳ vọng toán à của biến ngẫu nhiên gốc [E(X ) = à]
- Phương sai mẫu S2 và phương sai S*2 là ước lượng không chệch của phương sai δ2 của biến ngẫu nhiên gốc [E(S2)= δ2 , E(S*2) = δ2.]
- Tần suất mẫu f là ước lượng không chệch của xác suất p của biến ngẫu nhiên gốc [E(f) = p]
Trang 20b Ước lượng hiệu quả
Thống kê của mẫu được gọi là ước lượng hiệu quả nhất của tham số θ
của biến ngẫu nhiên gốc X nếu nó là ước lượng không chệch và có phương sai
nhỏ nhất so với mọi ước lượng không chệch khác được xây dựng trên cùng
mẫu đó
Người ta sử dụng định lý sau đây để kiểm tra θˆ có phải là có phương sai
bé nhất hay không?
Định lý Crame-Rao: Cho X là biến ngẫu nhiên liên tục, f(x, θ) ,từ biến
ngẫu nhiên X lấy một mẫu (X1, X2, Xn), dựng một hàm thống kê θˆ = θˆ(X1, X2,
Xn)
) , ( ln 1
θˆ được gọi là ước lượng đủ của θ nếu nó chứa toàn bộ các thông tin
trong mẫu về tham số θ của ước lượng
n → ∞ xác suất
Trang 21d θ < 0 => lnL max => θˆ=f (x1, , xn) lµ −íc l−îng
®iÓm hîp lý tèi ®a cÇn t×m
1.2.1.2 Ph−¬ng ph¸p −íc l−îng b»ng kho¶ng tin cËy
1.2.1.2.1 §Þnh nghÜa
Kho¶ng (G1, G2) cña thèng kª G ®−îc gäi lµ kho¶ng tin cËy cña tham sè
θ nÕu víi x¸c suÊt b»ng (1-α) cho tr−íc tho¶ mMn ®iÒu kiÖn:
P (G1 < θ < G2) = 1-α (19)
Trang 22Xác suất (1-α) được gọi là độ tin cậy của ước lượng, còn I = G2 – G1
được gọi là độ dài khoảng tin cậy
1.2.1 2.2 Phương pháp tìm khoảng tin cậy
Từ một mẫu (X1, X2, Xn) ta cần phải xác định θ với độ tin cậy 1 - α cho trước Lấy G = G (X1, X2 Xn,θ)
Trang 23π
u t dt e
0
2 /
2
n u X
Ví dụ: Trọng l−ợng 1 loại sản phẩm là biến ngẫu nhiên phân phối theo quy luật chuẩn với độ lệch chuẩn là 1 g Cân thử 25 sản phẩm loại này thu đ−ợc kết quả:
Trang 24Ta có: ∑
=
= 25
1 25
1
i i
X
X Từ bảng số liệu ta tìm được:
64 , 19 25
21 2 20 15 19 5 18
3
= + +
+
=
Với độ tin cậy 1 - α = 0,95 thì α/2 = 0,025 => u0,025 = 1,96
áp dụng công thức tìm khoảng tin cậy X u / 2 X u / 2
n
S t X n
S t
2 / 1
2 /
ư
n
tα sao cho thoả: P (T ≥ 1
2 /
ư
n
tα ) = α Bước 3: Tính độ chính xác của ước lượng:
* Khi n ≥ 30 thì T ≈ U Khi đó ta coi 1
2 /
độ tin cậy của việc ước lượng là 99%.Giả thiết trọng lượng đóng bao của các bao bột là biến ngẫu nhiên phân phối chuẩn
Trang 25Bài giải: Gọi X là trọng lượng bột đóng bao, theo giả thiết X phân phối chuẩn.Vậy trọng lượng đóng bao trung bình chính là giá trị à.Đây là bài toán
ước lượng bằng khoảng tin cậy đối xứng giá trị của tham sốàphân phối N(à,δ 2) khi chưa biết δ 2 của X là :
Với độ tin cậy 1-α=0,99 thì α / 2=0,005.Tra bảng phân phối Student
c.Chưa biết phân phối của X nhưng n ≥ 30
Ta tiến hành ước lượng như phân phối chuẩn
Ví dụ : Để xác định kích thước trung bình của chi tiết do một máy sản xuất ta lấy ngẫu nhiên 200 chi tiết để đo kích thước và thu được X = 54,83525, S = 0,0164 Với độ tin cậy 95% hãy ước lượng bằng khoảng tin cậy đối xứng kích thước trung bình của chi tiết do máy đó sản xuất Giả thiết kích thước chi tiết là biến ngẫu nhiên phân phối chuẩn
Bài giải: Gọi X là kích thước do máy đó sản xuất theo giả thiết X phân phối chuẩn.Vậy kích thước trung bình của chi tiết chính là tham số à.Đây là bài toán ước lượng khoảng tin cậy đối xứng giá trị của tham số à của phân phối N(à,δ 2)khi chưa biết phương sai δ 2.Vậy khoảng tin cậy của à là:
(X - 1
2 /
ư
n
t n
S
2 /
ư
n
t n
) (
p p
n p f
Trang 26Có: uα/2 = - u1-α/2 => P ( - uα/2 < U < uα/2) = 1 - α (25)
Thay (24) vào (25), giải ra đ−ợc:
2 /
2 2 / 2
/ 2
2 /
4
1 ) 1 ( 2
1
α
α α
α
u n
u f nf u u nf
+
+
−
± +
(26) Với độ tin cậy(1-α) khoảng tin cậy đối xứng của p là: p1 < p < p2
Khi n ≥ 100, chọn thống kê: G = U
) 1 (
) (
f f
n p f
α1 = α, α2 = 0=> khoảng tin cậy bên trái:
Qua mẫu cụ thể có f=60/100=0,6;uα/2=u0,025=1,96 Với độ tin cậy 0,95
áp dụng công thức (24) khoảng tin cậy đối xứng của p qua mẫu cụ thể là
(0,6- 1 , 96
100
4 , 0 6 , 0
;0,6+ 1 , 96
100
4 , 0 6 , 0
) hay (90,504<p<0,696)
Trang 27Do M =pN=P.2000 nên ta có khoảng tin cậy đố xứng của M với độ tin cậy 0,95 qua mẫu cụ thể này là:1008≤ M ≤ 1392
1.2.1.2.5 Ước lượng phương sai của biến ngẫu nhiên phân phối theo quy luật chuẩn
) ( 2 2
Hao phí nguyên liệu(g): 19,5 20 20,5
Số sản phẩm tương ứng: 5 18 2
Với độ tin cậy1-α=0,9 hãy ước lượngδ 2 nếu
05 , 0 2 /
2 /
2 2
α
χ =χ 2 ( 25 ) 37 , 65
05 ,
2 ( 25 )
2 /
i x n n
Trang 28b Chưa biết kỳ vọng toán
) 1 ( 2 2
2
) 1 (
n
S n
α
χ ; ( 2(1)1) )
1 2
/
2
α
Bài giải: Đây là bài toán ước lượng phương sai của phân phối N(à , δ2)
khi chưa biếtà.Nếu α1 = α2 = α / 2 = 0 , 025 Khoảng tin cậy của δ 2là
2 )
1 ( 2 2 /
2
) 1 (
; ) 1 (
n n
S n S n
α
χVới S2=0,0002689; n=200.Tra bảng χ 2:χ02,(975199) ≈ 198 , 98 χ02,(025199) ≈ 284 , 8
Vậy với độ tin cậy 0,95 qua mẫu cụ thể khoảng tin cậy của δ 2 là (0,000188<δ 2<0,000269)
1.2.2.Bài toán 2: Kiểm định giả thuyết thống kê
1.2.2.1.Một số khái niệm
1.2.2.1.1 Giả thuyết thống kê
Là giả thuyết về dạng phân phối xác suất của biến ngẫu nhiên, về các tham số đặc trưng của biến ngẫu nhiên hoặc về tính độc lập của các biến ngẫu nhiên
Giả thuyết (ký hiệu: H0)
Khi đưa ra giả thuyết H0, người ta còn nghiên cứu giả thuyết mâu thuẫn (đối lập) với nó (ký hiệu H1)
Khi xét giả thuyết H0, người ta thường xét kèm theo giả thuyết đối lập
H1 (H0, H1) tạo thành cặp giả thuyết thống kê
Trang 291.2.2.1.2 Kiểm định giả thuyết thống kê
Việc đ−a ra quyết định chấp nhận H0 (bác bỏ H1) hoặc bác bỏ H0 (chấp nhận H1) gọi là kiểm định giả thuyết thống kê
1.2.2.1.3 Tiêu chuẩn kiểm định
Lấy một mẫu (X1, X2 ., Xn), tập hợp các mẫu này gọi là không gian mẫu (KH: Rn), trong không gian này ta tìm 1 miền (KH : W) đ−ợc gọi là miền bác bỏ giả thuyết H0 Nếu W là 1 miền sao cho với 1 mẫu quan sát đ−ợc (X1,
X2 , Xn) mà mẫu này đ−ợc coi là 1 điểm trong không gian n chiều Nếu điểm này rơi vào miền W thì lập tức bác bỏ giả thuyết H0 Phần bù của W đ−ợc gọi
là miền chấp nhận của giả thuyết H0
1.2.2.1.4 Các sai lầm mắc phải khi kiểm định
a Sai lầm 1
- Bác bỏ giả thuyết H0 trong khi nó đúng
- Xác suất mắc phải sai lầm loại này là P (W/H1) = α
b Sai lầm 2
- Chấp nhận giả thuyết H0 trong khi nó sai
- Xác suất mắc phải sai lầm loại này là P (W/H1) = β
c Quan hệ giữa kiểm định giả thuyết và các loại sai lầm
Tình huống
Bác bỏ H0
Sai lầm loại 1 xác suất bằng α
Quyết định đúng Xác suất bằng (1 - β) Không bác bỏ H0
Quyết định đúng xác suất bằng (1 - α)
Sai lầm loại hai Xác suất bằng β
1.2.2.1.5 Quy trình kiểm định giả thuyết thống kê
Trang 30( Kiểm định với giá trị cho trước của α)
Bước 1: Xây dựng giả thuyết cơ sở H0 cần kiểm định
Bước 2: Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên kích thước n
Bước 3 Chọn tiêu chuẩn kiểm định G và xác định quy luật phân phối xác suất của nó với điều kiện giả thuyết H0 là đúng
Bước 4: Với mức ý nghĩa α cho trước xác định miền bác bỏ tốt nhất tuỳ thuộc vào giả thuyết đối H1
Bước 5: Lập mẫu cụ thể và tìm giá trị quan sát của tiêu chuẩn kiểm định trên mẫu
Bước 6: So sánh giá trị quan sát của tiêu chuẩn kiểm định với miền bác
bỏ và kết luận
Bước 7: Đánh giá xác suất mắc sai lầm loại 2 theo các giá trị khác nhau của H1
1.2.2.2 Kiểm định tham số
1.2.2.2.1 Kiểm định giả thuyết về kỳ vọng toán của biến ngẫu nhiên
Giả sử kỳ vọng của biến ngẫu nhiên X là à = E (X) Ta xét các bài toán sau về kiểm định
(A): H0: à = ào H1: à ≠ ào
(B): H0: à = ào H1: à > ào
(C) H0: à = ào H1: à< ào
Như vậy ta thấy rằng cùng 1 giả thiết có thể có nhiều đối thiết (không
đối lập nhau mà chỉ khác nhau)
a X có phân phối chuẩn N (à, δδδδ 2), đ^ biết phương sai (δδδδ2)
Chọn G = U = X o n
δ à
ư
Trang 31Nếu giả thuyết H0 là đúng thì U có phân phối chuẩn N (0,1), do đó miền bác bỏ giả thuyết H0 trong trường hợp (A) như sau:
ư
(B,C): uα = ? sao cho φ (Uα) = ư α
2 1
- Kết luận: (A): Nếu U ≥ uα/2 thì bác bỏ Ho
(B): Nếu U ≥ uα thì bác bỏ Ho
(C): Nếu U ≤ - uα thì bác bỏ Ho
Ví dụ: Theo thoả thuận giữa người ươm giống cây và lâm trường thì khi nào cây con cao hơn 1m mới đem đi trồng Người ta đo ngẫu nhiên 50 cây trong vườn cây giống thì tính được chiều cao trung bình của 50 cây là 1,1m Biết rằng chiều cao của cây tuân theo quy luật phân phối chuẩn với độ lệch chuẩn 0,1m, độ tin cậy 95% Vậy vườn cây giống đem đi trồng được chưa?
Bài giải: Gọi àlà chiều cao trung bình của cả vườn cây Theo giả thiết chiều cao của cây tuân theo quy luật phân phối chuẩn với độ lệch chuẩn 0,1m
Ta cần phải kiểm định bài toán sau:
1 1 ,
1 , 7
Trang 32Với độ tin cậy = 95% ⇒α = 0 , 05=> uα=1,65
Nhận xét: U =7,1>1,65 = uα Vậy bác bỏ giả thiết H0 điều đó có nghĩa
là vườn cây mang đi trồng được rồi
b X có phân phối chuẩn N (à, δδδδ2) chưa biết phương sai (δδδδ2)
Chọn G = T = ư∗ = ư nư 1
S
X n S
Nếu à = ào thì T có phân phối Student với (n-1) bậc tự do
Làm tương tự như phân phối chuẩn ta có các bước kiểm định như sau: Bước 1: Tính X,S hoặc S*
1
α
ư
n thì bác bỏ Ho (C): Nếu T ≤ - t( )
Bài giải: Gọi X là chiều cao của trẻ em lứa tuổi từ 2-3 tuổi.àlà chiều cao trung bình, ta có à=E(X) Ta phải kiểm định bài toán sau:
Trang 33c Trường hợp X có phân phối không chuẩn
Nếu n ≥ 30, ta tiến hành như phân phối chuẩn, cơ sở tiến hành phân phối chuẩn dựa vào định lý giới hạn trung tâm
Ví dụ: Độ bền của một loại sản phẩm công nghiệp cũ là 150 Sau khi cải tiến
kỹ thuật người ta lấy mẫu 100 sản phẩm để thử thì tính được độ bền trung bình
là 185 Độ lệch tiêu chuẩn mẫu hiệu chỉnh là 25 Với mức ý nghĩa α=0,05 cho biết cải tiến kỹ thuật có hiệu quả hay không?
Bài giải: Thấy rằng n = 100 là khá lớn nên không cần giả thiết độ bền của sản phẩm là chuẩn ta kiểm định bài toán sau:
Để kiểm định giả thuyết trên ta xét một số trường hợp sau:
a Nếu đ^ biết các phương sai δδδδ12, δδδδ22 của các biến ngẫu nhiên gốc trong tổng thể và từ 2 tổng thể trên có thể rút ra hai mẫu độc lập kích thước n1, n2:
Trang 34Tiêu chuẩn kiểm định được chọn là thống kê
G = U =
2
2 2 1
2 1
2 1 2
(
n n
X X
δ δ
à à
2 1
2
(
n n
X X
δ δ
1 2
2 1 1 1
1
;
i i n
i
n x x n x
và tính Uqs =
2
2 2 1
2 1
2 1
n n
x x
δ δ
Phương án 1: Chi phí nguyên liệu cho 5 sản phẩm trung bình là 3,3 Phương án 2: Chi phí nguyên liệu cho 6 sản phẩm trung bình là 2,5
Trang 35Với mức ý nghĩa α=0,05 hãy kết luận về vấn đề trên Biết rằng chi phí nguyên liệu theo cả 2 phương án gia công đều là các biến ngẫu nhiên phân phối chuẩn với δ12 = δ22 = 0 , 16
Bài giải: Gọi X1, X2 tương ứng là chi phí nguyên liệu theo cả 2 phương
án gia công trên X1, X2 theo phân phối chuẩn Vậy chi phí nguyên liệu trung bình theo các phương án đó là à1, à2 Ta có bài toán kiểm định sau:
H0:à 1 = à 2; H1:à 1 ≠ à2
Chọn tiêu chuẩn kiểm định G = U =
2
2 2 1
2 1
2 1
n n
X X
δ δ
+
ư
Với X1 = 3 , 3 ;X2 = 2 , 5 ; δ12 = δ22 = 0 , 16 ;n1 = 5 ,n2 = 6ta có U = 3,33
96 , 1 05
1 , δ
δ của biến ngẫu nhiên gốc trong tổng thể song
2 2
δ =
Chọn G = T =
2 1
2 1 2 1
1 1
) (
) (
n n Sp
X X
2 1
2 2 2 2 1 1
ư +
ư +
ư
n n
S n S n
Giả sử Ho đúng khi đó: G = T =
2 1
2 1 1 1
n n Sp
X X
Trang 36(C) Ho: à1 = à2, H1 : à1 < à2
Miền bác bỏ: W ={ T , T< -tα(n1+n2 ư 2 )}
2 2 1 2
1 ,x ,S ,S
x , T Xét T có thuộc vào miền bác bỏ Wkhông và kết luận
Ví dụ: Tiến hành thí nghiệm chăn nuôi gà theo 2 phương án khác nhau và theo dõi sau 1 tháng ta được các số liệu như sau:
Phương pháp 1: n1=100con, X1=1,1kg; S12 = 0 , 04 (X 1 là mức tăng trọng trung bình) Phương pháp 2: n2=150con, X 2 =1,2kg; 2
2
S =0,09 (X 2 là mức tăng trọng trung bình) Giả thiết mức tăng trọng của gà tuân theo quy luật phân phối chuẩn
Bài giải: Gọi à 1 , à 2 là mức tăng trọng trung bình theo phương pháp 1 và
2 Ta phải kiểm định bài toán sau: H0:à1 = à2; H1:à1<à2
Chọn thống kê Chọn G = T =
2 1
2 1 2 1
1 1
) (
) (
n n Sp
X X
2 1
2 2 2 2 1 1
ư +
ư +
ư
n n
S n S n
Thay các giá trị ta tìm được T = -10,403
91 , 2 05
) 1 )(
1 (
1 2 2
2
2 1
ư
ư +
ư
ư
ư
n c c
n
n n
bậc tự do
Trang 37với C =
2
2 2 1
2 1 1 2
1 /
n
S n S
n S
+
Nếu Ho đúng, thì G = T =
2
2 2 1
2 1
2 1
n
S n S
X X
Nhóm 1: Cho uống thuốc tẩy giun
Nhóm 2: Không uống thuốc tẩy giun
Sau một thời gian dùng thuốc, khi giết thịt 2 nhóm lợn trên cho kết quả sau về số giun có trong những con lợn thuộc 2 nhóm trên
2 1
S S
X X
+
−
Trang 382 1 1 2
1 /
n
s n s n
+
δ
=0,4798 ⇒k =
) 1 ( ) 1 ( ) 1 (
) 1 )(
1 (
1 2 2
2
2 1
−
− +
−
−
−
n c c
n
n n
≈12
Vớiα=0,05 ⇒ t012,05 = 1 , 782 Có T >-t12
05 ,
0 Nên với mức ý nghĩaα=0,05 ch−a có cơ sở bác bỏ H0 hay ch−a thể nói loại thuốc tẩy giun đ−ợc thực nghiệm là có hiệu quả
1.2.2.2.3 Kiểm định tỷ lệ
a Kiểm định tham số p của biến ngẫu nhiên phân phối không – một
Giả sử xét biến cố có xác suất p, ta có thể có các bài toán sau:
p p
p f
o o
o
) 1 (
) (
Trang 39thực sự mang lại hiệu quả hay không Để làm điều đó người ta phỏng vấn ngẫu nhiên
400 khách hàng thì thấy có 250 người tiêu dùng loại sản phẩm nói trên Với mức ý nghĩa 0,05 hãy kết luận về hiệu quả của chiến dịch quảng cáo đó
Bài giải: Gọi p là tỷ lệ khách hàng tiêu dùng loại sản phẩm đó ở địa phương A Bài toán kiểm định tham số p của phân phối A(p):
H0: p = 0,6; H1:p>0,6
Vì n>5 và
6 , 0
4 , 0 4 , 0
6 , 0
ư / 400=0,02<0,3 Nên ta dùng công thức kiểm định
p p
p f
o o
o
) 1 (
) (
ư
ư Với α =0 , 05 ⇒uα = 1 , 645
α
u U U
n p
b Kiểm định giả thuyết về 2 tham số p của hai biến ngẫu nhiên phân phối A (p)
Giả sử 2 tổng thể nghiên cứu trong đó các biến ngẫu nhiên X1, X2 phân phối không – một với tần số tương ứng p1, p2 Ta có thể có các bài toán
Nếu n1> 30, n2> 30 => U ~ N(0,1)
Trang 40Nếu giả thiết Ho đúng (p1 = p2 = p ) thì G = U =
) 1 1 )(
1 (
2 1
2 1
n n p p
f f
2 1
n n
m m
+ +
Khi đó: G = U =
) 1 1 )(
1 (
2 1
2 1
n n f f
f f
Ví dụ: Có 2 loại thuốc A, B cùng chữa một loại bệnh Qua theo dõi:
160 người dùng thuốc A thấy 120 người khỏi
56 người dùng thuốc B thấy 40 người khỏi
Vớiα=0,05 tỷ lệ chữa khỏi bệnh của 2 loại thuốc này có như nhau không? Bài giải: Gọi p1,p2 là tỷ lệ khỏi bệnh khi dùng 2 loại thuốc A,B Ta phải kiểm định bài toán sau: H0: p1= p2; H1: p1 ≠ p2
Có f1=120/160=0,750; f2=40/56=0,714; 0 , 741
56 160
40 120
= +
1 (
2 1
2 1
n n f f
f f
+
ư
ư
Thay vào ta có U=0,59
Vớiα =0 , 05 ⇒uα/2 =1 , 96 ⇒U <uα/2.Vậy bác bỏ H1 có nghĩa là tỷ lệ chữa khỏi bệnh của 2 loại thuốc là như nhau