ĐẠI HỌC ĐÀ NẴNGTRƯỜNG ĐẠI HỌC SƯ PHẠMKHOA TOÁN NGUYỄN THỊ PHƯƠNG THẢO PHƯƠNG PHÁP BAYES ƯỚC LƯỢNG THAM SỐ ĐẠI LƯỢNG NGẪU NHIÊN KHÓA LUẬN TỐT NGHIỆP Người hướng dẫn: ThS.LÊ VĂN DŨNG Đà Nẵ
Trang 1ĐẠI HỌC ĐÀ NẴNGTRƯỜNG ĐẠI HỌC SƯ PHẠM
KHOA TOÁN
NGUYỄN THỊ PHƯƠNG THẢO
PHƯƠNG PHÁP BAYES ƯỚC LƯỢNG THAM
SỐ ĐẠI LƯỢNG NGẪU NHIÊN
KHÓA LUẬN TỐT NGHIỆP
Người hướng dẫn: ThS.LÊ VĂN DŨNG
Đà Nẵng - 2013
Trang 3LỜI CẢM ƠN
Trong suốt khoá học (2009 - 2013) tại Trường Đại học Sư phạm - ĐHĐN,với sự nổ lực của bản thân và sự giúp đỡ của các thầy cô giáo trong trường,đặc biệt là các thầy cô giáo trong khoa Toán đã giúp tôi có một vốn trithức vững vàng để hoàn thành luận văn tốt nghiệp Trong thời gian làmluận văn, được sự giúp đỡ của giáo viên hướng dẫn Th.S Lê Văn Dũng vềmọi mặt, từ nhiều phía tôi đã hoàn thành đúng thời gian quy định Tôixin chân thành cảm ơn đến :
- Các thầy cô giáo trong khoa Toán đã giảng dạy cho tôi những kiếnthức chuyên môn làm cơ sở để thực hiện tốt luận văn tốt nghiệp và tạođiều kiện cho tôi hoàn thành tốt khoá học
- Đặc biệt, tôi xin gửi lời cảm ơn chân thành đến Th.S Lê Văn Dũng
là người luôn theo sát chỉ bảo hướng đi và cho tôi những lời khuyên quíbáu cũng như cung cấp các thông tin và căn cứ khoa học để tôi định hướngtốt trong khi làm luận văn tốt nghiệp
- Nhân đây tôi cũng xin gởi lời cảm ơn đến gia đình, bạn bè đã giúp đỡđộng viên tôi cả về vật chất lẫn tinh thần trong suốt quá trình làm luậnvăn tốt nghiệp
Mặc dù luận văn đã được hoàn thành đúng thời gian qui định nhưng
do điều kiện thời gian và kiến thức còn hạn chế nên luận văn của tôi khôngtránh khỏi những thiếu sót Vì vậy, tôi rất mong nhận được sự đóng góp
ý kiến của các thầy cô và các bạn để tạo điều kiện cho luận văn của tôiđược hoàn thiện hơn
Đà Nẵng, tháng 05 năm 2013
Sinh viên thực hiệnNguyễn Thị Phương Thảo
Trang 4Chương 1 Kiến Thức Cơ Sở 8
1.1 Không gian xác suất 8
1.1.1 Phép thử 8
1.1.2 Không gian mẫu 8
1.1.3 Độ đo xác suất 9
1.2 Công thức Bayes 9
1.2.1 Xác suất có điều kiện 9
1.2.2 Công thức Bayes 10
1.3 Đại lượng ngẫu nhiên 11
1.3.1 Hàm phân phối xác suất 11
1.3.2 Đại lượng ngẫu nhiên rời rạc 11
1.3.3 Đại lượng ngẫu nhiên liên tục 12
1.4 Đại lượng ngẫu nhiên độc lập 12
1.5 Các tham số đặc trưng của đại lượng ngẫu nhiên 12
1.5.1 Kỳ vọng toán 12
1.5.2 Phương sai 13
1.5.3 Độ lệch tiêu chuẩn 13
1.6 Các phân phối xác suất sử dụng trong chương sau 14
1.6.1 Phân phối Bernoulli 14
1.6.2 Phân phối Nhị Thức 14
1.6.3 Phân phối Poisson 15
1.6.4 Phân phối Đều 15
1.6.5 Phân phối Beta 16
1.6.6 Phân phối Gamma 16
1.6.7 Phân phối inverse - Gamma 17
3
Trang 51.6.8 Phân phối Student 17
1.6.9 Phân phối khi bình phương 18
1.6.10 Phân phối khi inverse - khi bình phương 18
1.7 Vectơ ngẫu nhiên 18
1.7.1 Định nghĩa 18
1.7.2 Hàm phân phối xác suất đồng thời 19
1.7.3 Hàm mật độ xác suất đồng thời 19
1.8 Mẫu số liệu và mẫu ngẫu nhiên 19
Chương 2 Phương pháp Bayes ước lượng tham số 20 2.1 Phân phối xác suất có điều kiện 20
2.1.1 Định nghĩa 20
2.1.2 Trường hợp Y là đại lượng ngẫu nhiên rời rạc 20
2.1.3 Trường hợp Y là đại lượng ngẫu nhiên liên tục 20
2.2 Ước lượng tham số phân phối Bernoulli 21
2.2.1 Công thức ước lượng khoảng tham số 22
2.3 Ước lượng tham số phân phối nhị thức 24
2.3.1 Công thức ước lượng khoảng tham số 25
2.4 Ước lượng tham số phân phối Poisson 26
2.4.1 Công thức ước lượng tham số 27
2.5 Ước lượng khoảng kì vọng của phân phối chuẩn 29
2.5.1 Công thức ước lượng khoảng 30
2.6 Ước lượng khoảng kì vọng và phương sai 32
2.6.1 Công thức ước lượng khoảng kì vọng 33
2.6.2 Công thức ước lượng khoảng phương sai 34
Trang 61 Lí do chọn đề tài
Ngày nay, Xác suất thống kê là môn học cơ sở được giảng dạy trongcác trường đại học, cao đẳng Không những thế nó còn được ứng dụngnhiều trong các ngành như kinh tế, kỹ thuật, sinh học, y học, Nó giúpchúng ta cách tổ chức chỉ đạo, sản xuất, phân phối lưu thông, góp phần
dự báo kinh tế, đánh giá chất lượng sản phẩm, năng suất lao động, thunhập và xử lý 1 khối lượng lớn số liệu thông tin,
Phương pháp Bayes là một phương pháp dùng để kết hợp các đối tượngnghiên cứu bên ngoài, đại diện bởi một đường cong xác suất Phương phápBayes có thể được xem như một phương pháp tính toán của các công trìnhnghiên cứu, không chỉ dựa riêng vào độ tin cậy vì định lý Bayes cung cấpmột cách thích hợp để đo lường và kết hợp các đối tượng nghiên cứu.Phương pháp Bayes mô tả sự không chắc chắn nhận thức luận bằngcách sử dụng ngôn ngữ xác suất Trong phương pháp này, mức độ tin cậyvào trạng thái tự nhiên được qui định cụ thể Và một trong những thếmạnh của nó là dễ dàng đưa ra được dự đoán
Ý tưởng cơ bản của phương pháp này là thống kê Bayes thông qua cácthông số như trung bình, tỉ lệ, độ lệch chuẩn, có những luật phân phốiriêng Các luật phân phối này chẳng những thể hiện sự bất định của cácthông số, mà còn phản ánh kiến thức của chúng ta về các thông số đó.Đối với thông kê cổ điển thì các thông số này là cố định và không có luậtphân phối Đây chính là điểm khác biệt cơ bản mang tính toán học giữathống kê Bayes và thống kê cổ điển
Với các lí do trên tôi quyết định chọn đề tài nghiên cứu cho luận văncủa tôi là : Phương Pháp Bayes Ước Lượng Tham Số Đại Lượng
Trang 7là một cuộc cách mạng quan trọng trong xác suất thống kê.
3 Đối tượng nghiên cứu
Đề tài nghiên cứu về Phương pháp Bayes ước lượng tham số đại lượngngẫu nhiên
4 Phạm vi nghiên cứu
Nghiên cứu các tài liệu về xác suất, phương pháp Bayes trong và ngoàinước Phạm vi nghiên cứu tập trung chủ yếu vào ước lượng tham số cácphân phối
5 Phương pháp nghiên cứu
Để thuận tiện cho việc nghiên cứu, tôi sử dụng phần mềm R để thựchiện phương pháp Bayes, vì R là một ngôn ngữ tương đối dễ sử dụng vàrất linh hoạt để tính toán các vấn đề khó trong thực tế nghiên cứu và đặcbiệt là phần mềm miễn phí
Thu thập các bài báo khoa học, các tài liệu liên quan đến đề tài.Tham khảo các tài liệu trên mạng Internet
7 Cấu trúc luận văn
Bố cục bao gồm 2 chương :
• Chương 1 Kiến thức cơ sở
• Chương 2 Phương pháp Bayes ước lượng tham số
Trang 8Do thời gian thực hiện khóa luận không nhiều, kiến thức còn hạn chếnên khi làm khóa luận không tránh khỏi những hạn chế và sai sót Tôimong nhận được sự góp ý và những ý kiến phản biện của quý thầy cô vàcác bạn Tôi xin chân thành cảm ơn!
Đà Nẵng, tháng 05 năm 2013
Sinh viên
Nguyễn Thị Phương Thảo
Trang 91.1.2 Không gian mẫu
Tập hợp tất cả các kết quả có thể xảy ra của một phép thử ngẫu nhiênđược gọi là không gian mẫu Ta thường kí hiệu là Ω
Cho không gian mẫu Ω Một lớp F các tập con của Ω thoã mãn 3 điềukiện:
Trang 101.1.3 Độ đo xác suất
Một hàm tập hợp P : F → R được gọi là độ đo xác suất nếu thoã mãn
3 điều kiện sau:
+ Với mọi A ∈ F, 0 ≤ P(A) ≤ 1
* Hệ quả 2
P (B/A) = P (B)P (A/B)
P (A)
Trang 11Giả sử A1 , A2 , , An là nhóm biến cố đầy đủ xung khắc từng đôi và
B là biến cố bất kỳ có thể xảy ra đồng thời với một trong các biến cố Ai.Khi đó ta có công thức:
+ P (H0) được gọi là xác suất tiên nghiệm của H0
+ P (E|H0) được gọi là xác suất có điều kiện của việc quan sát thấybằng chứng E nếu biết rằng giả thuyết H0 là đúng Đại lượng này cònđược gọi là hàm khả năng khi nó được biểu diễn dưới dạng một hàm của
H0 khi cho trước E
+ P (E) được gọi là xác suất biên duyên của E: xác suất của việc
Trang 12chứng kiến bằng chứng mới E dưới tất cả các giả thuyết loại trừ nhau đôimột Đại lượng này có thể được tính bằng tổng của tích tất cả các xácsuất của các giả thuyết loại trừ nhau đôi một và các xác suất có điều kiệntương ứng: XP (E|Hi)P (Hi).
+ P (H0|E) được gọi là xác suất hậu nghiệm của H0 nếu biết E.Suy luận Bayes được dùng để tính các xác suất cho việc đưa ra quyếtđịnh trong tình huống không chắc chắn Bên cạnh các xác suất, ta nêntính một hàm mất mát nhằm mục đích phản ánh các hậu quả của việcphạm sai lầm Các xác suất đại diện cho khả năng hoặc niềm tin về việcphạm sai lầm Một hàm mất mát đại diện cho các hậu quả của việc phạmsai lầm
1.3 Đại lượng ngẫu nhiên
* Định nghĩa
Cho không gian xác suất (Ω, F , P ) Hàm số X : Ω → R được gọi
là đại lượng ngẫu nhiên nếu X là hàm đo được, tức là với mọi a ∈ R,{ω ∈ Ω : X(ω) < a} ∈ F
1.3.1 Hàm phân phối xác suất
* Định nghĩa
Cho đại lượng ngẫu nhiên X, hàm số F (x) = P (X < x), x ∈ R được gọi
là hàm phân phối xác suất của X
1.3.2 Đại lượng ngẫu nhiên rời rạc
Ta gọi X là đại lượng ngẫu nhiên rời rạc, nếu nó có thể nhận cácgiá trị x1, x2, , xn (n hữu hạn hoặc vô hạn đếm được) với xác suất tươngứng là p1, p2, , pn, nghĩa là ta có:
p(X = xi) = pi Như vậy, cho một đại lượng ngẫu nhiên rời rạc tức là chomột bảng số
Trang 13X x1 x2 xn
P p1 p2 pn
trong đó: xi < xj nếu i < j, pk = P (X = xk)
Ta gọi nó là bảng phân phối đại lượng ngẫu nhiên X
Trong định nghĩa trên, lẽ đương nhiên ta phải có:
pi > 0, ∀i ≥ 1,X
k
pk = 1
Kí hiệu E là miền giá trị của đại lượng ngẫu nhiên rời rạc X, hàm số
f : E → R xác định bởi f (x) = P (X = x) được gọi là hàm mật độ của
X
1.3.3 Đại lượng ngẫu nhiên liên tục
Đại lượng ngẫu nhiên X được gọi là đại lượng ngẫu nhiên liên tục nếuhàm phân phối của X có đạo hàm, tương đương với tồn tại một hàm số
f :R → R khả tích không âm sao cho với mọi y ∈ R,
F (y) =
Z y
−∞
f (x)dx,
trong đó : F (y) là hàm phân phối của X
Khi đó, f (x) được gọi là hàm mật độ của X
1.4 Đại lượng ngẫu nhiên độc lập
Cho n đại lượng ngẫu nhiên X1, , Xn xác định trên cùng một khônggian mẫu Ta nói X1, , Xn độc lập nếu với mọi a1, , an ∈ R ta có các
Trang 15Đại lượng ngẫu nhiên rời rạc X có miền giá trị E = {0, 1, 2, , n}
được gọi là có phân phối nhị thức với tham số n và θ nếu có hàm mật độ :
Trang 161.6.3 Phân phối Poisson
* Định nghĩa
Đại lượng ngẫu nhiên rời rạcX có miền giá trịE = N = {0, 1, 2, , n, }
được gọi là có phân phối Poison với tham số θ nếu có hàm mật độ xácsuất :
Trang 18Kí hiệu là : X ∼ Inv − Gamma(a, b).
Định lý 1.6.1 Đại lượng ngẫu nhiên X có phân phối Gamma(a,b) khi vàchỉ khi 1/X có phân phối Inv-Gamma(a,b)
1.6.8 Phân phối Student
∀x ∈ R,
trong đó Γ(x) là hàm Gamma
Kí hiệu X ∼ Tn
Trang 201.7.2 Hàm phân phối xác suất đồng thời
Hàm phân phối của vecto ngẫu nhiên X là một hàm số n biến được xác
1.8 Mẫu số liệu và mẫu ngẫu nhiên
Tiến hành quan sát ngẫu nhiên n lần độc lập về biến ngẫu nhiên X
thu được n giá trị của X là x1, x2, , xn Khi đó (x1, x2, , xn) được gọi
là mẫu số liệu của biến ngẫu nhiên X và n được gọi là kích thước mẫu
Mẫu ngẫu nhiên là một bộ gồm các biến ngẫu nhiên X1, X2, , Xn độc
lập cùng phân phối xác suất với biến ngẫu nhiên X
Như vậy ta có thể xem mẫu số liệu (x1, x2, , xn) là một giá trị của
mẫu ngẫu nhiên (X1, X2, , Xn)
Trang 21PHƯƠNG PHÁP BAYES ƯỚC LƯỢNG THAM SỐ
2.1 Phân phối xác suất có điều kiện
Cho hai đại lượng ngẫu nhiên X và Y, trong mục này tôi trình bàykhái niệm phân phối xác suất của đại lượng ngẫu nhiên X dưới điều kiện
nếu giới hạn bên phải tồn tại với mọi x ∈ R.
2.1.2 Trường hợp Y là đại lượng ngẫu nhiên rời rạc
Cho hai đại lượng ngẫu nhiên X và Y và y là một phần tử thuộc miềngiá trị E của đại lượng ngẫu nhiên Y (P (Y = y) > 0) Hàm phân phốixác suất của đại lượng ngẫu nhiên X dưới điều kiện Y = y là hàm số
FX/Y =y(x) = P (X < x/Y = y) = P (X < x, Y = y)
P (Y = y)2.1.3 Trường hợp Y là đại lượng ngẫu nhiên liên tục
Cho đại lượng ngẫu nhiên X có hàm mật độ fX(x) và đại lượng ngẫunhiên Y có hàm mật độ fY(x) thỏa mãn fY(x) 6= 0 với mọix ∈ R, y là giá
20
Trang 22trị của đại lượng ngẫu nhiên Y Gọi fX,Y(x, y) là hàm mật độ xác suấtđồng thời của vectơ ngẫu nhiên (X, Y ) Hàm phân phối xác suất của đạilượng ngẫu nhiên X dưới điều kiện Y = y là hàm số
là hàm mật độ xác suất đồng thời của vectơ ngẫu nhiên (X, Y ), f (x/y) =
fX/Y =y(x) là hàm mật độ củaX dưới điều kiện Y = y, f (y/x) = fY /X=x(x)
là hàm mật độ của Y dưới điều kiện X = x Khi đó,
f (x/y) = fX(x)f (y/x)
fY(y) .
2.2 Ước lượng tham số phân phối Bernoulli
Cho đại lượng ngẫu nhiên rời rạc X có phân phối Bernoulli với tham
số θ (0 ≤ θ ≤ 1) có hàm mật độ f (x/θ) = θx(1 − θ)1−x với x ∈ {0, 1} vớitham số θ chưa biết, cho (x1, x2, , xn) là một mẫu số liệu của X
Giả sử θlà đại lượng ngẫu nhiên có phân phối đều trên đoạn [0; 1] Hàmmật độ của θ là :
f (θ) =
1 nếu θ ∈ [0; 1]
0 nếu θ /∈ [0; 1]
Giả sử(X1,X2, ,Xn)là một mẫu ngẫu nhiên củaX,f (x1, x2, , xn/θ)
là hàm mật độ đồng thời của vectơ ngẫu nhiên (X1, X2, , Xn) với điềukiện θ, f (y1, y2, , yn) là hàm mật độ đồng thời của vectơ ngẫu nhiên(X1, X2, , Xn), f (θ/x1, x2, , xn) là hàm mật độ của θ với điều kiện:
Trang 232.2.1 Công thức ước lượng khoảng tham số
Cho x1, x2, , xn là một mẫu số liệu của đại lượng ngẫu nhiên X cóphân phối Bernoulli với tham số θ Nếu θ có phân phối đều trên [0; 1] thìvới độ tin cậy 1 − α, ước lượng khoảng của θ với điều kiện mẫu số liệutrên là :
Trang 24θα/2 ≤ θ ≤ θ1−α/2
Trong đó, θα/2 và θ1−α/2 là các phân vị của phân phối Beta :
Beta(k + 1, n − k + 1) với k = y1 + y2 + + yn xác định bởi :
P (Beta < θα/2) = α/2 và P (Beta > θ1−α/2) = α/2
Ví dụ 2.2.1 Trong một cuộc khảo sát cảm nhận về hạnh phúc của phụ
nữ có độ tuổi từ 65 trở lên người ta thăm dò ngẫu nhiên 129 người thì có
118 người trả lời là hạnh phúc Với độ tin cậy 95% hãy ước lượng khoảng
tỉ lệ phụ nữ tuổi từ 65 trở lên cảm thấy hạnh phúc
k
n(1 −
k
n)n
ta được ước lượng khoảng của là [0.86; 0.963]
Ví dụ 2.2.2 Chọn ngẫu nhiên 10 sản phẩm của một nhà máy thấy có 2phế phẩm Với độ tin cậy 95% hãy ước lượng khoảng tỉ lệ phế phẩm củanhà máy
Trang 25Như vậy ta có ước lượng khoảng của p với độ tin cậy 95% là [0.06; 0.52].
2.3 Ước lượng tham số phân phối nhị thức
Cho đại lượng ngẫu nhiên X có phân phối nhị thức Bin (n, θ) có hàmmật độ
Khi c(x) là hàm phụ thuộc vào x và không phụ thuộc vào θ, với
f (θ) = 1 chúng ta có thể tìm được c(x) qua công thức sau :
Trang 262.3.1 Công thức ước lượng khoảng tham số
Cho x là một giá trị quan sát của đại lượng ngẫu nhiên X có phânphối nhị thức B(n, θ) với tham số θ Nếu θ có phân phối đều trên đoạn
[0; 1] thì với độ tin cậy 1 − α, ước lượng khoảng của θ ứng với giá trị quansát x là:
Giải
Theo giả thiết ta có : n = 20 , y = 5 , α = 0.05
Như vậy : a = 6 và b = 16
Ta tìm θα/2 và θ1−α/2 bằng phần mềm R :
Trang 27> a < −6; b < −16
> qbeta(c(0.025, 0.975), a, b)
[1] 0.1128094 0.4716598
Như vậy ta có ước lượng khoảng của θ với độ tin cậy 95% là [0.11; 0.47]
2.4 Ước lượng tham số phân phối Poisson
Cho đại lượng ngẫu nhiên rời rạc X có phân phối Poisson với tham số
Trang 28Như vậy, nếu xem θ có phân phối Gamma(a, b) thì với điều kiện mẫu
số liệu x1, , xn, θ có phân phối Gamma(a +Pn
k=1xk, b + n)
2.4.1 Công thức ước lượng tham số
Cho x1, x2, , xn là một mẫu số liệu của đại lượng ngẫu nhiên X cóphân phối Poisson(θ) Nếu tham số θ có phân phối Gamma(a, b) thì với
độ tin cậy 1 − α ước lượng khoảng của θ với điều kiện mẫu số liệu trên là :
Sử dụng công thức ước lượng tham số phân phối Poisson ta có:
Trang 29Như vậy ước lượng khoảng khách trong 1 ngày của cửa hàng là[8.91, 12.07]
Ví dụ 2.4.2 Trong cuộc điều tra của General Social Survey vào nhữngnăm 1990 về trình độ giáo dục và số con cái của 155 phụ nữ 40 tuổi , kếtquả điều tra được là:
- 111 phụ nữ không có bằng đại học thì có tổng cộng 217 đứa con
- 44 phụ nữ có bằng đại học thì có tổng cộng 66 đứa con
Giả sử số con của một phụ nữ có phân phối Poisson độ tin cậy là 95%,hãy ước lượng khoảng số con trung bình của phụ nữ có bằng đại học vàphụ nữ không có bằng đại học