DSpace at VNU: Phương pháp VB và ứng dụng tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả...
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 2ĐẠI HỌC QUỐC GIA HÀ NÔI ĐẠI HỌC KHOA HỌC TỰ NHIÊN
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS Trần Mạnh Cường
Trang 3Lời cảm ơn
Luận văn này được hoàn thành với sự hướng dẫn tận tình và cũng hết sức nghiêm khắccủa TS Trần Mạnh Cường Trước khi trình bày nội dung chính của luận văn, tác giả muốnbày tỏ lòng biết ơn chân thành và sâu sắc tới người thầy đáng kính của mình Thầy đãluôn tận tình hướng dẫn cũng như giải đáp các thắc mắc của tác giả trong suốt quá trìnhlàm luận văn
Tác giả cũng muốn gửi tới toàn thể các thầy cô Khoa Toán - Cơ - Tin học trường Đạihọc Khoa học Tự nhiên - Đại học Quốc gia Hà Nội, các thầy cô đã đảm nhận giảng dạykhóa Cao học 2014 - 2016, đặc biệt là các thầy cô tham gia giảng dạy nhóm Xác suấtthống kê 2014 - 2016 lời cảm ơn chân thành đối với công lao dạy dỗ trong suốt thời giancủa khóa học
Tác giả xin cảm ơn gia đình, bạn bè, đồng nghiệp và các anh chị em trong nhómXác suất thống kê 2014 - 2016, các thành viên trong nhóm Seminar do thầy Trần Mạnh
Cường phụ trách về các chủ đề liên quan đến Thống kê Bayes đã quan tâm, giúp đỡ, tạo
điều kiện và động viên tinh thần để tác giả có thể hoàn thành được khóa học này
Tác giả xin chân thành cảm ơn!
Hà Nội, ngày tháng năm 2016
Học viên
Đỗ Thị Len
Trang 4Mục lục
1.1 Giới thiệu 5
1.2 Một số phân phối thường dùng 7
1.3 Suy luận Bayes cho tham số tỉ lệ phân phối nhị thức 14
1.3.1 Tiên nghiệm 14
1.3.2 Hậu nghiệm 15
1.3.3 Ước lượng 15
1.3.4 Kiểm định giả thiết 16
1.4 Suy luận Bayes cho kỳ vọng phân phối Gaussian 17
1.4.1 Tiên nghiệm 17
1.4.2 Hậu nghiệm 17
1.4.3 Ước lượng 18
1.4.4 Kiểm định giả thiết 19
1.5 Hồi quy Bayes 20
1.5.1 Suy luận Bayes cho mô hình hồi quy tuyến tính Bayes đơn 21
1.5.2 Mô hình hồi quy tuyến tính Bayes bội 25
Trang 5MỤC LỤC MỤC LỤC
2.1 Nguồn gốc toán học 30
2.2 Xấp xỉ phân phối hậu nghiệm 32
2.2.1 Xấp xỉ phân phối hậu nghiệm của biếnZ độc lập từng khối 32
2.2.2 Xấp xỉ địa phương - Tham số biến phân 34
2.3 Áp dụng phương pháp VB cho phân phối Gaussian 36
2.3.1 Phân phối Gaussian một chiều 36
2.3.2 Phân phối đa thức Gaussian 40
2.4 Áp dụng phương pháp VB cho mô hình hồi quy Bayes 47
2.4.1 Mô hình hồi quy tuyến tính Bayes 47
2.4.2 Mô hình hồi quy Logistic Bayes 52
3 Ứng dụng 59 3.1 Phân phối hậu nghiệm không thuộc họ phân phối nào đã biết 59
3.1.1 Bài toán 60
3.1.2 Thuật toán 63
3.1.3 Code chạy phần mềm mathlab 63
3.1.4 Kết quả 66
3.2 Phân phối hậu nghiệm thuộc họ phân phối đã biết 67
3.2.1 Bài toán 67
3.2.2 Thuật toán 71
3.2.3 Code chạy phần mềm mathlab 71
3.2.4 Kết quả 73
Trang 6Lời mở đầu
Hiện nay, thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes Thống kê tầnsuất ra đời trước và là phương pháp phổ biến hiện nay Nó dựa trên những kết quả quansát mẫu của hiện tại mà không cần đến những thông tin, dữ liệu đã biết trước Thống kêBayes dựa trên những thông tin dữ liệu đã biết trước và kết quả quan sát mẫu của hiệntại để suy luận cho những thống kê hiện tại
Thống kê Bayes hay còn gọi là suy luận Bayes ra đời trên cơ sở định lý Bayes Đó làkiểu suy luận thống kê mà trong đó, các nhà thống kê sử dụng phân phối tiên nghiệm(thông tin đã biết trước) về vấn đề đang xét và thông tin mẫu (các quan sát hay bằngchứng), áp dụng công thức trong định lý Bayes để tìm ra phân phối hậu nghiệm (xácsuất xảy ra ở hiện tại), từ đó dùng phân phối hậu nghiệm để suy luận cho thống kê hiệntại
Ví dụ: Xét bài toán ước lượng cho tham sốθcủa biến ngẫu nhiênX với mẫuX1, X2, , Xn
•Theo thống kê tần suất, tham sốθcủa biến ngẫu nhiên nhận một giá trị nào đó Tatìm được tham số của mẫuθ∗ theo công thức tính dựa theo giá trị quan sát mẫu Ta có
E[θ∗] = θ Do đó, ta dùngθ∗để ước lượng cho tham sốθ Chẳng hạn, ước lượng cho giátrị trung bìnhµcủa biến ngẫu nhiên: ta tính trung bình mẫuX = 1
•Theo thống kê Bayes, tham sốθcũng là một biến ngẫu nhiên liên tục Trước hết, tabiết phân phối tiên nghiệm củaθlàp ( θ) Sau đó, áp dụng định lý Bayes ta tính được mật
độ hậu nghiệm p (θ|X1, X2, , Xn) Khi đó tham số của mẫu dùng để ước lượng được xác
Trang 7đó, phương pháp VB (Variational Bayesian) ra đời để tìm giá trị gần đúng nhất của phânphối hậu nghiệm.
Trong luận văn này, tác giả trình bày về một phương pháp trong suy luận Bayes làphương pháp VB và một số ứng dụng của phương pháp này Luận văn của tác giả đượcchia làm 3 chương:
Chương 1 Thống kê Bayes
Trong chương này, tác giả giới thiệu chung về thống kê Bayes; một số phân phối thôngthường; một số mô hình suy luận Bayes: Suy luận Bayes cho tham số của phân phối nhịthức, kỳ vọng của phân phối Gaussian một chiều, tham số của mô hình hồi quy tuyếntính Bayes đơn Từ đó làm cơ sở để nghiên cứu các phần tiếp theo
Chương 2 Phương pháp VB
Trong chương này, tác giả trình bày kiến thức về phương pháp VB bao gồm: Nguồngốc toán học; xấp xỉ phân phối hậu nghiệm; áp dụng phương pháp VB cho phân phốiGaussian, áp dụng phương pháp VB cho mô hình hồi quy Bayes
Chương 3 Ứng dụng
Trong chương này, tác giả giới thiệu ứng dụng phương pháp VB cho hai trường hợp:Phân phối hậu nghiệm không thuộc họ phân phối nào đã biết; phân phối hậu nghiệmthuộc họ phân phối đã biết
Để nghiên cứu về đề tài "Phương pháp VB và ứng dụng", tác giả đã tham khảo một số
tài liệu trong và ngoài nước về thống kê tần suất, thống kê Bayes, phần mềm Mathlab.Trong đó
Trang 8Lời mở đầu
◦Nội dung chính chương 1 của luận văn tham khảo tài liệu [5] và [8];
◦Nội dung chính chương 2 của luận văn tham khảo tài liệu [5] và [6];
◦Nội dung chính chương 3 của luận văn tham khảo tài liệu [5];
◦Ở phần ứng dụng phương pháp VB, tác giả áp dụng phương pháp VB để tính toán
Từ đó, viết thuật toán và dùng phần mềm Mathlab để thực hiện ra kết quả
Trang 9Chương 1
Thống kê Bayes
Thống kê Bayes có sự khác biệt so với thống kê tần suất ở cách thức tiếp cận vấn đề:Thống kê tần suất quan niệm tham số của biến ngẫu nhiên là một giá trị nào đó, cònthống kê Bayes quan niệm tham số của biến ngẫu nhiên cũng là một biến ngẫu nhiên.Suy luận Bayes thực hiện theo trình tự: từ phân phối tiên nghiệm mà ta tin tưởng, ápdụng định lý Bayes tìm phân phối hậu nghiệm, sau đó dùng phân phối hậu nghiệm đểước lượng, kiểm định giả thiết thống kê, phân tích hồi quy tuyến tính
Z đại diện cho một giả thiết, giả thiết này được suy luận trước khi có thông tin mới
P (Z ) được gọi là xác suất tiên nghiệm của Z
P (X |Z )là xác suất xảy raX nếu biết giả thiếtZ là đúng Đại lượng này còn được gọi là
hàm hợp lý (likelihood) biểu diễn dưới dạng một hàm của X khi cho trướcZ và là thôngtin mới
Trang 10Giới thiệu Thống kê Bayes
P (X ) được gọi là xác suất biên duyên của X
P (Z |X ) được gọi là xác suất hậu nghiệm của Z nếu biếtX
Theo định lý này thì xác suất hậu nghiệm tỉ lệ với tích của xác suất tiên nghiệm vàhàm hợp lý, kí hiệu làP (Z |X ) ∝ P (Z ) × P (X |Z ) Tức là tiên nghiệm nhân với hằng số bất
kỳ cũng không ảnh hưởng đến kết quả của hậu nghiệm
Hệ số BayesB = P (X |Z )
P (X ) đại diện cho ảnh hưởng của thông tin mới thu được đối vớixác xuất xảy raZnếu biếtX Nếu hệ số này sẽ có giá trị lớn, khi nhân xác suất tiên nghiệmvới hệ số này, ta được một xác suất hậu nghiệm lớn Nhờ đó, trong suy luận Bayes, định
lý Bayes đo được mức độ mà thông tin mới sẽ làm thay đổi mức độ tin tưởng vào một giảthiết
Khi có thông tin mới về một biến ngẫu nhiên, suy luận Bayes cho biến ngẫu nhiên đóthực hiện theo các bước sau:
•Xác định phân phối tiên nghiệm
Phân phối tiên nghiệm (prior distribution) của biến ngẫu nhiên Z là phân phối mà tatin tưởng, có được từ kinh nghiệm tích lũy, kí hiệu làp (Z )
•Áp dụng định lý Bayes để tìm phân phối hậu nghiệm
Phân phối hậu nghiệm (posterior distribution) của biến Z nếu biết X là phân phối
có được bằng tính toán theo định lý Bayes, sau khi có thông tin mớip (X |Z ) Kí hiệu là
Phân phối tiên nghiệm liên hợp (conjugate prior) là phân phối tiên nghiệm mà phân
phối hậu nghiệm tìm được cùng họ với phân phối tiên nghiệm
Các nhà thống kê Bayes lập luận rằng ngay cả khi người ta có các xác suất chủ quantiên nghiệm rất khác nhau thì với thông tin mới từ các quan sát lặp đi lặp lại sẽ có xuhướng đưa các xác suất hậu nghiệm của họ lại gần nhau hơn
Trang 111.2 MỘT SỐ PHÂN PHỐI THƯỜNG DÙNG Thống kê Bayes
1.2 Một số phân phối thường dùng
Phân phối Bernoulli
Phân phối Bernoulli với tham sốπlà phân phối của biến ngẫu nhiênX nhận hai giátrị0, 1vớiP (X = 1) = π;P (X = 0) = 1 − πcó hàm mật độ xác định như sau:
B er n (X |π) = π x (1 − π) 1−x
Các tham số đặc trưng của biến ngẫu nhiênX:
E[X ] = π var [X ] = π(1 − π)
Phân phối này là trường hợp đặc biệt của phân phối nhị thức chỉ có một quan sát.Phân phối tiên nghiệm liên hợp cho tham sốπlà phân phối Beta
Phân phối Beta
Phân phối Beta với hai tham sốa vàb(a > 0,b > 0)là phân phối của biến ngẫu nhiênliên tụcΠnhận giá trị trên[0, 1]có hàm mật độ xác định như sau:
a + b
(a + b)2(a + b + 1)
Phân phối Beta là phân phối tiên nghiệm liên hợp cho phân phối Bernoulli Khia =
b = 1thì phân phối Beta trở thành phân phối đều Phân phối Beta là trường hợp đặc biệtcủa phân phối DirichletK chiều vớiK = 2
Phân phối nhị thức
Trang 12Một số phân phối thường dùng Thống kê Bayes
Phép thử ngẫu nhiên thực hiệnn lần với xác suất thành công các lần thử đều bằngnhau và bằngπ Trongnlần thực hiện cómlần thành công
Phân phối nhị thức với tham sốn(số lần thử) và tham sốπ ∈ [0,1](xác suất thành côngcủa các lần thử) của biến ngẫu nhiênM(số lần thành công) nhận giá trị1, 2, , ncó hàmmật độ xác định như sau:
B (M |n,π) =
n m
π m (1 − π) N −m
Các tham số đặc trưng của biến ngẫu nhiênM:
E[M] = nπ var [M ] = nπ(1 − π)
Khin = 1thì phân phối nhị thức chính là phân phối Bernoulli và khinrất lớn thì phânphối nhị thức xấp xỉ phân phối Gaussian Phân phối tiên nghiệm liên hợp choπlà phânphối Beta
Phân phối Dirichlet
Phân phối Dirichlet với tham sốα = (α1, ,α K)T,α k > 0, k = 1, K là một phân phối đathức của biến ngẫu nhiênK chiềuΠ = (Π1, ,ΠK)T sao cho
0 ≤ πk ≤ 1, k = 1, K K
Trang 13Một số phân phối thường dùng Thống kê Bayes
Trong đó
C ( α) = Γ(α)b
Γ(α1) Γ(αK)b
Phân phối Gamma
Phân phối Gamma với hai tham sốa vàb(a > 0,b > 0)là phân phối xác suất của biếnngẫu nhiên dươngτ > 0có hàm mật độ xác định như sau:
Trang 14Một số phân phối thường dùng Thống kê Bayes
Phân phối Gamma là phân phối tiên nghiệm liên hợp cho độ chính xác của biến ngẫunhiên tuân theo quy luật phân phối Gaussian Nói cách khác, phân phối Gama ngược làphân phối tiên nghiệm liên hợp của phương sai của biến ngẫu nhiên tuân theo quy luậtphân phối Gaussian Đặc biệt khia = 1phân phối Gamma chính là phân phối mũ
Phân phối Gaussian - Phân phối Chuẩn
Phân phối Gaussian là phân phối biến ngẫu nhiên liên tục và là phân phối phổ biếnnhất của biến ngẫu nhiên
Trường hợp biến ngẫu nhiên một chiều:
Phân phối Gaussian với tham số kỳ vọngµvà tham số phương saiσ2> 0là phân phốicủa biến ngẫu nhiên liên tục X nhận giá trị trênR, kí hiệu làN ¡X |µ,σ2¢
có hàm mật độxác định như sau:
Nghịch đảo của phương saiτ = 1
σ2 được gọi là độ chính xác, căn bậc hai của phươngsai σ2 được gọi là độ lệch chuẩn Phân phối tiên nghiệm liên hợp của µlà phân phốiGaussian và phân phối tiên nghiệm liên hợp củaτlà phân phối Gamma Nếu cảµvà τ
đều chưa biết thì phân phối tiên nghiệm của phân phối đồng thời là phân phối Gaussian
- Gamma
Trường hợp biến ngẫu nhiên X là vecto D -chiều:
Phân phối Gaussian với tham số là vecto kỳ vọngµ D-chiều và ma trận phương saiP
là phân phối của biến ngẫu nhiênX ∈ R D, kí hiệu làN ¡X |µ,Σ¢có hàm mật độ xác địnhnhư sau:
Trang 15Một số phân phối thường dùng Thống kê Bayes
Các đặc trưng của biến ngẫu nhiênX
E[X ] = µ var [X ] = Σ
Nghịch đảo của ma trận phương saiΛ = Σ−1 là ma trận độ chính xác Phân phối tiênnghiệm liên hợp củaµlà phân phối Gaussian và phân phối tiên nghiệm liên hợp củaΛ
là phân phối Wishart Nếu cảµvàΛđều chưa biết thì phân phối tiên nghiệm của phânphối đồng thời là phân phối Gaussian - Wishart
Phân phối Gaussian - Gamma
Phân phối Gaussian - Gamma với tham sốµ0,β,a,blà phân phối của biến ngẫu nhiên
trong đó cả kỳ vọng và phương sai đều chưa biết
Phân phối Gaussian - Wishart
Phân phối Gaussian - Wishart với tham sốµ0,β,W,vlà phân phối của biến ngẫu nhiên
Gaus-trong đó cả kỳ vọng và ma trận phương sai đều chưa biết
Phân phối đa thức
Biến ngẫu nhiênK-chiềuX = (X1, , X K)trong đó X k nhận 2 giá trị 0 và 1 vớik = 1,K
thỏa mãn PK
k=1
x k= 1vàP (X k = 1) = πk, PK
k=1 π k= 1
Trang 16Một số phân phối thường dùng Thống kê Bayes
Khi đó, ta có hàm mật độ của biến ngẫu nhiênX
cov£Xj X k¤ = I j k π k
Phân phối đa thức với hai tham sốn quan sát vàπ = (π1, π K)là phân phối của biếnngẫu nhiên rời rạcK-chiều với các thành phần là biến đếmM k có hàm mật độ xác địnhnhư sau:
Phân phối tiên nghiệm liên hợp cho các tham sốΠk là phân phối Dirichlet
Phân phối Student
Trường hợp biến một chiều:
Phân phối Student với các tham sốµ,λ,v của biến ngẫu nhiên liên tụcX nhận giá trị
Trang 17Một số phân phối thường dùng Thống kê Bayes
trênRcó hàm mật độ và các đặc trưng xác định như sau:
St ¡X |µ,λ, v¢ = Γ(v/2 + 1/2)
Γ(v/2)
µ λ πv
λ
v
v − 2 , v > 2
Trong đóv > 0là hệ số tự do của phân phối
Trường hợp biến D -chiều:
Phân phối Student với tham sốµ,Λ,v của biến ngẫu nhiênX ∈ R D có hàm mật độ vàcác đặc trưng xác định như sau:
Phân phối Wishart
Phân phối Wishart với tham sốW, v của biến ngẫu nhiên ma trậnΛcó hàm mật độ
Trang 181.3 SUY LUẬN BAYES CHO THAM SỐ TỈ LỆ PHÂN PHỐI NHỊ THỨC Thống kê Bayes
và các đặc trưng xác định như sau:
1.3 Suy luận Bayes cho tham số tỉ lệ phân phối nhị thức
Trang 19Suy luận Bayes cho tham số tỉ lệ Thống kê Bayes
Theo công thức tính đặc trưng của phân phối nhị thức, ta cần chọn mẫu quan sát đểthu thập thông tin có kích thước làn = a + b + 1và kết quả số lần thành công làM Khi đó
π m
1.3.2 Hậu nghiệm
Theo định lý Bayes và công thức (1.1), (1.2) ta có phân phối hậu nghiệm của tham sốΠ
được xác định như sau:
•Ước lượng khoảng cho tham sốΠ:
Phân phối hậu nghiệm xấp xỉ phân phối chuẩnN ³m0,¡s0¢2´
Kỳ vọng của phân phối hậu nghiệm làm0= a
Trang 20Suy luận Bayes cho tham số tỉ lệ Thống kê Bayes
Trong đó z α
2 là phân vị trên mứcα/2của phân phối chuẩn tắc, ví dụ với độ tin cậy95%
thìz α
2 = 1.96 Xấp xỉ hiệu quả nếu ta có cảa0≥ 10vàb0≥ 10
1.3.4 Kiểm định giả thiết
Ta bác bỏ giả thiết nếu xác suất hậu nghiệm nhỏ hơn mức ý nghĩaα
Kiểm định hai phía
Bài toán kiểm định với mức ý nghĩaα
H0:π = π0
H1:π 6= π0
Ta không tính xác suất hậu nghiệm mà tìm khoảng tin cậy củaπvới mức ý nghĩaα.Nếu giá trị quan sát được không thuộc khoảng tin cậy (1.4) thì ta bác bỏ giả thiết; nếu giátrị quan sát được thuộc khoảng tin cậy thì ta không thể bác bỏ giả thiết
Trang 211.4 SUY LUẬN BAYES CHO KỲ VỌNG PHÂN PHỐI GAUSSIAN Thống kê Bayes
1.4 Suy luận Bayes cho kỳ vọng phân phối Gaussian
1.4.1 Tiên nghiệm
Xét biến quan sátY tuân theo quy luật phân phối chuẩn có kỳ vọng bằngµvà phươngsai bằngσ2đã biết Giả sử phân phối tiên nghiệm là phân phối chuẩn với kỳ vọngmvàphương sais2 Khi đó hàm mật độ tiên nghiệm củaµcó dạng: