DSpace at VNU: Phương pháp VB và ứng dụng

DSpace at VNU: Phương pháp VB và ứng dụng tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả...

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NÔI ĐẠI HỌC KHOA HỌC TỰ NHIÊN

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS Trần Mạnh Cường

Trang 3

Lời cảm ơn

Luận văn này được hoàn thành với sự hướng dẫn tận tình và cũng hết sức nghiêm khắccủa TS Trần Mạnh Cường Trước khi trình bày nội dung chính của luận văn, tác giả muốnbày tỏ lòng biết ơn chân thành và sâu sắc tới người thầy đáng kính của mình Thầy đãluôn tận tình hướng dẫn cũng như giải đáp các thắc mắc của tác giả trong suốt quá trìnhlàm luận văn

Tác giả cũng muốn gửi tới toàn thể các thầy cô Khoa Toán - Cơ - Tin học trường Đạihọc Khoa học Tự nhiên - Đại học Quốc gia Hà Nội, các thầy cô đã đảm nhận giảng dạykhóa Cao học 2014 - 2016, đặc biệt là các thầy cô tham gia giảng dạy nhóm Xác suấtthống kê 2014 - 2016 lời cảm ơn chân thành đối với công lao dạy dỗ trong suốt thời giancủa khóa học

Tác giả xin cảm ơn gia đình, bạn bè, đồng nghiệp và các anh chị em trong nhómXác suất thống kê 2014 - 2016, các thành viên trong nhóm Seminar do thầy Trần Mạnh

Cường phụ trách về các chủ đề liên quan đến Thống kê Bayes đã quan tâm, giúp đỡ, tạo

điều kiện và động viên tinh thần để tác giả có thể hoàn thành được khóa học này

Tác giả xin chân thành cảm ơn!

Hà Nội, ngày tháng năm 2016

Học viên

Đỗ Thị Len

Trang 4

Mục lục

1.1 Giới thiệu 5

1.2 Một số phân phối thường dùng 7

1.3 Suy luận Bayes cho tham số tỉ lệ phân phối nhị thức 14

1.3.1 Tiên nghiệm 14

1.3.2 Hậu nghiệm 15

1.3.3 Ước lượng 15

1.3.4 Kiểm định giả thiết 16

1.4 Suy luận Bayes cho kỳ vọng phân phối Gaussian 17

1.4.1 Tiên nghiệm 17

1.4.2 Hậu nghiệm 17

1.4.3 Ước lượng 18

1.4.4 Kiểm định giả thiết 19

1.5 Hồi quy Bayes 20

1.5.1 Suy luận Bayes cho mô hình hồi quy tuyến tính Bayes đơn 21

1.5.2 Mô hình hồi quy tuyến tính Bayes bội 25

Trang 5

MỤC LỤC MỤC LỤC

2.1 Nguồn gốc toán học 30

2.2 Xấp xỉ phân phối hậu nghiệm 32

2.2.1 Xấp xỉ phân phối hậu nghiệm của biếnZ độc lập từng khối 32

2.2.2 Xấp xỉ địa phương - Tham số biến phân 34

2.3 Áp dụng phương pháp VB cho phân phối Gaussian 36

2.3.1 Phân phối Gaussian một chiều 36

2.3.2 Phân phối đa thức Gaussian 40

2.4 Áp dụng phương pháp VB cho mô hình hồi quy Bayes 47

2.4.1 Mô hình hồi quy tuyến tính Bayes 47

2.4.2 Mô hình hồi quy Logistic Bayes 52

3 Ứng dụng 59 3.1 Phân phối hậu nghiệm không thuộc họ phân phối nào đã biết 59

3.1.1 Bài toán 60

3.1.2 Thuật toán 63

3.1.3 Code chạy phần mềm mathlab 63

3.1.4 Kết quả 66

3.2 Phân phối hậu nghiệm thuộc họ phân phối đã biết 67

3.2.1 Bài toán 67

3.2.2 Thuật toán 71

3.2.3 Code chạy phần mềm mathlab 71

3.2.4 Kết quả 73

Trang 6

Lời mở đầu

Hiện nay, thống kê có hai trường phái: Thống kê tần suất và thống kê Bayes Thống kê tầnsuất ra đời trước và là phương pháp phổ biến hiện nay Nó dựa trên những kết quả quansát mẫu của hiện tại mà không cần đến những thông tin, dữ liệu đã biết trước Thống kêBayes dựa trên những thông tin dữ liệu đã biết trước và kết quả quan sát mẫu của hiệntại để suy luận cho những thống kê hiện tại

Thống kê Bayes hay còn gọi là suy luận Bayes ra đời trên cơ sở định lý Bayes Đó làkiểu suy luận thống kê mà trong đó, các nhà thống kê sử dụng phân phối tiên nghiệm(thông tin đã biết trước) về vấn đề đang xét và thông tin mẫu (các quan sát hay bằngchứng), áp dụng công thức trong định lý Bayes để tìm ra phân phối hậu nghiệm (xácsuất xảy ra ở hiện tại), từ đó dùng phân phối hậu nghiệm để suy luận cho thống kê hiệntại

Ví dụ: Xét bài toán ước lượng cho tham sốθcủa biến ngẫu nhiênX với mẫuX1, X2, , Xn

•Theo thống kê tần suất, tham sốθcủa biến ngẫu nhiên nhận một giá trị nào đó Tatìm được tham số của mẫuθ∗ theo công thức tính dựa theo giá trị quan sát mẫu Ta có

E[θ∗] = θ Do đó, ta dùngθ∗để ước lượng cho tham sốθ Chẳng hạn, ước lượng cho giátrị trung bìnhµcủa biến ngẫu nhiên: ta tính trung bình mẫuX = 1

•Theo thống kê Bayes, tham sốθcũng là một biến ngẫu nhiên liên tục Trước hết, tabiết phân phối tiên nghiệm củaθlàp ( θ) Sau đó, áp dụng định lý Bayes ta tính được mật

độ hậu nghiệm p (θ|X1, X2, , Xn) Khi đó tham số của mẫu dùng để ước lượng được xác

Trang 7

đó, phương pháp VB (Variational Bayesian) ra đời để tìm giá trị gần đúng nhất của phânphối hậu nghiệm.

Trong luận văn này, tác giả trình bày về một phương pháp trong suy luận Bayes làphương pháp VB và một số ứng dụng của phương pháp này Luận văn của tác giả đượcchia làm 3 chương:

Chương 1 Thống kê Bayes

Trong chương này, tác giả giới thiệu chung về thống kê Bayes; một số phân phối thôngthường; một số mô hình suy luận Bayes: Suy luận Bayes cho tham số của phân phối nhịthức, kỳ vọng của phân phối Gaussian một chiều, tham số của mô hình hồi quy tuyếntính Bayes đơn Từ đó làm cơ sở để nghiên cứu các phần tiếp theo

Chương 2 Phương pháp VB

Trong chương này, tác giả trình bày kiến thức về phương pháp VB bao gồm: Nguồngốc toán học; xấp xỉ phân phối hậu nghiệm; áp dụng phương pháp VB cho phân phốiGaussian, áp dụng phương pháp VB cho mô hình hồi quy Bayes

Chương 3 Ứng dụng

Trong chương này, tác giả giới thiệu ứng dụng phương pháp VB cho hai trường hợp:Phân phối hậu nghiệm không thuộc họ phân phối nào đã biết; phân phối hậu nghiệmthuộc họ phân phối đã biết

Để nghiên cứu về đề tài "Phương pháp VB và ứng dụng", tác giả đã tham khảo một số

tài liệu trong và ngoài nước về thống kê tần suất, thống kê Bayes, phần mềm Mathlab.Trong đó

Trang 8

Lời mở đầu

◦Nội dung chính chương 1 của luận văn tham khảo tài liệu [5] và [8];

◦Nội dung chính chương 2 của luận văn tham khảo tài liệu [5] và [6];

◦Nội dung chính chương 3 của luận văn tham khảo tài liệu [5];

◦Ở phần ứng dụng phương pháp VB, tác giả áp dụng phương pháp VB để tính toán

Từ đó, viết thuật toán và dùng phần mềm Mathlab để thực hiện ra kết quả

Trang 9

Chương 1

Thống kê Bayes

Thống kê Bayes có sự khác biệt so với thống kê tần suất ở cách thức tiếp cận vấn đề:Thống kê tần suất quan niệm tham số của biến ngẫu nhiên là một giá trị nào đó, cònthống kê Bayes quan niệm tham số của biến ngẫu nhiên cũng là một biến ngẫu nhiên.Suy luận Bayes thực hiện theo trình tự: từ phân phối tiên nghiệm mà ta tin tưởng, ápdụng định lý Bayes tìm phân phối hậu nghiệm, sau đó dùng phân phối hậu nghiệm đểước lượng, kiểm định giả thiết thống kê, phân tích hồi quy tuyến tính

Z đại diện cho một giả thiết, giả thiết này được suy luận trước khi có thông tin mới

P (Z ) được gọi là xác suất tiên nghiệm của Z

P (X |Z )là xác suất xảy raX nếu biết giả thiếtZ là đúng Đại lượng này còn được gọi là

hàm hợp lý (likelihood) biểu diễn dưới dạng một hàm của X khi cho trướcZ và là thôngtin mới

Trang 10

Giới thiệu Thống kê Bayes

P (X ) được gọi là xác suất biên duyên của X

P (Z |X ) được gọi là xác suất hậu nghiệm của Z nếu biếtX

Theo định lý này thì xác suất hậu nghiệm tỉ lệ với tích của xác suất tiên nghiệm vàhàm hợp lý, kí hiệu làP (Z |X ) ∝ P (Z ) × P (X |Z ) Tức là tiên nghiệm nhân với hằng số bất

kỳ cũng không ảnh hưởng đến kết quả của hậu nghiệm

Hệ số BayesB = P (X |Z )

P (X ) đại diện cho ảnh hưởng của thông tin mới thu được đối vớixác xuất xảy raZnếu biếtX Nếu hệ số này sẽ có giá trị lớn, khi nhân xác suất tiên nghiệmvới hệ số này, ta được một xác suất hậu nghiệm lớn Nhờ đó, trong suy luận Bayes, định

lý Bayes đo được mức độ mà thông tin mới sẽ làm thay đổi mức độ tin tưởng vào một giảthiết

Khi có thông tin mới về một biến ngẫu nhiên, suy luận Bayes cho biến ngẫu nhiên đóthực hiện theo các bước sau:

•Xác định phân phối tiên nghiệm

Phân phối tiên nghiệm (prior distribution) của biến ngẫu nhiên Z là phân phối mà tatin tưởng, có được từ kinh nghiệm tích lũy, kí hiệu làp (Z )

•Áp dụng định lý Bayes để tìm phân phối hậu nghiệm

Phân phối hậu nghiệm (posterior distribution) của biến Z nếu biết X là phân phối

có được bằng tính toán theo định lý Bayes, sau khi có thông tin mớip (X |Z ) Kí hiệu là

Phân phối tiên nghiệm liên hợp (conjugate prior) là phân phối tiên nghiệm mà phân

phối hậu nghiệm tìm được cùng họ với phân phối tiên nghiệm

Các nhà thống kê Bayes lập luận rằng ngay cả khi người ta có các xác suất chủ quantiên nghiệm rất khác nhau thì với thông tin mới từ các quan sát lặp đi lặp lại sẽ có xuhướng đưa các xác suất hậu nghiệm của họ lại gần nhau hơn

Trang 11

1.2 MỘT SỐ PHÂN PHỐI THƯỜNG DÙNG Thống kê Bayes

1.2 Một số phân phối thường dùng

Phân phối Bernoulli

Phân phối Bernoulli với tham sốπlà phân phối của biến ngẫu nhiênX nhận hai giátrị0, 1vớiP (X = 1) = π;P (X = 0) = 1 − πcó hàm mật độ xác định như sau:

B er n (X |π) = π x (1 − π) 1−x

Các tham số đặc trưng của biến ngẫu nhiênX:

E[X ] = π var [X ] = π(1 − π)

Phân phối này là trường hợp đặc biệt của phân phối nhị thức chỉ có một quan sát.Phân phối tiên nghiệm liên hợp cho tham sốπlà phân phối Beta

Phân phối Beta

Phân phối Beta với hai tham sốa vàb(a > 0,b > 0)là phân phối của biến ngẫu nhiênliên tụcΠnhận giá trị trên[0, 1]có hàm mật độ xác định như sau:

a + b

(a + b)2(a + b + 1)

Phân phối Beta là phân phối tiên nghiệm liên hợp cho phân phối Bernoulli Khia =

b = 1thì phân phối Beta trở thành phân phối đều Phân phối Beta là trường hợp đặc biệtcủa phân phối DirichletK chiều vớiK = 2

Phân phối nhị thức

Trang 12

Một số phân phối thường dùng Thống kê Bayes

Phép thử ngẫu nhiên thực hiệnn lần với xác suất thành công các lần thử đều bằngnhau và bằngπ Trongnlần thực hiện cómlần thành công

Phân phối nhị thức với tham sốn(số lần thử) và tham sốπ ∈ [0,1](xác suất thành côngcủa các lần thử) của biến ngẫu nhiênM(số lần thành công) nhận giá trị1, 2, , ncó hàmmật độ xác định như sau:

B (M |n,π) =





n m



π m (1 − π) N −m

Các tham số đặc trưng của biến ngẫu nhiênM:

E[M] = nπ var [M ] = nπ(1 − π)

Khin = 1thì phân phối nhị thức chính là phân phối Bernoulli và khinrất lớn thì phânphối nhị thức xấp xỉ phân phối Gaussian Phân phối tiên nghiệm liên hợp choπlà phânphối Beta

Phân phối Dirichlet

Phân phối Dirichlet với tham sốα = (α1, ,α K)T,α k > 0, k = 1, K là một phân phối đathức của biến ngẫu nhiênK chiềuΠ = (Π1, ,ΠK)T sao cho





0 ≤ πk ≤ 1, k = 1, K K

Trang 13

Trong đó

C ( α) = Γ(α)b

Γ(α1) Γ(αK)b

Phân phối Gamma

Phân phối Gamma với hai tham sốa vàb(a > 0,b > 0)là phân phối xác suất của biếnngẫu nhiên dươngτ > 0có hàm mật độ xác định như sau:

Trang 14

Phân phối Gamma là phân phối tiên nghiệm liên hợp cho độ chính xác của biến ngẫunhiên tuân theo quy luật phân phối Gaussian Nói cách khác, phân phối Gama ngược làphân phối tiên nghiệm liên hợp của phương sai của biến ngẫu nhiên tuân theo quy luậtphân phối Gaussian Đặc biệt khia = 1phân phối Gamma chính là phân phối mũ

Phân phối Gaussian - Phân phối Chuẩn

Phân phối Gaussian là phân phối biến ngẫu nhiên liên tục và là phân phối phổ biếnnhất của biến ngẫu nhiên

Trường hợp biến ngẫu nhiên một chiều:

Phân phối Gaussian với tham số kỳ vọngµvà tham số phương saiσ2> 0là phân phốicủa biến ngẫu nhiên liên tục X nhận giá trị trênR, kí hiệu làN ¡X |µ,σ2¢

có hàm mật độxác định như sau:

Nghịch đảo của phương saiτ = 1

σ2 được gọi là độ chính xác, căn bậc hai của phươngsai σ2 được gọi là độ lệch chuẩn Phân phối tiên nghiệm liên hợp của µlà phân phốiGaussian và phân phối tiên nghiệm liên hợp củaτlà phân phối Gamma Nếu cảµvà τ

đều chưa biết thì phân phối tiên nghiệm của phân phối đồng thời là phân phối Gaussian

- Gamma

Trường hợp biến ngẫu nhiên X là vecto D -chiều:

Phân phối Gaussian với tham số là vecto kỳ vọngµ D-chiều và ma trận phương saiP

là phân phối của biến ngẫu nhiênX ∈ R D, kí hiệu làN ¡X |µ,Σ¢có hàm mật độ xác địnhnhư sau:

Trang 15

Các đặc trưng của biến ngẫu nhiênX

E[X ] = µ var [X ] = Σ

Nghịch đảo của ma trận phương saiΛ = Σ−1 là ma trận độ chính xác Phân phối tiênnghiệm liên hợp củaµlà phân phối Gaussian và phân phối tiên nghiệm liên hợp củaΛ

là phân phối Wishart Nếu cảµvàΛđều chưa biết thì phân phối tiên nghiệm của phânphối đồng thời là phân phối Gaussian - Wishart

Phân phối Gaussian - Gamma

Phân phối Gaussian - Gamma với tham sốµ0,β,a,blà phân phối của biến ngẫu nhiên

trong đó cả kỳ vọng và phương sai đều chưa biết

Phân phối Gaussian - Wishart

Phân phối Gaussian - Wishart với tham sốµ0,β,W,vlà phân phối của biến ngẫu nhiên

Gaus-trong đó cả kỳ vọng và ma trận phương sai đều chưa biết

Phân phối đa thức

Biến ngẫu nhiênK-chiềuX = (X1, , X K)trong đó X k nhận 2 giá trị 0 và 1 vớik = 1,K

thỏa mãn PK

k=1

x k= 1vàP (X k = 1) = πk, PK

k=1 π k= 1

Trang 16

Khi đó, ta có hàm mật độ của biến ngẫu nhiênX

cov£Xj X k¤ = I j k π k

Phân phối đa thức với hai tham sốn quan sát vàπ = (π1, π K)là phân phối của biếnngẫu nhiên rời rạcK-chiều với các thành phần là biến đếmM k có hàm mật độ xác địnhnhư sau:

Phân phối tiên nghiệm liên hợp cho các tham sốΠk là phân phối Dirichlet

Phân phối Student

Trường hợp biến một chiều:

Phân phối Student với các tham sốµ,λ,v của biến ngẫu nhiên liên tụcX nhận giá trị

Trang 17

trênRcó hàm mật độ và các đặc trưng xác định như sau:

St ¡X |µ,λ, v¢ = Γ(v/2 + 1/2)

Γ(v/2)

µ λ πv

λ

v

v − 2 , v > 2

Trong đóv > 0là hệ số tự do của phân phối

Trường hợp biến D -chiều:

Phân phối Student với tham sốµ,Λ,v của biến ngẫu nhiênX ∈ R D có hàm mật độ vàcác đặc trưng xác định như sau:

Phân phối Wishart

Phân phối Wishart với tham sốW, v của biến ngẫu nhiên ma trậnΛcó hàm mật độ

Trang 18

1.3 SUY LUẬN BAYES CHO THAM SỐ TỈ LỆ PHÂN PHỐI NHỊ THỨC Thống kê Bayes

và các đặc trưng xác định như sau:

1.3 Suy luận Bayes cho tham số tỉ lệ phân phối nhị thức

Trang 19

Suy luận Bayes cho tham số tỉ lệ Thống kê Bayes

Theo công thức tính đặc trưng của phân phối nhị thức, ta cần chọn mẫu quan sát đểthu thập thông tin có kích thước làn = a + b + 1và kết quả số lần thành công làM Khi đó



π m

1.3.2 Hậu nghiệm

Theo định lý Bayes và công thức (1.1), (1.2) ta có phân phối hậu nghiệm của tham sốΠ

được xác định như sau:

•Ước lượng khoảng cho tham sốΠ:

Phân phối hậu nghiệm xấp xỉ phân phối chuẩnN ³m0,¡s0¢2´

Kỳ vọng của phân phối hậu nghiệm làm0= a

Trang 20

Suy luận Bayes cho tham số tỉ lệ Thống kê Bayes

Trong đó z α

2 là phân vị trên mứcα/2của phân phối chuẩn tắc, ví dụ với độ tin cậy95%

thìz α

2 = 1.96 Xấp xỉ hiệu quả nếu ta có cảa0≥ 10vàb0≥ 10

1.3.4 Kiểm định giả thiết

Ta bác bỏ giả thiết nếu xác suất hậu nghiệm nhỏ hơn mức ý nghĩaα

Kiểm định hai phía

Bài toán kiểm định với mức ý nghĩaα

H0:π = π0

H1:π 6= π0

Ta không tính xác suất hậu nghiệm mà tìm khoảng tin cậy củaπvới mức ý nghĩaα.Nếu giá trị quan sát được không thuộc khoảng tin cậy (1.4) thì ta bác bỏ giả thiết; nếu giátrị quan sát được thuộc khoảng tin cậy thì ta không thể bác bỏ giả thiết

Trang 21

1.4 SUY LUẬN BAYES CHO KỲ VỌNG PHÂN PHỐI GAUSSIAN Thống kê Bayes

1.4 Suy luận Bayes cho kỳ vọng phân phối Gaussian

1.4.1 Tiên nghiệm

Xét biến quan sátY tuân theo quy luật phân phối chuẩn có kỳ vọng bằngµvà phươngsai bằngσ2đã biết Giả sử phân phối tiên nghiệm là phân phối chuẩn với kỳ vọngmvàphương sais2 Khi đó hàm mật độ tiên nghiệm củaµcó dạng:

Định dạng
Số trang	32
Dung lượng	322,81 KB