Bài viết Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề trình bày bài toán suy diễn hậu nghiệm này thường đưa về một bài toán tối ưu không lồi thuộc lớp bài toán NP-Hard. Để giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề, có nhiều phương pháp đã được đề xuất như: Phương pháp biến phân Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS).
Trang 1MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM
TRONG MÔ HÌNH CHỦ ĐỀ
Bùi Thị Thanh Xuân
Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn
1 GIỚI THIỆU
Mô hình chủ đề đã và đang rất phổ biến và
có ứng dụng trong lĩnh vực khai phá dữ liệu
văn bản Khi làm việc với mô hình chủ đề,
việc giải hiệu quả bài toán suy diễn hậu
nghiệm cho mỗi văn bản đóng vai trò quan
trọng Tuy nhiên, bài toán suy diễn hậu
nghiệm này thường đưa về một bài toán tối
ưu không lồi thuộc lớp bài toán NP-Hard [6]
Để giải bài toán suy diễn hậu nghiệm trong
mô hình chủ đề, có nhiều phương pháp đã
được đề xuất như: phương pháp biến phân
Variational Bayes (VB)[1], collapsed
variational Bayes (CVB)[3] hay phương pháp
collapsed Gibbs sampling (CGS) [4], Tuy
nhiên, theo tìm hiểu của tác giả, các phương
pháp này thường không đảm bảo về chất
lượng mô hình cũng như tốc độ hội tụ của
thuật toán Chúng tôi tiếp cận giải bài toán
suy diễn hậu nghiệm dưới cách nhìn của tối
ưu không lồi Sử dụng các biên ngẫu nhiên và
phân phối xác suất Bernoulli, chúng tôi đề
xuất thuật toán GOP giải hiệu quả bài toán
suy diễn hậu nghiệm với mô hình chủ đề, từ
đó phát triển thuật toán học ngẫu nhiên mô
hình chủ đề từ bộ sưu tập văn bản lớn Chúng
tôi tiến hành thử nghiệm trên hai bộ dữ liệu
lớn là New York Times và Pubmed với ngôn
ngữ lập trình Python Thông qua các kết quả
thực nghiệm cho thấy cách tiếp cận của
chúng tôi thường hiệu quả hơn các phương
pháp trước đó
2 NỘI DUNG NGHIÊN CỨU
Trong mô hình chủ đề ẩn LDA [1], tác giả
Blei đưa ra giả thuyết về cấu trúc ẩn chứa
trong tập các văn bản Mỗi văn bản là sự trộn lẫn của các chủ đề ẩn trong đó mỗi chủ đề là một phân phối của tất cả các từ trong tập từ điển Mỗi văn bản trong tập corpus được xem như một túi các từ, các từ sinh ra là tổ hợp của các chủ đề mà tác giả muốn viết Mỗi chủ
đề là phân phối của các từ trong tập từ điển
Mô hình sinh được mô tả như sau:
Với mỗi topic trong tập {1, 2…K}, lấy
mẫu k ~Dir(
Sinh văn bản có độ dài :
- Lấy mẫu ~Dir(
- Với mỗi từ w n trong N từ:
+ Chọn topic z n ~Multinomial(
+ Chọn từ w n với xác suất p(w n | z )
n
β
Trong [5], khi làm việc với mô hình LDA, các tác giả đưa ra bài toán suy diễn cho văn bản d là:
*
argmax θ ΔK f(θ) với
f(θ) = d log ( 1 ) log
Đặt:
log
K
K
k 1
g ( ) = d log ,
g ( ) = ( - 1)
Như vậy: f(g 1 g 2
Trong LDA, với dữ liệu thực tế thì tham
số < 1 nên g 1 là hàm lõm, g2 là hàm lồi,
nên f( có dạng hàm không lồi DC
(Difference of Convex Functions) Do đó bài toán tìm cực trị của f( là bài toán NP-khó [6], không có các thuật toán lặp xác định giải
quyết hiệu quả bài toán tối ưu cho f( Do đó
Trang 2ý tưởng của phương pháp giải xấp xỉ ngẫu
nhiên được đưa vào sử dụng để giải bài toán
suy diễn hậu nghiệm
Tác giả trong [5] đã đề xuất thuật toán OPE
để giải bài toán suy diễn véc tơ tỉ lệ chủ đề d
cho từng văn bản d, sau đó OPE được sử dụng
trong Online-OPE học mô hình LDA
Tại mỗi bước lặp t, thuật toán OPE chọn
ngẫu nghiên g 1 hoặc g 2 với xác suất
bằng nhau, và tính trung bình các đại lượng
đã chọn được tạo thành chuỗi F t và F t
F t f khi t Tại mỗi bước lặp t,
OPE cập nhật t+1 theo t Khi t thì
t với là một điểm dừng (hoặc
nghiệm cục bộ) của f
Thuật toán 1 Thuật toán GOP giải bài toán
suy diễn hậu nghiệm với mô hình chủ đề
Đầu vào: Văn bản d, tham số Bernoulli
p (0,1) và tham số mô hình {, }
Đầu ra: là nghiệm cực đại hóa của hàm
f= g 1g 2
Khởi tạo1 thuộc
f : g ( ); f : g ( )
For t = 2,3… do
Lấy f tu có phân phối Bernoulli trong đó
P(f t g ) 1 p,P( f t g ) 2 1 p
u t
h 1
1
t
u
u
e arg max U ( ).x
e :
t
Lấy ftl có phân phối Bernoulli trong đó
P(fl g )p, P(fl g ) 1 p
t
h 1
1
t
l
el arg max L ( ).x
e :
t
l l
Lấy t+1 có phân phối đều từ {t 1l ,lt 1}
end for
Tương tự như xây dựng dãy hàm chuỗi
F t sử dụng phân phối Becnoulli để thay đổi trọng số đóng góp của hai thành phần
g 1 và g 2 thông qua tham số xác suất p, chúng tôi tiến hành xây dựng hai dãy hàm
ngẫu nhiên L t bắt đầu từ g 1 xuất phát
từ bên dưới, dãy U t bắt đầu từ g 1 xuất
phát từ bên trên của hàm f và cùng hội tụ theo xác suất về f
Với việc xây dựng hai chuỗi hàm ngẫu
nhiên U t L t bằng phân phối Bernoulli
đảm bảo U t L t hội tụ về f khi t
với xác suất hầu chắc chắn
Hình 1 Hai biên ngẫu nhiên U t L t
của hàm mục tiêu f
Với ý tưởng đó chúng tôi đưa ra cải tiến thuật toán GOP giải bài toán suy diễn hậu nghiệm với LDA Chi tiết thuật toán được chúng tôi mô tả trong Thuật toán 1
3 THỬ NGHIỆM
Để chứng minh hiệu quả của thuật toán đề xuất, chúng tôi tiến hành thực nghiệm trên hai bộ dữ liệu văn bản dài là New York Times (NYT) bao gồm 300000 bài tin tức của thời báo NYT và bộ PubMed bao gồm
330000 bài viết lên quan về sức khỏe từ PubbMed Central1 Tham số của mô hình:
fK 100, 1 , 1
K K
, số lần lặp
T = 50, 0,9, 1 Chúng tôi đã sử dụng
độ đo Log Predictive Probability (LPP) [2] và Normalized Pointwise Mutual Information (NPMI) [7] để đánh giá các phương pháp học Thay thế thuật toán OPE trong thuật toán Online-OPE [6] bằng thuật toán GOP,
1 Hai bộ dữ liệu này được lấy từ nguồn http://archive.ics.uci.edu/ml/datasets
Trang 3chúng tôi thu được Online-GOP để học mô
hình LDA Kết quả mô phỏng được thể hiện
trong Hình 2, Hình 3 và Hình 4 với các tham
số p lựa chọn thích hợp
Hình 2 Độ đo LPP and NPMI của mô
hình học bằng Online-GOP với tham số
Bernoulli p {0,3…, 0,7} và kích thước
mini-batch |C t | = 25,000 Độ đo càng cao
thì chất lượng mô hình càng tốt
Thông qua kết quả thử nghiệm, tham số p
lựa chọn thích hợp ta thấy thuật toán GOP
hiệu quả hơn OPE đã được đánh giá tốt hơn
các thuật toán khác hiện có [5] Đặc biệt khi
lựa chọn tham số Becnoulli p phù hợp thì
GOP tốt hơn OPE trên cả hai độ đo LPP và
NPMI với hai bộ dữ liệu New York Time
và Pubmed
Hình 3 Độ đo LPP and NPMI của mô hình
học bằng Online-GOP với tham số Bernoulli
p {0,1…, 0,9} và kích thước mini-batch
|C t | = 5,000 Độ đo càng cao thì chất lượng
mô hình càng tốt
Hình 4 So sánh độ đo LPP và NPMI của
mô hình học bởi các phương pháp khác nhau
Online-GOP thường tốt hơn các
phương pháp đối sánh
4 KẾT LUẬN
Sử dụng ngẫu nhiên để tạo ra các thuật toán hiệu quả giải bài toán tối ưu không lồi, đáp ứng yêu cầu về chất lượng và tốc độ hội
tụ, bài báo đề xuất GOP sử dụng phân phối Bernoulli với tham số p thích hợp là một thuật toán tối ưu tốt cho bài toán suy diễn hậu nghiệm Kết quả thử nghiệm cho thấy các thuật toán đề xuất là hiệu quả so với các kết quả đã có
5 TÀI LIỆU THAM KHẢO
[1] D M Blei, A Y Ng, and M I Jordan,
2003, Latent Dirichlet Allocation, Journal
of machine Learning research, vol 3, no Jan, pp 993-1022
[2] M Hoffman, D M Blei, and D M Mimno,
2012, Sparse stochastic inference for Latent Dirichlet Allocation, Proceedings of the 29th International Conference on Machine Learning, ACM, pp 1599-1606
[3] Y W Teh, D Newman, and M Welling,
2007, A Collapsed Variational Bayesian inference algorithm for Latent Dirichlet Allocation, Advances in neural information processing systems, pp 1353-1360
[4] T L Griffiths and M Steyvers, 2004, Finding scientific topics, Proceedings of the National academy of Sciences, vol 101, pp 5228–5235
[5] T Khoat and D Tung, 2015, Guaranteed inference in topic models,” arXiv preprint arXiv:1512.03308
[6] D Sontag and D Roy, 2011, Complexity of inference in Latent Dirichlet Allocation, Neural Information Processing System (NIPS)
[7] J H Lau, D Newman, and T Baldwin,
Automatically evaluating topic coherence and topic model quality, Proceedings of the 14th Conference of the European Chapter of
Linguistics, pp 530–539