Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề

Bài viết Một cách giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề trình bày bài toán suy diễn hậu nghiệm này thường đưa về một bài toán tối ưu không lồi thuộc lớp bài toán NP-Hard. Để giải bài toán suy diễn hậu nghiệm trong mô hình chủ đề, có nhiều phương pháp đã được đề xuất như: Phương pháp biến phân Variational Bayes (VB), collapsed variational Bayes (CVB) hay phương pháp collapsed Gibbs sampling (CGS).

Trang 1

MỘT CÁCH GIẢI BÀI TOÁN SUY DIỄN HẬU NGHIỆM

TRONG MÔ HÌNH CHỦ ĐỀ

Bùi Thị Thanh Xuân

Trường Đại học Thủy lợi, email: xuanbtt@tlu.edu.vn

1 GIỚI THIỆU

Mô hình chủ đề đã và đang rất phổ biến và

có ứng dụng trong lĩnh vực khai phá dữ liệu

văn bản Khi làm việc với mô hình chủ đề,

việc giải hiệu quả bài toán suy diễn hậu

nghiệm cho mỗi văn bản đóng vai trò quan

trọng Tuy nhiên, bài toán suy diễn hậu

nghiệm này thường đưa về một bài toán tối

ưu không lồi thuộc lớp bài toán NP-Hard [6]

Để giải bài toán suy diễn hậu nghiệm trong

mô hình chủ đề, có nhiều phương pháp đã

được đề xuất như: phương pháp biến phân

Variational Bayes (VB)[1], collapsed

variational Bayes (CVB)[3] hay phương pháp

collapsed Gibbs sampling (CGS) [4], Tuy

nhiên, theo tìm hiểu của tác giả, các phương

pháp này thường không đảm bảo về chất

lượng mô hình cũng như tốc độ hội tụ của

thuật toán Chúng tôi tiếp cận giải bài toán

suy diễn hậu nghiệm dưới cách nhìn của tối

ưu không lồi Sử dụng các biên ngẫu nhiên và

phân phối xác suất Bernoulli, chúng tôi đề

xuất thuật toán GOP giải hiệu quả bài toán

suy diễn hậu nghiệm với mô hình chủ đề, từ

đó phát triển thuật toán học ngẫu nhiên mô

hình chủ đề từ bộ sưu tập văn bản lớn Chúng

tôi tiến hành thử nghiệm trên hai bộ dữ liệu

lớn là New York Times và Pubmed với ngôn

ngữ lập trình Python Thông qua các kết quả

thực nghiệm cho thấy cách tiếp cận của

chúng tôi thường hiệu quả hơn các phương

pháp trước đó

2 NỘI DUNG NGHIÊN CỨU

Trong mô hình chủ đề ẩn LDA [1], tác giả

Blei đưa ra giả thuyết về cấu trúc ẩn chứa

trong tập các văn bản Mỗi văn bản là sự trộn lẫn của các chủ đề ẩn trong đó mỗi chủ đề là một phân phối của tất cả các từ trong tập từ điển Mỗi văn bản trong tập corpus được xem như một túi các từ, các từ sinh ra là tổ hợp của các chủ đề mà tác giả muốn viết Mỗi chủ

đề là phân phối của các từ trong tập từ điển

Mô hình sinh được mô tả như sau:

Với mỗi topic trong tập {1, 2…K}, lấy

mẫu k ~Dir(

Sinh văn bản có độ dài :

- Lấy mẫu  ~Dir(

- Với mỗi từ w n trong N từ:

+ Chọn topic z n ~Multinomial(

+ Chọn từ w n với xác suất p(w n | z )

n

β 

Trong [5], khi làm việc với mô hình LDA, các tác giả đưa ra bài toán suy diễn cho văn bản d là:

*



argmax θ ΔK f(θ) với

f(θ) = d log ( 1 ) log

Đặt:

log

K

k 1

g ( ) = d log ,

g ( ) = ( - 1)





Như vậy: f(g 1 g 2

Trong LDA, với dữ liệu thực tế thì tham

số  < 1 nên g 1 là hàm lõm, g2 là hàm lồi,

nên f( có dạng hàm không lồi DC

(Difference of Convex Functions) Do đó bài toán tìm cực trị của f( là bài toán NP-khó [6], không có các thuật toán lặp xác định giải

quyết hiệu quả bài toán tối ưu cho f( Do đó

Trang 2

ý tưởng của phương pháp giải xấp xỉ ngẫu

nhiên được đưa vào sử dụng để giải bài toán

suy diễn hậu nghiệm

Tác giả trong [5] đã đề xuất thuật toán OPE

để giải bài toán suy diễn véc tơ tỉ lệ chủ đề d

cho từng văn bản d, sau đó OPE được sử dụng

trong Online-OPE học mô hình LDA

Tại mỗi bước lặp t, thuật toán OPE chọn

ngẫu nghiên g 1 hoặc g 2 với xác suất

bằng nhau, và tính trung bình các đại lượng

đã chọn được tạo thành chuỗi F t và F t

F t f khi t  Tại mỗi bước lặp t,

OPE cập nhật t+1 theo t Khi t   thì 

t   với là một điểm dừng (hoặc

nghiệm cục bộ) của f

Thuật toán 1 Thuật toán GOP giải bài toán

suy diễn hậu nghiệm với mô hình chủ đề

Đầu vào: Văn bản d, tham số Bernoulli

p (0,1) và tham số mô hình {, }

Đầu ra:  là nghiệm cực đại hóa của hàm

f= g 1g 2

Khởi tạo1 thuộc 

f : g ( ); f : g ( )   

For t = 2,3…  do

Lấy f tu có phân phối Bernoulli trong đó

P(f t g ) 1  p,P( f t g ) 2  1 p

u t

h 1

1

t 

u

e arg max U ( ).x

e :

t







 

   

Lấy ftl có phân phối Bernoulli trong đó

P(fl g )p, P(fl g ) 1 p

t

h 1

1

t 

  l

el arg max  L ( ).x  

e :

t



 

   

l l

Lấy t+1 có phân phối đều từ {t 1l ,lt 1}

end for

Tương tự như xây dựng dãy hàm chuỗi

F t sử dụng phân phối Becnoulli để thay đổi trọng số đóng góp của hai thành phần

g 1 và g 2 thông qua tham số xác suất p, chúng tôi tiến hành xây dựng hai dãy hàm

ngẫu nhiên L t bắt đầu từ g 1 xuất phát

từ bên dưới, dãy U t bắt đầu từ g 1 xuất

phát từ bên trên của hàm f và cùng hội tụ theo xác suất về f

Với việc xây dựng hai chuỗi hàm ngẫu

nhiên U t L t bằng phân phối Bernoulli

đảm bảo U t L t hội tụ về f khi t 

với xác suất hầu chắc chắn

Hình 1 Hai biên ngẫu nhiên U t L t

của hàm mục tiêu f

Với ý tưởng đó chúng tôi đưa ra cải tiến thuật toán GOP giải bài toán suy diễn hậu nghiệm với LDA Chi tiết thuật toán được chúng tôi mô tả trong Thuật toán 1

3 THỬ NGHIỆM

Để chứng minh hiệu quả của thuật toán đề xuất, chúng tôi tiến hành thực nghiệm trên hai bộ dữ liệu văn bản dài là New York Times (NYT) bao gồm 300000 bài tin tức của thời báo NYT và bộ PubMed bao gồm

330000 bài viết lên quan về sức khỏe từ PubbMed Central1 Tham số của mô hình:

fK 100, 1 , 1

K K

     , số lần lặp

T = 50,  0,9,  1 Chúng tôi đã sử dụng

độ đo Log Predictive Probability (LPP) [2] và Normalized Pointwise Mutual Information (NPMI) [7] để đánh giá các phương pháp học Thay thế thuật toán OPE trong thuật toán Online-OPE [6] bằng thuật toán GOP,

1 Hai bộ dữ liệu này được lấy từ nguồn http://archive.ics.uci.edu/ml/datasets

Trang 3

chúng tôi thu được Online-GOP để học mô

hình LDA Kết quả mô phỏng được thể hiện

trong Hình 2, Hình 3 và Hình 4 với các tham

số p lựa chọn thích hợp

Hình 2 Độ đo LPP and NPMI của mô

hình học bằng Online-GOP với tham số

Bernoulli p  {0,3…, 0,7} và kích thước

mini-batch |C t | = 25,000 Độ đo càng cao

thì chất lượng mô hình càng tốt

Thông qua kết quả thử nghiệm, tham số p

lựa chọn thích hợp ta thấy thuật toán GOP

hiệu quả hơn OPE đã được đánh giá tốt hơn

các thuật toán khác hiện có [5] Đặc biệt khi

lựa chọn tham số Becnoulli p phù hợp thì

GOP tốt hơn OPE trên cả hai độ đo LPP và

NPMI với hai bộ dữ liệu New York Time

và Pubmed

Hình 3 Độ đo LPP and NPMI của mô hình

học bằng Online-GOP với tham số Bernoulli

p  {0,1…, 0,9} và kích thước mini-batch

|C t | = 5,000 Độ đo càng cao thì chất lượng

mô hình càng tốt

Hình 4 So sánh độ đo LPP và NPMI của

mô hình học bởi các phương pháp khác nhau

Online-GOP thường tốt hơn các

phương pháp đối sánh

4 KẾT LUẬN

Sử dụng ngẫu nhiên để tạo ra các thuật toán hiệu quả giải bài toán tối ưu không lồi, đáp ứng yêu cầu về chất lượng và tốc độ hội

tụ, bài báo đề xuất GOP sử dụng phân phối Bernoulli với tham số p thích hợp là một thuật toán tối ưu tốt cho bài toán suy diễn hậu nghiệm Kết quả thử nghiệm cho thấy các thuật toán đề xuất là hiệu quả so với các kết quả đã có

5 TÀI LIỆU THAM KHẢO

[1] D M Blei, A Y Ng, and M I Jordan,

2003, Latent Dirichlet Allocation, Journal

of machine Learning research, vol 3, no Jan, pp 993-1022

[2] M Hoffman, D M Blei, and D M Mimno,

2012, Sparse stochastic inference for Latent Dirichlet Allocation, Proceedings of the 29th International Conference on Machine Learning, ACM, pp 1599-1606

[3] Y W Teh, D Newman, and M Welling,

2007, A Collapsed Variational Bayesian inference algorithm for Latent Dirichlet Allocation, Advances in neural information processing systems, pp 1353-1360

[4] T L Griffiths and M Steyvers, 2004, Finding scientific topics, Proceedings of the National academy of Sciences, vol 101, pp 5228–5235

[5] T Khoat and D Tung, 2015, Guaranteed inference in topic models,” arXiv preprint arXiv:1512.03308

[6] D Sontag and D Roy, 2011, Complexity of inference in Latent Dirichlet Allocation, Neural Information Processing System (NIPS)

[7] J H Lau, D Newman, and T Baldwin,

Automatically evaluating topic coherence and topic model quality, Proceedings of the 14th Conference of the European Chapter of

Linguistics, pp 530–539

Định dạng
Số trang	3
Dung lượng	285,07 KB