Dự án nhóm-Report

Tóm tắt nội dung Báo cáo này tổng hợp và phân tích một cách hệ thống mô hình Latent Dirichlet Allocation LDA, một công cụ mạnh mẽ trong việc nhận diện chủ đề tiềm ẩn từ các tập dữ liệu v

Trang 1

Projects in Mathematics and Applications

Mô hình đồ thị

Ngày 31 tháng 8 năm 2025

Nguyễn Sơn Hải ∗ †Phạm Phúc Toàn

Lê Vũ Thiêm Hoàng ‡ §Phan Hoàng Thanh Dung

∗Trường Phổ thông Năng khiếu, ĐHQG-TPHCM

†Trường THPT Chuyên Hoàng Lê Kha, Tây Ninh

‡Trường THPT Chuyên Hùng Vương, Bình Dương

§Trường Phổ thông Năng khiếu, ĐHQG-TPHCM

Trang 2

Lời cảm ơn

Chúng em xin bày tỏ lòng biết ơn sâu sắc tới các thầy cô, các anh chị hướng dẫn, và tất cả những người đã đồng hành cùng chúng em trong hành trình nghiên cứu này Đặc biệt, chúng

em xin tri ân Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh vì môi trường học thuật đầy cảm hứng, PiMA – nơi kết nối tri thức và sáng tạo, cùng các anh chị mentor và headmentor đã tận tình chỉ dẫn, chia sẻ kinh nghiệm và truyền lửa đam mê nghiên cứu Những đóng góp quý báu này không chỉ giúp chúng em hoàn thiện báo cáo mà còn mở rộng tầm nhìn, rèn luyện kỹ năng, và khơi dậy tinh thần sáng tạo, góp phần làm nên hành trình học thuật đáng nhớ này

Tóm tắt nội dung

Báo cáo này tổng hợp và phân tích một cách hệ thống mô hình Latent Dirichlet Allocation (LDA), một công cụ mạnh mẽ trong việc nhận diện chủ đề tiềm ẩn từ các tập dữ liệu văn bản khổng lồ Chúng em trình bày sơ lược từ nền tảng lý thuyết về phân phối Dirichlet và phân phối

đa thức, đến cấu trúc đồ thị xác suất của LDA, bao gồm các biến thể nâng cao nhằm cải thiện hiệu quả nhận dạng từ hiếm Các phương pháp tối ưu hóa như EM step và Gibbs Sampling được phân tích chi tiết, đi kèm minh họa bằng Python để độc giả dễ dàng hình dung cơ chế sinh dữ liệu và ứng dụng thực tế Báo cáo không chỉ cung cấp cái nhìn trực quan và chuyên sâu về LDA, mà còn mở ra nhiều hướng ứng dụng tiềm năng trong phân loại chủ đề, gợi ý nội dung, và khai thác thông tin từ văn bản, góp phần thúc đẩy nghiên cứu dữ liệu và trí tuệ nhân tạo

Trang 3

Mục lục

1.1 Đặt vấn đề 1

1.2 Latent Dirichlet Allocation 1

1.3 Chủ đề tiềm ẩn trong văn bản 1

2 Mô hình đồ thị xác suất 2 2.1 Khái niệm 2

2.2 Các thành phần cấu tạo 2

2.3 Cấu trúc dữ liệu 3

2.4 Quy tắc đọc mô hình 3

3 Mô tả mô hình 4 3.1 Phân phối Dirichlet 4

3.2 Phân phối đa thức 5

3.3 LDA cơ bản 5

3.4 Smoothed LDA 6

4 Tối ưu tham số trong LDA: EM step và Gibbs Sampling 6 4.1 Tối ưu tham số bằng EM step 6

4.2 Tối ưu tham số bằng Gibbs Sampling 7

4.3 So sánh EM và Gibbs 8

Trang 4

1 Giới thiệu

1.1 Đặt vấn đề

Trong đời sống hàng ngày, mỗi người thường có những mối quan tâm riêng khi tiếp cận thông tin Khi đọc báo, người yêu thể thao sẽ tìm ngay mục thể thao, người quan tâm kinh tế sẽ chọn mục kinh tế Tương tự, người mua sách cũng mong muốn nhanh chóng tìm được đúng chủ đề mình yêu thích Không chỉ phục vụ nhu cầu cá nhân, việc phân loại chủ đề còn đóng vai trò quan trọng trong các hệ thống tìm kiếm và gợi ý nội dung, giúp thông tin được phân phối chính xác và hiệu quả hơn

Chính vì vậy, phân loại chủ đề (hay Topic Classification) trở thành một công cụ không thể thiếu trong thế giới thông tin ngày nay

1.2 Latent Dirichlet Allocation

Trong số nhiều mô hình phục vụ phân loại chủ đề, Latent Dirichlet Allocation (thường gọi tắt

là LDA) là một trong những mô hình nổi tiếng và được ứng dụng rộng rãi Được giới thiệu lần đầu năm 2003, LDA thuộc nhóm mô hình tạo sinh (generative models), với khả năng phát hiện các cấu trúc chủ đề tiềm ẩn trong tập văn bản

Một số ưu điểm của LDA có thể kể đến như sau:

• Hiệu quả tính toán nhanh

• Độ chính xác cao

• Không cần gán nhãn dữ liệu trước (unsupervised)

Về bản chất, LDA giả định rằng mỗi văn bản là sự pha trộn của nhiều chủ đề, và mỗi chủ đề lại là sự pha trộn của nhiều từ Nhiệm vụ của LDA là từ dữ liệu văn bản ban đầu, tìm ra các chủ đề ẩn đó - những chủ đề mà tác giả có thể không hề đặt tên rõ ràng

Phân tích tên gọi LDA, ta nhận thấy rằng:

• “Latent” nghĩa là ẩn, tức là chủ đề không có tên rõ ràng, chỉ thể hiện qua phân phối từ

• “Dirichlet” là phân phối tiên nghiệm giúp sinh ra phân phối xác suất trên chủ đề và từ 1.3 Chủ đề tiềm ẩn trong văn bản

Latent Dirichlet Allocation là mô hình thống kê dùng để phân tích chủ đề tiềm ẩn trong văn bản Mỗi văn bản là sự pha trộn của nhiều chủ đề và mỗi chủ đề là sự pha trộn của nhiều từ

Giả sử chúng ta có một chủ đề mà mô hình LDA tìm ra, với các từ khóa trong bảng dưới đây

Từ khóa Xác suất

Đua thuyền 0.35 Con ngựa 0.15

1

Trang 5

Không cần ai đặt tên, chúng ta vẫn dễ dàng đoán đây là chủ đề về thể thao.

Điều này cho thấy sức mạnh của LDA: từ dữ liệu văn bản, nó phát hiện được những cấu trúc tiềm ẩn mà con người có thể hiểu và gán ý nghĩa

Một số ví dụ về chủ đề và các phân phối từ:

Phân phối từ

xác suất

Bảng phân phối từ và xác suất theo các chủ đề

2 Mô hình đồ thị xác suất

2.1 Khái niệm

Mô hình đồ thị xác suất (probabilistic graphical model) được sử dụng để biểu diễn các biến ngẫu nhiên và mối quan hệ phụ thuộc xác suất giữa chúng Mô hình giúp mô tả hiệu quả quá trình hoạt động sinh dữ liệu (generative process) của LDA

Có nhiều phiên bản khác nhau của LDA, mỗi phiên bản ứng với một cấu trúc đồ thị, nhưng tất

cả đều tuân theo các quy tắc cơ bản của mô hình đồ thị xác suất Nhờ đó, ta có thể phân tích

và so sánh các biến thể này nhằm nắm bắt bản chất mô hình

2.2 Các thành phần cấu tạo

Trong mô hình đồ thị xác suất, các thành phần thường gặp là:

• Nút không tô màu: Biểu thị các biến tiềm ẩn (latent variables) Đây là các biến ngẫu nhiên mà giá trị của chúng không thể quan sát hay đo lường trực tiếp Ta chỉ có thể suy luận về các biến này thông qua biến quan sát

• Nút tô màu: Biểu thị các biến quan sát (observed variables) Đây là các biến mà giá trị của chúng được thu trực tiếp từ dữ liệu hoặc quá trình thử nghiệm

• Mũi tên: Thể hiện mối quan hệ phụ thuộc có điều kiện (conditional dependence) giữa các biến Mũi tên cho biết biến ở cuối mũi tên được sinh ra từ biến ở gốc mũi tên, phụ thuộc vào biến ở gốc mũi tên

Các ký hiệu này đóng vai trò mô tả cấu trúc nhân quả và trực quan hoá quy trình sinh dữ liệu của các mô hình phức tạp

2

Trang 6

2.3 Cấu trúc dữ liệu

document 1 document 2 document 3 document 4

word 1 word 2 word 3 word 4

word 1 word 2 word 3

word 1 word 2

word 1 word 2 word 3 word 4

corpus

Các đối tượng chính trong mô hình LDA được định nghĩa như sau:

• Từ (Word): Là đơn vị cơ bản và nhỏ nhất trong mô hình Mỗi từ là một phần tử riêng lẻ

từ một từ điển (vocabulary) rời rạc

• Tài liệu (Document): Một tài liệu là một chuỗi các từ Số lượng từ trong một tài liệu được gọi là độ dài (length) của tài liệu đó

• Tập hợp tài liệu (Corpus): Là một tập hợp gồm nhiều tài liệu Toàn bộ quá trình suy luận và sinh dữ liệu của mô hình diễn ra trên corpus này

2.4 Quy tắc đọc mô hình

Quy tắc chung Mũi tên chỉ ra mối quan hệ nhân quả: “Biến ở gốc mũi tên sinh ra hoặc tác động đến biến ở đầu mũi tên.”

Các tầng lặp lại

η

α

word document

Các hình chữ nhật lồng nhau, gọi là plates, biểu thị các tầng dữ liệu và quá trình lặp lại:

• Tầng ngoài cùng (Corpus): Đại diện cho toàn bộ tập hợp tài liệu (corpus), cho thấy mỗi tài liệu d trong corpus đều được sinh ra từ cùng một mô hình Các siêu tham số (hyperparameters) như α và η được xác định ở tầng này và không thay đổi khi mô hình chuyển từ tài liệu này sang tài liệu khác

• Tầng tài liệu (Document): Khi mô hình chuyển sang một tài liệu mới, một phân bố chủ

đề mới θ được rút ra Điều này thể hiện sự độc lập của phân bố chủ đề giữa các tài liệu

• Tầng từ (Word): Với mỗi từ trong một tài liệu, mô hình sẽ:

1 Rút ra một chủ đề z từ phân bố chủ đề θ của tài liệu đó

2 Rút ra một từ w từ phân bố từ tương ứng với chủ đề z đã chọn

3

Trang 7

3 Mô tả mô hình

3.1 Phân phối Dirichlet

Phân phối Dirichlet là một họ các phân phối đa biến được tham số hóa bởi một vector α các

số thực dương, kí hiệu là Dir(α)

Thể thao

Hình 3.1

Minh họa Cho ba chủ đề Thể thao, Toán học và Trò chơi, ứng với ba đỉnh của một tam giác (Hình 2.1) Mỗi điểm bên trong tam giác sẽ ứng với một văn bản, và văn bản càng chứa nhiều

từ thuộc chủ đề nào thì càng gần đỉnh của chủ đề đó Ví dụ điểm màu đó sẽ ứng với văn bản biểu thị bởi tham số θ = (0.7, 0.2, 0.1) ứng với (Trò chơi, Thể thao, Toán học)

Tương tự nếu ta có 4 chủ đề, ta sẽ biểu diễn trên tứ diện đều trên không gian 3 chiều

Mật độ phân phối

Hình 3.2

Tham số α = (α1, α2, ), là vector có số chiều bằng với số chủ đề, sẽ quyết định hình dạng phân phối (Ví dụ Hình 2.2), và hàm tính mật độ phân phối có công thức được tính bằng hàm Gamma như sau:

p(θ | α) =

ΓPk

i =1αi

Qk

i =1Γ(αi) θ

α1−1

1 · · · θαk −1

4

Trang 8

3.2 Phân phối đa thức

Phân phối đa thức là một dạng tổng quát của phân phối nhị thức Bernoulli, và được tham số hóa bởi vector p = (p1, p2, , pk) với p1+ p2+· · · + pk = 1 (p1, p2, , pk ≥ 0)

Với mỗi i , pi là xác suất xảy ra của sự kiện thứ i

η

α

word document

Đồ thị mô tả mô hình LDA

α là Tham số phân phối Dirichlet Dir(α) trên các tỷ lệ chủ đề cho mỗi văn bản

θ = (θ1, θ2, , θk), sinh ra theo Dir(α), là một vector k chiều (tương ứng với k chủ đề) đại diện cho một văn bản, thể hiện tỷ lệ pha trộn các chủ đề cho văn bản Do phân phối Dirichlet

là liên hợp tiên nghiệm (conjugate prior) của phân phối đa thức nên θ được sinh như trên sẽ có thể được sử dụng làm tham số của phân phối đa thức

z = (z1, z2, , zn) là vector n chiều (tương ứng với n từ trong văn bản) thể hiện chủ đề của từ

• zi là chủ đề của từ thứ i

• zi được sinh ra theo phân phối đa thức (Multinomial) có tham số là θ

• θi biểu thị mức độ ảnh hưởng của chủ đề thứ i đối với văn bản

• 0 ≤ θi ≤ 1 với mọi i , và:

θ1+ θ2+· · · + θk = 1

Cho S là tập hữu hạn các từ:

• η: Một ma trận k × |S| (số chủ đề k, số từ vựng |S|), với ηi ,j là xác suất từ vựng thứ i trong S sinh ra từ chủ đề j

• η sẽ cung cấp xác suất để các từ cụ thể xuất hiện trong một chủ đề

w = (w1, , wn) là văn bản chứa các từ wi

Giả sử z = (z1, , zn) = (chủ đề thứ i1, , chủ đề thứ in)

Văn bản w= (w1, w2, , wn) sẽ được sinh ra theo ma trận phân phối η như sau:

• w1 sẽ được sinh ra theo phân phối đa thức với tham số vector hàng thứ i1 của ma trận, giả sử vector hàng đó là p = (p1, p2, , p|S|)

• w1 sẽ có pi xác suất là từ thứ i trong S, và p1+ p2+· · · + p|S| = 1

5

Trang 9

3.4 Smoothed LDA

η β

word document topic

• α : Tham số để sinh ra phân phối Dirichlet trên các tỷ lệ chủ đề cho mỗi tài liệu

• β: Tham số để sinh ra phân phối Dirichlet trên các tỷ lệ mỗi từ đóng góp cho chủ đề

• Trong mô hình cơ bản, η là một ma trận cố định mà mô hình cố gắng ước lượng, do đó các từ “hiếm”, gần như không xuất hiện sẽ được gán xác suất bằng không

• Trong Smoothed LDA, ma trận η sẽ trở thành một biến ngẫu nhiên theo phân phối Dir(β), đảm bảo rằng các từ đều có xác suất xuất hiện dương

PiMeo

Hình 3.3

Ví dụ Nếu ta có 3 từ tương ứng với 3 đỉnh của tam giác (Hình 2.3), thì mỗi điểm sẽ ứng với một chủ đề Tổng quát, nếu chủ đề thứ i có phân phối là vector θ = (θ1, , θ|S|) thì nó sẽ là vector hàng thứ i của ma trận η

4 Tối ưu tham số trong LDA: EM step và Gibbs Sampling

4.1 Tối ưu tham số bằng EM step

LDA là mô hình generative

• Mục tiêu là tìm tham số ẩn θ (phân bố chủ đề của document) và η (phân bố từ của chủ đề) sao cho xác suất dữ liệu w được sinh ra là cao nhất:

max θ,η p(w| θ, η)

• Vì có biến ẩn zi đại diện cho chủ đề của từng từ, phương pháp Expectation-Maximization (EM) được sử dụng để tối ưu

• Trong E-step, xác suất phân bố chủ đề cho mỗi từ được tính dựa trên các tham số hiện tại:

qi ,k = p(zi = k | wi, θ, η)

• Trong M-step, các tham số θ và η được cập nhật dựa trên tổng hợp các xác suất này nhằm tối đa hóa kỳ vọng log-likelihood

6

Trang 10

• Cụ thể, các công thức tối ưu là:

θd ,k =

P i∈dqi ,k P

k ′

P i∈dqi ,k ′

, ηk ,w =

P

i :wi=wqi ,k P

w ′

P

i :wi=w ′qi ,k

• Quá trình này được lặp đi lặp lại nhiều lần cho đến khi hội tụ, đảm bảo likelihood dữ liệu đạt giá trị tối đa cục bộ

Python minh họa EM step:

# w_doc: list of words in document

# K: number of topics

# theta, eta: init randomly

for iter in range(100):

# E-step: compute q

q = np.zeros((len(w_doc), K))

for i, w in enumerate(w_doc):

for k in range(K):

q[i,k] = theta[d,k] * eta[k,w]

q[i,:] /= q[i,:].sum()

# M-step: update theta, eta

for k in range(K):

eta[k,:] = 0

theta[d,k] = q[:,k].sum()

eta /= eta.sum(axis=1, keepdims=True)

theta /= theta.sum(axis=1, keepdims=True)

4.2 Tối ưu tham số bằng Gibbs Sampling

Gibbs Sampling là phương pháp Monte Carlo:

• Thay vì tính toán E-step, Gibbs Sampling rút ngẫu nhiên chủ đề zi cho từng từ theo phân phối hậu nghiệm:

p(zi = k | z−i, w , α, β)∝ (n−id ,k+ αk)n

−i

k ,wi + β

n−ik + V β

• Trong đó, n−i

d ,k là số từ trong document d thuộc chủ đề k trừ từ i , nk ,w−i

i là số từ wi trong chủ

đề k trừ từ i , n−ik là tổng số từ trong chủ đề k trừ từ i , và V là kích thước từ vựng

• Mỗi từ được rút chủ đề theo phân phối này, sau đó cập nhật các count mới:

nd ,k = nd ,k+ 1 , nk ,w = nk ,w + 1 , nk = nk + 1

• Quá trình được lặp đi lặp lại nhiều vòng để phân bố chủ đề hội tụ xấp xỉ phân phối hậu nghiệm thực

Python minh họa Gibbs Sampling:

for iter in range(100):

for i, w in enumerate(words):

# giảm count cũ

n_dk[doc[i], z[i]] -= 1

n_kw[z[i], w] -= 1

n_k[z[i]] -= 1

# tính xác suất phân phối cho z[i]

p = (n_dk[doc[i],:] + alpha) * (n_kw[:,w] + beta) / (n_k + V*beta)

p /= p.sum()

# rút chủ đề mới

7

Trang 11

z[i] = np.random.choice(K, p=p)

# tăng count mới

n_dk[doc[i], z[i]] += 1

n_kw[z[i], w] += 1

n_k[z[i]] += 1

4.3 So sánh EM và Gibbs

• EM step sử dụng soft assignment, nghĩa là mỗi từ có thể thuộc nhiều chủ đề với các xác suất khác nhau Điều này giúp mô hình tối ưu likelihood trực tiếp và dễ quan sát log-likelihood, nhưng tốn bộ nhớ khi corpus lớn

• Gibbs Sampling sử dụng hard assignment, mỗi từ được gán một chủ đề duy nhất dựa trên phân phối hậu nghiệm.Mặc dù assignment là rời rạc, qua nhiều vòng lặp, phân bố chủ đề hội

tụ xấp xỉ phân phối hậu nghiệm thực

• EM thích hợp với corpus nhỏ hoặc khi muốn tối ưu likelihood rõ ràng.Gibbs phù hợp với corpus lớn, ít tốn bộ nhớ và linh hoạt khi mở rộng mô hình

• Về mặt kết quả, EM cho phân bố chủ đề mềm, dễ giải thích.Gibbs cho kết quả phân bố chủ

đề rời rạc, nhưng vẫn thể hiện đúng chủ đề tổng thể sau hội tụ

Từ EM (soft) Gibbs (hard)

• Nhìn vào bảng, EM thể hiện rằng mỗi từ có thể thuộc nhiều chủ đề với tỷ lệ khác nhau.Gibbs thể hiện assignment cụ thể cho mỗi từ, nhưng tổng thể vẫn phản ánh phân bố chủ đề của corpus.Việc lựa chọn phương pháp tùy thuộc vào kích thước dữ liệu, khả năng tính toán và mục tiêu phân tích

Tài liệu

[1] Andrew Y Ng David M Blei and Michael I Jordan Latent dirichlet allocation Journal of Machine Learning Research, 2003

[2] Thomas Griffiths and Mark Steyvers Finding scientific topics Proceedings of the National Academy of Sciences, 2004

[3] Serrano.Academy Latent dirichlet allocation (video youtube)

[4] Phạm Đình Khánh Latent dirichlet allocation 2019

8

Tiêu đề	Mô hình Latent Dirichlet Allocation và ứng dụng trong phân loại chủ đề
Tác giả	Nguyễn Sơn Hải, Lê Vũ Thiêm Hoàng, Phạm Phúc Toàn, Phan Hoàng Thanh Dung
Trường học	Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Toán ứng dụng
Thể loại	Báo cáo
Năm xuất bản	2025
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	11
Dung lượng	694,25 KB