1. Trang chủ
  2. » Tất cả

Mô hình chủ đề gk lda

76 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô hình chủ đề gk lda
Thể loại Báo cáo
Định dạng
Số trang 76
Dung lượng 2,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đặt vấn đề● Có một tập rất lớn các bài viết hàng chục, hàng trăm nghìn bài viết => cần phân loại các bài viết ● Phân loại chủ đề giúp chúng ta đọc hiểu, lựa chọn và tìm kiếm những thông

Trang 2

MÔ HÌNH CHỦ ĐỀ

1.

Trang 3

Đặt vấn đề

Có một tập rất lớn các bài viết (hàng chục, hàng trăm nghìn bài viết) => cần phân loại các bài viết

Phân loại chủ đề giúp chúng ta đọc hiểu, lựa

chọn và tìm kiếm những thông tin có nội dung xác định nhanh và chính xác hơn.

Trang 4

Mô hình chủ đề cơ bản

Văn bản

Tập văn bản Túi đựng từ(BoW)

Định nghĩa quy trình sinh

Ước lượng tham số

Ma trận N * K Biểu diễn văn bản-chủ đề

Ma trận K * V Biểu diễn chủ đề-từ

Huấn luyện

Kết quả

Trang 5

Ví dụ

Trang 7

Tổng quan một số mô

hình LDA

2.

Trang 8

Là một mô hình chủ đề

Cải tiến từ LDA

Trang 9

GK-LDA (2013) MDK-LDA (2010)

LDA (2003)

+Sử dụng tri thức đa miền

+Sử dụng tri thức độc lập miền

Trang 10

Cấu trúc

LDA: Khái niệm, mô hình

MDK-LDA: Cải tiến về mô hình

GK-LDA: Cải tiến về dữ liệu đầu vào

Trang 11

3.

Trang 12

Latent Dirichlet Allocation

Bài báo: Latent Dirichlet Allocation (2003)

Sử dụng làm nền tảng cho nhiều nghiên cứu sau này

LDA

Trang 15

Các biểu diễn trong bài toán LDA

Trang 17

Đầu vào: Tập văn bản D

Đầu ra: Tỉ lệ sinh ra được tập văn bản D

Mục tiêu: Tìm các biến ẩn để tối đa hóa tỉ lệ sinh ra tập văn bản D

Quá trình sinh

Trang 18

Mã giả

Trang 19

Các tham số

Trang 21

Plate notation

Trang 22

Kết quả của mô hình

Tỉ lệ sinh ra được tập văn bản D theo quá trình sinh:

Trang 23

Kết quả của mô hình

Trang 25

Sau một số phép biến đổi:

=> Cần gán chủ đề (tìm Z) cho từng từ trong tập văn bản để công thức đạt giá trị lớn nhất

Trang 26

Khó khăn

Không có công thức trực tiếp để có thể tính ra được Z

Ta không thể thử toàn bộ mọi cách gán các chủ đề cho từng từ

Trang 28

Mô tả

Trang 29

Áp dụng vào LDA

Trang 31

Công thức

=

Trang 33

4.

Trang 34

MDK là viết tắt của Multi Domain Knowledge (tri thức đa miền)

Bài báo: “Leveraging Multi-Domain Prior

Knowledge in Topic Models” (2010)

MDK-LDA

Trang 35

Với mỗi miền cần có tri thức mới

Điều này là không mong muốn vì thực tế tri

thức cần được tích luỹ, tổng hợp để giải quyết một vấn đề mới.

Vấn đề của các mô hình chủ đề cũ

Trang 36

S-sets (semantic set): Tập những từ chung

Trang 38

Mã giả

Trang 39

Các tham số

Trang 41

Plate notation

Trang 43

Công thức Gibb sampling

Trang 44

Ý nghĩa các giá trị

Là tham số của mô hình Generalized Pólya urn Mô hình này dùng để mô tả việc một từ khi được chọn, thì có khả năng cao hơn chọn lại các từ cùng s-set với nó

Trang 45

Ý nghĩa các giá trị

Trang 46

5.

Trang 49

Đóng góp

Trang 51

Phương pháp - Hướng tiếp cận

Thuật toán cơ sở làm nền móng vẫn là Gibbs

sampling (tương tự LDA)

Về mặt cải tiến: Ý tưởng tương tự như MDK-LDA, đều

là bổ sung tri thức quan hệ ngữ nghĩa của các từ

Điểm khác biệt nằm ở

MDK-LDA: S-sets + Domain Dependent Knowledge

GK-LDA: LR-sets + General Knowledge

Trang 53

Mã giả

Trang 54

Các tham số

Trang 56

Phương pháp - Các vấn đề với tri thức chung

có chứa 𝑤 đều không có ý nghĩa (sai) đối với miền)

để ước lượng độ chính xác của các LR-sets

Trang 57

Phương pháp - Các vấn đề với tri thức chung

// Tính Word Correlation Matrix C

Với mỗi LR-set s thuộc {1 … S}

Với mỗi cặp {w, w’} thuộc s:

Tìm chủ đề tmax mà w’ có xác suất hiện lớn nhất Tính C s, w’, w = → độ tương quan của {w, w’}

// Ước lượng chất lượng của LR-set s với từ w

Nếu Q(s,w) < epsilon với mọi s, ta thêm LR-sets {w}

Trang 58

Phương pháp - Các vấn đề với tri thức chung

nhưng lại sai ở miền khác

Trang 59

Phương pháp - Hướng tiếp cận

Trang 60

Đánh giá kết quả - Phương pháp

Topic coherence → Chất lượng các chủ đề

trong cùng một chủ đề

KL-Divergence → Tính riêng biệt của tập chủ đề

Trang 61

Đánh giá kết quả - So sánh

Trang 62

Thực nghiệm

6.

Trang 63

Dữ liệu

2000 đánh giá (review) từ Amazon.com

4 miền: Camera, Cell Phone, Food, Computer

LR-sets: Danh từ - Tính từ

Trang 64

Thực nghiệm - Giới thiệu phần mềm

Mã nguồn được công bố tại github của tác giả: https://github.com/czyuan/GKLDA

Ngôn ngữ lập trình: Java

Trang 65

Thực nghiệm - Giới thiệu dữ liệu

Dữ liệu được công bố tại trang chủ của tác giả: https://www.cs.uic.edu/~zchen/

Dữ liệu đã được chạy qua công cụ CoreNLP của đại học Stanford:

https://stanfordnlp.github.io/CoreNLP/

Trang 66

Thực nghiệm - Xử lý dữ liệu

Dữ liệu mẫu được trình bày dưới dạng XML, do

đó cần được chuyển đổi về dạng dữ liệu mà

chương trình xử lý được.

Trang 67

Thực nghiệm - Quá trình

Trang 68

Mục tiêu: Đưa dữ liệu dưới dạng XML về 2 file dữ liệu

lần lượt là Domain.vocab và Domain.docs

Mỗi dòng trong Domain.docs đại diện cho một văn

bản, chứa một danh sách các id định danh cho các từ.

được phân cách bởi dấu “:”

Trang 69

Thực nghiệm - Quá trình

Trang 70

Yêu cầu: Chỉ sử dụng các danh từ và tính từ để xây

dựng cặp L-R vì nó là đặc trưng của các topic và do động từ có mức độ nhiễu cao.

Loại bỏ dấu câu, các từ dừng (stop words), số và các

từ xuất hiện ít hơn 5 lần trong 1 tập văn bản (corpus).

Tên của domain cũng được loại bỏ do số lần xuất hiện nhiều, gây nên sự tương đồng giữa các topic.

Trang 71

Thực nghiệm - Quá trình

Trang 72

Sau khi xử lý xong dữ liệu đầu vào thì ta có thể bắt đầu quá trình thực nghiệm.

Mô hình được huấn luyện bằng cách sử dụng 2000 vòng lặp với số lần burn-in ban đầu bằng 200.

○ α = 1, β = 0.1, κ = 15

○ λ = 2000, σ = 0.2, τ = 1

Trang 73

Domain.tassign: Chủ đề của mỗi từ trong tập văn bản.

Domain.twdist: Phân phối chủ đề tên tập từ

đề.

Trang 74

Thực nghiệm - Kết quả

Trang 75

Script xử lý dữ liệu được viết bằng ngôn ngữ Python tại:

https://github.com/ngcaobaolong/GKLDA/blob/maste r/Data/Input/Dataset/datasets_extractor.py

Script xử lý kết quả được viết bằng ngôn ngữ Python tại:

https://github.com/ngcaobaolong/GKLDA/blob/maste r/Data/Output/LearningIteration1/DomainModels/creat e_table.py

Trang 76

Cảm ơn thầy và các bạn

đã lắng nghe

Ngày đăng: 26/02/2023, 15:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w