Ứng dụng Topic Modeling để tự động xây dựng lớp ngữ nghĩa

Bài toánSử dụng các mô hình chủ đề để tự động xây dựng lớp ngữ nghĩa dựa trên tập dữ liệu ngữ nghĩa thô Raw semantic classes: RASCs được trích xuất bằng cách xác định trước các mẫu từ we

Trang 1

Ứng dụng Topic Modeling

để tự động xây dựng lớp ngữ nghĩa

Trang 2

I Bài toán

Sử dụng các mô hình chủ đề để tự động xây dựng lớp ngữ nghĩa dựa trên tập dữ liệu ngữ nghĩa thô (Raw semantic classes: RASCs) được trích xuất bằng cách xác định trước các mẫu từ web pages Tiếp cận giải quyết bài toán dựa trên

3 quá trình cơ bản: Quá trình tiền xử lý (Preprocessing); Mô hình hóa chủ để (Sử dụng LDA); Quá trình hậu xử lý (Postprocessing)

Trang 3

I Bài toán

Mô tả tập dữ liệu ngữ nghĩa thô như sau:

Bảng các sample patterns

Trang 4

II Tiếp cận bài toán

• Một lớp ngữ nghĩa là một tập của các từ hay cụm từ (items: words or phrases), các thành phần trong lớp ngữ nghĩa có quan hệ ngang hàng hoặc quan hệ họ hàng với nhau (peer or bibling relationship)

• Ví dụ: {red, white, black, blue…} là một lớp

ngữ nghĩa về màu sắc

Trang 5

• Một item có thể thuộc về nhiều lớp ngữ nghĩa, và chúng ta cần phát hiện ra nhiều lớp ngữ nghĩa khác nhau mà item đó có thể thuộc

• Ví dụ: Từ “Lincoln” có thể biểu diễn đồng

thời như là một người, một địa điểm hay là tên nhãn của xe ô tô

• Để xây dựng các mô hình chủ đề chúng ta xây dựng một tham chiếu tới RASCs như

Trang 6

construction

Trang 7

*/ Mô hình hóa chủ đề (Topic Modeling)

• Trong các mô hình chủ đề, một tài liệu được

mô hình như là một tập của các chủ đề ẩn

• Các từ của một tài liệu được sinh ra theo phân bố của từ qua các chủ đề tương ứng với tài liệu đó

• Cho một corpus, các chủ đề ẩn có thể nhận được bằng một thủ tục ước lượng tham số

Trang 8

Latent Dirichlet Allocation (LDA):

Ý tưởng: Trong LDA, các dữ liệu là các từ của

mỗi tài liệu và các tài liệu được biểu diễn bởi cấu trúc chủ đề ẩn, các chủ đề ẩn này được xác định qua một phân bố của tập các từ vựng

• Với một tập dữ liệu, phân bố hậu nghiệm của các dữ liệu ẩn cho bởi tập dữ liệu được xác định bởi một phân tích chủ đề ẩn của tập

dữ liệu

Trang 9

Kỹ thuật: Cơ chế xử lý cho mỗi tài liệu trong

corpus như sau:

1 Chọn tài liệu có độ dài N từ một hàm

Trang 10

a Chọn một chủ đề z từ một đa phân bố với

thông số

b Chọn lấy w i qua xác suất

Với xác suất likelihood cho một tài liệu là:

p d   p     p z  p  z  d

Trang 11

Ứng dụng: LDA được ứng dụng cho

document modeling, document classification, collaborative filtering

Trang 12

III Giải quyết bài toán

• Tập dữ liệu nguồn của chúng ta là một tập RASCs được trích xuất thành các mẫu trong một tập dữ liệu của các web pages và được kí

hiệu là C R

• Cho một item như là một truy vấn đầu vào,

dữ liệu ra của chúng ta là một hay nhiều lớp ngữ nghĩa cho item đó

• Cho một item q, chúng ta kí hiệu là C R (q) là

tất cả các lớp ngữ nghĩa thô trong C R chứa

item q

Trang 13

đưa ra số lượng các lớp ngữ nghĩa ẩn cuối cùng một cách thích hợp

Trang 14

• Nhìn chung, hướng giải quyết của chúng ta bao gồm 3 giai đoạn:

Chúng ta đi xây dựng các mô hình chủ

đề cho mỗi C R (q), một quá trình tiền xử lý và

hậu xử lý sẽ được thêm vào trước khi và sau khi mô hình hóa các thành phần nhằm nâng cao tính hiệu quả và khắc phục vấn đề cố định số lượng các chủ đề

Trang 15

Trang 16

Trang 17

Thực hiện các mô hình chủ đề:

2 Chọn một vector - k chiều từ một phân

bố Dirichlet với thông số

3 Với mỗi items trong tổng số :

a Lấy ra một lớp ngữ nghĩa từ một hàm phân bố nhiều với thông số

b Lấy ra một item từ xác suất xác

Trang 18

Quá trình tiền xử lý:

• Quá trình tiền xử lý (preprocessing) được

dùng cho C R (q) trước khi chúng ta đi xây

dựng các mô hình chủ đề cho nó

• Công việc của quá trình này là đi loại bỏ tất

cả những items trong RASCs nhỏ hơn một

ngưỡng h nào đó Một RASC bị loại bỏ từ

C R (q) nếu nó chứa ít hơn 2 items sau khi loại

bỏ

Trang 19

Quá trình hậu xử lý:

• Quá trình hậu xử lý (postprocessing), các lớp ngữ nghĩa đầu ra (“các chủ đề”) của mô hình hóa chủ đề được gộp lại để đưa ra các lớp ngữ nghĩa cơ bản cuối cùng

• Quá trình này bao gồm hai giai đoạn: Gộp các lớp ngữ nghĩa và sắp xếp các items trong mỗi lớp ngữ nghĩa

Trang 20

Gộp các lớp ngữ nghĩa: Quá trình này được

thực hiện bằng cách lặp lại việc tính toán sự tương tự giữa hai lớp ngữ nghĩa và hai lớp này gộp lại với nhau với độ tương tự cao nhất cho tới khi độ tương tự dưới một ngưỡng nào

Trang 21

hay có thể đề xuất một cách tính khác như sau:

Trang 22

Trong đó:

- |C|: Số lượng items trong lớp ngữ nghĩa C

- sim(a,b) – Độ tương tự giữa items a và b

- C i,j : Là một RASC chứa cả a và b

- P(C i,j ): Là mẫu được trích xuất bởi RASC

- w(P): Là trọng số của mẫu P

Trang 23

Sắp xếp các items:

• Một item có thể nhận được một thứ hạng cao nếu độ tương tự trung bình giữa item đó với các item khác trong lớp ngữ nghĩa là cao,

và nếu nó có độ tương tự cao để truy vấn tới

item q

• Do đó việc tính toán mức độ quan trọng của

item a trong lớp ngữ nghĩa C như sau:

Trang 24

Trong đó:

sim(a,q) - độ tương tự giữa item a và truy

vấn q; sim(a,C) – độ tương tự giữa item a và lớp C

g a C   sim a C    sim a q

( , ) ( , ) b C sim a b

Trang 25

IV Kết quả thực nghiệm

• Trong phương pháp tiếp cận của chúng ta,

một truy vấn item q nhận được từ người sử

dụng và trả lại các lớp ngữ nghĩa chứa truy vấn đó

• Do đó thời gian truy vấn item yêu cầu nhanh hơn, để giảm thời gian truy vấn chúng

ta sẽ đi xử lý offline các truy vấn có tính phổ biến cao và lưu chúng lại thành các lớp ngữ

Trang 26

• Chúng ta sẽ đi xem xét các cách tiếp cận

khác đối với bài toán của chúng ta: phân cụm

RASC và phân cụm Item.

Phân cụm RASC: Cho một truy vấn item q,

chạy một thuật toán phân cụm (K-Medoids;

DBSCAN) đối với CR(q) và gộp các RASCs

vào các cụm giống nhau như là một lớp ngữ nghĩa

Trang 27

Một trong những hạn chế của phân cụm RASC là không giải quyết được trường hợp một RASC chứa nhiều items từ đa lớp ngữ nghĩa

Phân cụm Item: Tương tự như phân cụm

RASC chúng ta cũng dùng 2 thuật toán phân cụm K-Medoids và DBSCAN Nhược điểm chính của thuật toán phân cụm này là không thể xác định được một item thuộc về đa lớp

Trang 28

Định dạng
Số trang	29
Dung lượng	626 KB