Bài toánSử dụng các mô hình chủ đề để tự động xây dựng lớp ngữ nghĩa dựa trên tập dữ liệu ngữ nghĩa thô Raw semantic classes: RASCs được trích xuất bằng cách xác định trước các mẫu từ we
Trang 1Ứng dụng Topic Modeling
để tự động xây dựng lớp ngữ nghĩa
Trang 2I Bài toán
Sử dụng các mô hình chủ đề để tự động xây dựng lớp ngữ nghĩa dựa trên tập dữ liệu ngữ nghĩa thô (Raw semantic classes: RASCs) được trích xuất bằng cách xác định trước các mẫu từ web pages Tiếp cận giải quyết bài toán dựa trên
3 quá trình cơ bản: Quá trình tiền xử lý (Preprocessing); Mô hình hóa chủ để (Sử dụng LDA); Quá trình hậu xử lý (Postprocessing)
Trang 3I Bài toán
Mô tả tập dữ liệu ngữ nghĩa thô như sau:
Bảng các sample patterns
Trang 4II Tiếp cận bài toán
• Một lớp ngữ nghĩa là một tập của các từ hay cụm từ (items: words or phrases), các thành phần trong lớp ngữ nghĩa có quan hệ ngang hàng hoặc quan hệ họ hàng với nhau (peer or bibling relationship)
• Ví dụ: {red, white, black, blue…} là một lớp
ngữ nghĩa về màu sắc
Trang 5II Tiếp cận bài toán
• Một item có thể thuộc về nhiều lớp ngữ nghĩa, và chúng ta cần phát hiện ra nhiều lớp ngữ nghĩa khác nhau mà item đó có thể thuộc
• Ví dụ: Từ “Lincoln” có thể biểu diễn đồng
thời như là một người, một địa điểm hay là tên nhãn của xe ô tô
• Để xây dựng các mô hình chủ đề chúng ta xây dựng một tham chiếu tới RASCs như
Trang 6II Tiếp cận bài toán
construction
Trang 7II Tiếp cận bài toán
*/ Mô hình hóa chủ đề (Topic Modeling)
• Trong các mô hình chủ đề, một tài liệu được
mô hình như là một tập của các chủ đề ẩn
• Các từ của một tài liệu được sinh ra theo phân bố của từ qua các chủ đề tương ứng với tài liệu đó
• Cho một corpus, các chủ đề ẩn có thể nhận được bằng một thủ tục ước lượng tham số
Trang 8II Tiếp cận bài toán
Latent Dirichlet Allocation (LDA):
Ý tưởng: Trong LDA, các dữ liệu là các từ của
mỗi tài liệu và các tài liệu được biểu diễn bởi cấu trúc chủ đề ẩn, các chủ đề ẩn này được xác định qua một phân bố của tập các từ vựng
• Với một tập dữ liệu, phân bố hậu nghiệm của các dữ liệu ẩn cho bởi tập dữ liệu được xác định bởi một phân tích chủ đề ẩn của tập
dữ liệu
Trang 9II Tiếp cận bài toán
Kỹ thuật: Cơ chế xử lý cho mỗi tài liệu trong
corpus như sau:
1 Chọn tài liệu có độ dài N từ một hàm
Trang 10II Tiếp cận bài toán
a Chọn một chủ đề z từ một đa phân bố với
thông số
b Chọn lấy w i qua xác suất
Với xác suất likelihood cho một tài liệu là:
p d p p z p z d
Trang 11II Tiếp cận bài toán
Ứng dụng: LDA được ứng dụng cho
document modeling, document classification, collaborative filtering
Trang 12III Giải quyết bài toán
• Tập dữ liệu nguồn của chúng ta là một tập RASCs được trích xuất thành các mẫu trong một tập dữ liệu của các web pages và được kí
hiệu là C R
• Cho một item như là một truy vấn đầu vào,
dữ liệu ra của chúng ta là một hay nhiều lớp ngữ nghĩa cho item đó
• Cho một item q, chúng ta kí hiệu là C R (q) là
tất cả các lớp ngữ nghĩa thô trong C R chứa
item q
Trang 13III Giải quyết bài toán
đưa ra số lượng các lớp ngữ nghĩa ẩn cuối cùng một cách thích hợp
Trang 14III Giải quyết bài toán
• Nhìn chung, hướng giải quyết của chúng ta bao gồm 3 giai đoạn:
Chúng ta đi xây dựng các mô hình chủ
đề cho mỗi C R (q), một quá trình tiền xử lý và
hậu xử lý sẽ được thêm vào trước khi và sau khi mô hình hóa các thành phần nhằm nâng cao tính hiệu quả và khắc phục vấn đề cố định số lượng các chủ đề
Trang 15III Giải quyết bài toán
Trang 16III Giải quyết bài toán
Trang 17III Giải quyết bài toán
Thực hiện các mô hình chủ đề:
2 Chọn một vector - k chiều từ một phân
bố Dirichlet với thông số
3 Với mỗi items trong tổng số :
a Lấy ra một lớp ngữ nghĩa từ một hàm phân bố nhiều với thông số
b Lấy ra một item từ xác suất xác
Trang 18III Giải quyết bài toán
Quá trình tiền xử lý:
• Quá trình tiền xử lý (preprocessing) được
dùng cho C R (q) trước khi chúng ta đi xây
dựng các mô hình chủ đề cho nó
• Công việc của quá trình này là đi loại bỏ tất
cả những items trong RASCs nhỏ hơn một
ngưỡng h nào đó Một RASC bị loại bỏ từ
C R (q) nếu nó chứa ít hơn 2 items sau khi loại
bỏ
Trang 19III Giải quyết bài toán
Quá trình hậu xử lý:
• Quá trình hậu xử lý (postprocessing), các lớp ngữ nghĩa đầu ra (“các chủ đề”) của mô hình hóa chủ đề được gộp lại để đưa ra các lớp ngữ nghĩa cơ bản cuối cùng
• Quá trình này bao gồm hai giai đoạn: Gộp các lớp ngữ nghĩa và sắp xếp các items trong mỗi lớp ngữ nghĩa
Trang 20III Giải quyết bài toán
Gộp các lớp ngữ nghĩa: Quá trình này được
thực hiện bằng cách lặp lại việc tính toán sự tương tự giữa hai lớp ngữ nghĩa và hai lớp này gộp lại với nhau với độ tương tự cao nhất cho tới khi độ tương tự dưới một ngưỡng nào
Trang 21III Giải quyết bài toán
hay có thể đề xuất một cách tính khác như sau:
Trang 22III Giải quyết bài toán
Trong đó:
- |C|: Số lượng items trong lớp ngữ nghĩa C
- sim(a,b) – Độ tương tự giữa items a và b
- C i,j : Là một RASC chứa cả a và b
- P(C i,j ): Là mẫu được trích xuất bởi RASC
- w(P): Là trọng số của mẫu P
Trang 23III Giải quyết bài toán
Sắp xếp các items:
• Một item có thể nhận được một thứ hạng cao nếu độ tương tự trung bình giữa item đó với các item khác trong lớp ngữ nghĩa là cao,
và nếu nó có độ tương tự cao để truy vấn tới
item q
• Do đó việc tính toán mức độ quan trọng của
item a trong lớp ngữ nghĩa C như sau:
Trang 24III Giải quyết bài toán
Trong đó:
sim(a,q) - độ tương tự giữa item a và truy
vấn q; sim(a,C) – độ tương tự giữa item a và lớp C
g a C sim a C sim a q
( , ) ( , ) b C sim a b
Trang 25IV Kết quả thực nghiệm
• Trong phương pháp tiếp cận của chúng ta,
một truy vấn item q nhận được từ người sử
dụng và trả lại các lớp ngữ nghĩa chứa truy vấn đó
• Do đó thời gian truy vấn item yêu cầu nhanh hơn, để giảm thời gian truy vấn chúng
ta sẽ đi xử lý offline các truy vấn có tính phổ biến cao và lưu chúng lại thành các lớp ngữ
Trang 26IV Kết quả thực nghiệm
• Chúng ta sẽ đi xem xét các cách tiếp cận
khác đối với bài toán của chúng ta: phân cụm
RASC và phân cụm Item.
Phân cụm RASC: Cho một truy vấn item q,
chạy một thuật toán phân cụm (K-Medoids;
DBSCAN) đối với CR(q) và gộp các RASCs
vào các cụm giống nhau như là một lớp ngữ nghĩa
Trang 27IV Kết quả thực nghiệm
Một trong những hạn chế của phân cụm RASC là không giải quyết được trường hợp một RASC chứa nhiều items từ đa lớp ngữ nghĩa
Phân cụm Item: Tương tự như phân cụm
RASC chúng ta cũng dùng 2 thuật toán phân cụm K-Medoids và DBSCAN Nhược điểm chính của thuật toán phân cụm này là không thể xác định được một item thuộc về đa lớp
Trang 28IV Kết quả thực nghiệm