Nó đề xuất vấn đề mới về mô hình hóa chủ đề được nhắm mục tiêu để chỉ khám phá các chủ đề liên quan đến khía cạnh do người dùng chỉ định.. Kết quả thử nghiệm sử dụng năm bộ dữ liệu đời
Trang 1Shuai Wang† , Zhiyuan Chen† , Geli Fei† , Bing Liu† and Sherry Emery‡
KDD ’16: In Proceedings of the 22nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining
August 2016, San Francisco, CA, USA
Lập mô hình chủ đề
được nhắm mục tiêu
để phân tích tập
trung
Trang 3Nội dung báo cáo
Giới thiệu
chung
Kết quả và đánh giá
Phân tích nội
dung
Triển khai thực nghiệm
Trang 4Giới thiệu
1
Trang 5Giới thiệu
chung
Bài báo này đưa ra những đóng góp sau:
1 Nó đề xuất vấn đề mới về mô hình hóa chủ
đề được nhắm mục tiêu để chỉ khám phá các chủ đề liên quan đến khía cạnh do người
dùng chỉ định
2 Nó đề xuất một mô hình chủ đề xác suất mới được gọi là Mô hình chủ đề nhắm mục tiêu (TTM)
3 Kết quả thử nghiệm sử dụng năm bộ dữ liệu đời thực và một bộ các khía cạnh cho thấy hiệu quả của mô hình đề xuất
Trang 6Phân tích nội
2
Trang 7Một trong những nhiệm vụ bao trùm của phân tích tài liệu là tìm ra những chủ đề mà mọi người nói về Một trong những kỹ thuật
chính cho mục đích này là mô hình hóa chủ đề.
Bài báo này nghiên cứu vấn đề này và đề xuất một mô hình chủ đề được nhắm mục tiêu (TTM) để cho phép phân tích tập trung vào bất kỳ khía cạnh cụ thể nào mà bạn quan tâm.
Chủ đề bài
báo
Trang 9Mô hình đồ họa TTM
Mô hình đề xuất
Trang 10Phương pháp, giải pháp, thuật toán
1 Vẽ ϕir ∼ Dirichlet(βir) như một phân phối từ của một chủ đề không liên quan đến khía cạnh được nhắm mục tiêu;
2 Đối với mỗi chủ đề phù hợp với mục tiêu t ∈ {1, 2, , T}:
(a) Vẽ một bản phân phối trước ωt ∼ Beta(p, q);
(b) Đối với từng thuật ngữ v ∈ {1, 2, , V}:
3 Đối với mỗi tài liệu m ∈ {1, 2, ,M}:
(a) Vẽ một bản phân phối trước πm ∼ Beta(γ););
(b) Vẽ trạng thái liên quan r dựa trên chỉ số từ khóa x và Bernoulli(πm); (c) Nếu tài liệu có liên quan đến khía cạnh được nhắm mục tiêu, i.e., r = 1:
Trang 11Sử dụng Gibbs Sampling để suy luận mô hình
Các phân phối có điều kiện được thể hiện trong các công thức
Đầu tiên, chúng ta lấy mẫu trạng thái liên quan r cho mọi tài liệu m, trong đó r ∈ R và m ∈ M
Thuật toán
Trang 12Thứ hai, họ lấy mẫu công cụ chọn thuật ngữ βr
v, ở đâu v ∈ V | βr
v|
là tổng các giá trị của tất cả các bộ chọn thuật ngữ như vậy.
Thuật toán
Trang 13Thứ ba, Họ lấy mẫu một chủ đề của từ ở vị trí tôi Chúng tôi làm
nó cho tất cả các từ trong kho ngữ liệu | βr
t,∗| là tổng các giá trị của tất cả các bộ chọn thuật ngữ như vậy trong chủ đề t.
Thuật toán
Trang 14Cuối cùng, chúng tôi lấy mẫu công cụ chọn thuật ngữ βt,v, truyền hình, ở đâu t ∈ T và v ∈ V
Thuật toán
Trang 15Triển khai thực
3
Trang 16Giới thiệu về phần mềm và dữ liệu
Dữ liệu thử nghiệm
Trang 17- Mã nguồn được lấy công khai trên trang github của tác giả.
- Có 2 cách để chạy:
+ Sử dụng Eclipse
+ Sử dụng Terminal bằng các dòng lệnh
Công cụ thử nghiệm
Trang 18● Dòng 2: trường giả ( Không hữu ích cho việc lập mô hình, nhưng hiện tại vẫn cần đưa nó vào dữ liệu thô)
● Dòng 3 : nội dung của câu.
● (lặp lại định dạng trên cho tất cả các
tệp)
Input
Trang 19a Đây là một tệp từ vựng, lập chỉ mục các từ trong một miền nhất định.
NS Các từ dừng và các từ không thường xuyên đã bị loại bỏ.
Input
Trang 20Mô hình được huấn luyện với số lần burn-in ban đầu bằng 200.
Các tham số được thiết lập:
Trang 21Quá trình thực nghiệm
Trang 22Kết quả và
đánh giá 0
4
Trang 23Domain.ex: top các từ liên quan nhất đến chủ đề
Output
Trang 24Kết quả thực nghiệm
Output
Trang 25Các mô hình cơ sở được dùng để so sánh: LDA, LDA*, DS-LDA, DS-LDA*, SS-LDA, SS-LDA*, LDA- PD
So sánh
Trang 26Đánh giá định lượng
P(i)@n chỉ ra độ chính xác @n cho mô hình (i), dựa trên khía cạnh được nhắm mục tiêu #C(i)st(correct@n) là số từ đúng được tìm thấy trong chủ đề st, cho rằng có ST chủ đề được tìm thấy theo
mô hình tôi #Cmt(words@n) là số từ đúng tối đa từ tất cả các mô hình
Trang 27Đánh giá định lượng
Hai cài đặt so sánh: Hai cài đặt thử nghiệm khác nhau được sử dụng
để so sánh do các thuộc tính khác nhau của các mô hình ứng viên
So sánh LDA, DS-LDA, SS-LDA và LDA-PD với TTM
Đối với LDA-PD, sử dụng chính từ khóa đích (ví dụ: “Children”) để trích xuất tài liệu Đối với TTM, cũng sử dụng từ khóa mục tiêu để lập
mô hình được nhắm mục tiêu
Tương tự với LDA, DS-LDA, SS-LDA
Trang 28Đánh giá định lượng
Độ chính xác trong cài đặt 1:
Trang 29Đánh giá định lượng
So sánh LDA *, DS-LDA * và SS-LDA * với TTM
Các trình chú thích sử dụng Chiến lược tìm kiếm để xác định các chủ
đề có liên quan từ tất cả các mô hình ngoại trừ TTM
Có nghĩa là, từ khóa khía cạnh được nhắm mục tiêu được sử dụng để tìm kiếm trong 20 từ chủ đề hàng đầu trong mỗi chủ đề để tìm các chủ đề có thể liên quan đến mục tiêu Chỉ những chủ đề kết quả được đánh giá
Độ chính xác trong cài đặt 2:
Trang 30Đánh giá định lượng
Độ chính xác trong cài đặt 2:
Trang 31Đánh giá định tính
Ví dụ 1: E-cigarette và Children
Các chủ đề về khía cạnh “Children” dưới E-Cig.Các lỗi được in nghiêng và đánh dấu màu đỏ
Trang 32Đánh giá định
tính
Ví dụ 2: Camera, Screen and Weight
Các chủ đề của hai khía cạnh Screen và Weight dưới Camera
Các lỗi được in nghiêng và đánh dấu màu đỏ
Trang 33- Mô hình TTM tập trung vào việc tìm các chủ đề của một khía cạnh được nhắm mục tiêu để giúp người dùng thực hiện phân tích sâu hơn hoặc chi tiết hơn
- Các mô hình hiện tại không phải là phương pháp hiệu quả nhất để phân tích tập trung vì kết quả của chúng thường quá thô và chúng có thể không tìm thấy chủ đề mà người dùng thực sự quan tâm hoặc bỏ lỡ nhiều chi tiết.
- Kết quả thử nghiệm cho thấy thực tế đúng như vậy và mô hình mới được đề xuất vượt trội hơn rõ rệt so với các mô hình hiện đại hiện có.
5 Kết Luận
Trang 34Phân tích
mở rộng 0
5
Trang 35BiTTM: A Core Biterms-Based Topic Model for Targeted
Analysis
Ý tưởng chính của TTM là giới thiệu
một biến liên quan r để cho biết liệu một
câu có liên quan đến một khía cạnh cụ
thể hay không Biến r xác định xem mỗi
từ trong một câu được tạo ra bởi một
chủ đề có liên quan hay một chủ đề
không liên quan Hơn nữa, sự phân bố
chủ đề-từ có liên quan ϕr thưa thớt bởi vì
số lượng từ liên quan đến mục tiêu
thường ít hơn so với các từ không liên
quan
TTM xem xét trạng thái r ở cấp độ
câu Rất khó để xác định liệu một câu có
liên quan đến mục tiêu hay không khi
một câu chứa nhiều chủ đề Việc phân
định sai tình trạng câu sẽ ảnh hưởng
không tốt đến chất lượng các đề
Trang 36BiTTM: A Core Biterms-Based Topic Model for Targeted
Analysis
BiTTM cải thiện chất lượng của các
chủ đề, giảm bớt việc mất chủ đề và
vượt trội hơn so với các đường cơ sở, đặc
biệt là đối với các từ khóa truy vấn có
tần suất thấp; chi phí thời gian của
BiTTM là vượt trội và ổn định nhất so với
các đường cơ sở, điều này chứng tỏ khả
năng ứng dụng cao của BiTTM trên các
bộ dữ liệu với các đặc điểm khác nhau
BiTTM có tính vượt trội hơn đáng kể
so với TTM
Trang 37Link bài báo liên quan:
https://www.researchgate.net/publication/355834632_BiTTM_A_Core_Bi terms-Based_Topic_Model_for_Targeted_Analysis
Trang 38Do you have
any questions?