1. Trang chủ
  2. » Tất cả

Lập mô hình chủ đề được nhắm mục tiêu để phân tích tập trung

38 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Lập mô hình chủ đề được nhắm mục tiêu để phân tích tập trung
Tác giả Shuai Wang, Zhiyuan Chen, Geli Fei, Bing Liu, Sherry Emery
Trường học Đại học Kỹ thuật Từ Liêm
Chuyên ngành Khoa học dữ liệu
Thể loại Báo cáo
Năm xuất bản 2016
Thành phố San Francisco
Định dạng
Số trang 38
Dung lượng 3,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nó đề xuất vấn đề mới về mô hình hóa chủ đề được nhắm mục tiêu để chỉ khám phá các chủ đề liên quan đến khía cạnh do người dùng chỉ định.. Kết quả thử nghiệm sử dụng năm bộ dữ liệu đời

Trang 1

Shuai Wang† , Zhiyuan Chen† , Geli Fei† , Bing Liu† and Sherry Emery‡

KDD ’16: In Proceedings of the 22nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining

August 2016, San Francisco, CA, USA

Lập mô hình chủ đề

được nhắm mục tiêu

để phân tích tập

trung

Trang 3

Nội dung báo cáo

Giới thiệu

chung

Kết quả và đánh giá

Phân tích nội

dung

Triển khai thực nghiệm

Trang 4

Giới thiệu

1

Trang 5

Giới thiệu

chung

Bài báo này đưa ra những đóng góp sau:

1 Nó đề xuất vấn đề mới về mô hình hóa chủ

đề được nhắm mục tiêu để chỉ khám phá các chủ đề liên quan đến khía cạnh do người

dùng chỉ định

2 Nó đề xuất một mô hình chủ đề xác suất mới được gọi là Mô hình chủ đề nhắm mục tiêu (TTM)

3 Kết quả thử nghiệm sử dụng năm bộ dữ liệu đời thực và một bộ các khía cạnh cho thấy hiệu quả của mô hình đề xuất

Trang 6

Phân tích nội

2

Trang 7

Một trong những nhiệm vụ bao trùm của phân tích tài liệu là tìm ra những chủ đề mà mọi người nói về Một trong những kỹ thuật

chính cho mục đích này là mô hình hóa chủ đề.

Bài báo này nghiên cứu vấn đề này và đề xuất một mô hình chủ đề được nhắm mục tiêu (TTM) để cho phép phân tích tập trung vào bất kỳ khía cạnh cụ thể nào mà bạn quan tâm.

Chủ đề bài

báo

Trang 9

Mô hình đồ họa TTM

Mô hình đề xuất

Trang 10

Phương pháp, giải pháp, thuật toán

1 Vẽ ϕir ∼ Dirichlet(βir) như một phân phối từ của một chủ đề không liên quan đến khía cạnh được nhắm mục tiêu;

2 Đối với mỗi chủ đề phù hợp với mục tiêu t ∈ {1, 2, , T}:

(a) Vẽ một bản phân phối trước ωt ∼ Beta(p, q);

(b) Đối với từng thuật ngữ v ∈ {1, 2, , V}:

3 Đối với mỗi tài liệu m ∈ {1, 2, ,M}:

(a) Vẽ một bản phân phối trước πm ∼ Beta(γ););

(b) Vẽ trạng thái liên quan r dựa trên chỉ số từ khóa x và Bernoulli(πm); (c) Nếu tài liệu có liên quan đến khía cạnh được nhắm mục tiêu, i.e., r = 1:

Trang 11

Sử dụng Gibbs Sampling để suy luận mô hình

Các phân phối có điều kiện được thể hiện trong các công thức

Đầu tiên, chúng ta lấy mẫu trạng thái liên quan r cho mọi tài liệu m, trong đó r ∈ R và m ∈ M

Thuật toán

Trang 12

Thứ hai, họ lấy mẫu công cụ chọn thuật ngữ βr

v, ở đâu v ∈ V | βr

v|

là tổng các giá trị của tất cả các bộ chọn thuật ngữ như vậy.

Thuật toán

Trang 13

Thứ ba, Họ lấy mẫu một chủ đề của từ ở vị trí tôi Chúng tôi làm

nó cho tất cả các từ trong kho ngữ liệu | βr

t,∗| là tổng các giá trị của tất cả các bộ chọn thuật ngữ như vậy trong chủ đề t.

Thuật toán

Trang 14

Cuối cùng, chúng tôi lấy mẫu công cụ chọn thuật ngữ βt,v, truyền hình, ở đâu t ∈ T và v ∈ V

Thuật toán

Trang 15

Triển khai thực

3

Trang 16

Giới thiệu về phần mềm và dữ liệu

Dữ liệu thử nghiệm

Trang 17

- Mã nguồn được lấy công khai trên trang github của tác giả.

- Có 2 cách để chạy:

+ Sử dụng Eclipse

+ Sử dụng Terminal bằng các dòng lệnh

Công cụ thử nghiệm

Trang 18

● Dòng 2: trường giả ( Không hữu ích cho việc lập mô hình, nhưng hiện tại vẫn cần đưa nó vào dữ liệu thô)

● Dòng 3 : nội dung của câu.

● (lặp lại định dạng trên cho tất cả các

tệp)

Input

Trang 19

a Đây là một tệp từ vựng, lập chỉ mục các từ trong một miền nhất định.

NS Các từ dừng và các từ không thường xuyên đã bị loại bỏ.

Input

Trang 20

Mô hình được huấn luyện với số lần burn-in ban đầu bằng 200.

Các tham số được thiết lập:

Trang 21

Quá trình thực nghiệm

Trang 22

Kết quả và

đánh giá 0

4

Trang 23

Domain.ex: top các từ liên quan nhất đến chủ đề

Output

Trang 24

Kết quả thực nghiệm

Output

Trang 25

Các mô hình cơ sở được dùng để so sánh: LDA, LDA*, DS-LDA, DS-LDA*, SS-LDA, SS-LDA*, LDA- PD

So sánh

Trang 26

Đánh giá định lượng

P(i)@n chỉ ra độ chính xác @n cho mô hình (i), dựa trên khía cạnh được nhắm mục tiêu #C(i)st(correct@n) là số từ đúng được tìm thấy trong chủ đề st, cho rằng có ST chủ đề được tìm thấy theo

mô hình tôi #Cmt(words@n) là số từ đúng tối đa từ tất cả các mô hình

Trang 27

Đánh giá định lượng

Hai cài đặt so sánh: Hai cài đặt thử nghiệm khác nhau được sử dụng

để so sánh do các thuộc tính khác nhau của các mô hình ứng viên

So sánh LDA, DS-LDA, SS-LDA và LDA-PD với TTM

Đối với LDA-PD, sử dụng chính từ khóa đích (ví dụ: “Children”) để trích xuất tài liệu Đối với TTM, cũng sử dụng từ khóa mục tiêu để lập

mô hình được nhắm mục tiêu

Tương tự với LDA, DS-LDA, SS-LDA

Trang 28

Đánh giá định lượng

Độ chính xác trong cài đặt 1:

Trang 29

Đánh giá định lượng

So sánh LDA *, DS-LDA * và SS-LDA * với TTM

Các trình chú thích sử dụng Chiến lược tìm kiếm để xác định các chủ

đề có liên quan từ tất cả các mô hình ngoại trừ TTM

Có nghĩa là, từ khóa khía cạnh được nhắm mục tiêu được sử dụng để tìm kiếm trong 20 từ chủ đề hàng đầu trong mỗi chủ đề để tìm các chủ đề có thể liên quan đến mục tiêu Chỉ những chủ đề kết quả được đánh giá

Độ chính xác trong cài đặt 2:

Trang 30

Đánh giá định lượng

Độ chính xác trong cài đặt 2:

Trang 31

Đánh giá định tính

Ví dụ 1: E-cigarette và Children

Các chủ đề về khía cạnh “Children” dưới E-Cig.Các lỗi được in nghiêng và đánh dấu màu đỏ

Trang 32

Đánh giá định

tính

Ví dụ 2: Camera, Screen and Weight

Các chủ đề của hai khía cạnh Screen và Weight dưới Camera

Các lỗi được in nghiêng và đánh dấu màu đỏ

Trang 33

- Mô hình TTM tập trung vào việc tìm các chủ đề của một khía cạnh được nhắm mục tiêu để giúp người dùng thực hiện phân tích sâu hơn hoặc chi tiết hơn

- Các mô hình hiện tại không phải là phương pháp hiệu quả nhất để phân tích tập trung vì kết quả của chúng thường quá thô và chúng có thể không tìm thấy chủ đề mà người dùng thực sự quan tâm hoặc bỏ lỡ nhiều chi tiết.

- Kết quả thử nghiệm cho thấy thực tế đúng như vậy và mô hình mới được đề xuất vượt trội hơn rõ rệt so với các mô hình hiện đại hiện có.

5 Kết Luận

Trang 34

Phân tích

mở rộng 0

5

Trang 35

BiTTM: A Core Biterms-Based Topic Model for Targeted

Analysis

Ý tưởng chính của TTM là giới thiệu

một biến liên quan r để cho biết liệu một

câu có liên quan đến một khía cạnh cụ

thể hay không Biến r xác định xem mỗi

từ trong một câu được tạo ra bởi một

chủ đề có liên quan hay một chủ đề

không liên quan Hơn nữa, sự phân bố

chủ đề-từ có liên quan ϕr thưa thớt bởi vì

số lượng từ liên quan đến mục tiêu

thường ít hơn so với các từ không liên

quan

TTM xem xét trạng thái r ở cấp độ

câu Rất khó để xác định liệu một câu có

liên quan đến mục tiêu hay không khi

một câu chứa nhiều chủ đề Việc phân

định sai tình trạng câu sẽ ảnh hưởng

không tốt đến chất lượng các đề

Trang 36

BiTTM: A Core Biterms-Based Topic Model for Targeted

Analysis

BiTTM cải thiện chất lượng của các

chủ đề, giảm bớt việc mất chủ đề và

vượt trội hơn so với các đường cơ sở, đặc

biệt là đối với các từ khóa truy vấn có

tần suất thấp; chi phí thời gian của

BiTTM là vượt trội và ổn định nhất so với

các đường cơ sở, điều này chứng tỏ khả

năng ứng dụng cao của BiTTM trên các

bộ dữ liệu với các đặc điểm khác nhau

BiTTM có tính vượt trội hơn đáng kể

so với TTM

Trang 37

Link bài báo liên quan:

https://www.researchgate.net/publication/355834632_BiTTM_A_Core_Bi terms-Based_Topic_Model_for_Targeted_Analysis

Trang 38

Do you have

any questions?

Ngày đăng: 26/02/2023, 17:37

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w