1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc

139 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Giải Đồng Tham Chiếu Đối Tượng Cho Phân Tích Cảm Xúc
Tác giả Lê Thị Thủy
Người hướng dẫn GS. TS. Phan Thị Tươi
Trường học University of Science, Ho Chi Minh City (Đại Học Bách Khoa, Đại Học Quốc Gia TP. HCM)
Chuyên ngành Computer Science
Thể loại Luận Án Tiến Sĩ
Năm xuất bản 2022
Thành phố Ho Chi Minh City
Định dạng
Số trang 139
Dung lượng 7,48 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Dẻ giải quyết bài toán phán giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận án đe xuất xây dựng hệ thống với cách tiếp cận trên cơ sớ tri thức - ontology cám xúc, kết hợp các

Trang 1

ĐẠI HỌC QUỐC GIA TP HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

ĐẠI HỌC QUÓC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Phan biện độc lập: PGS TS Nguyễn Tuấn Đăng

Phản biện độc lập: PGS TS Lê Hoàng Thái

Phân biện: PGS TS Đinh Điền

Phản biện: PGS TS Đỗ Văn Nhơn

Phản biện: PGS TS Phạm Trần Vũ

NGƯỜI HƯỚNG DẢN:

1 GS TS PHAN THỊ TƯƠI

Trang 3

LỜI CAM ĐOAN

Tác gia xin cam đoan đây là công trinh nghiên cứu cua ban thân tác giá Các kết quà nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu (nếu có)

đã được thực hiện trích dẫn và ghi nguồn tài liệu tham kháo đúng quy định

Tác giả luận án

Chừ ký

Lê Thị Thủy

Trang 4

TÓM TẮT LUẬN ÁN

Phân giải đồng tham chiếu và phân tích cảm xúc là hai bài toán khá phố biến trong xứ lýngôn ngừ tự nhiên, được rất nhiều nhà nghiên cứu quan tâm với các cách tiếp cận khác nhau Đến nay đà cỏ nhiều công trình kết hợp bài toán phân giải đồng tham chiếu với bài toán phân tích cảm xúc nhằm nâng cao độ chính xác Đe bài toán phân tích cam xúc cóđược kết quả đầy đủ, chi tiết mang lại lợi ích thực tiễn, luận án đề xuất giải quyết bài toán

phân giãi đồng tham chiếu đoi tượng cho phân tích cám xúc Đây chính là mục tiêu của luận án Kốt quả cùa bài toán đề xuất là các bộ ba đối tượng, khía cạnh và cảm xúc của các san phấm hay dịch vụ trên một miền chuyên biệt Giới hạn cúa luận án được áp dụngtrên các vãn bàn cảm xúc tiếng Anh

Dẻ giải quyết bài toán phán giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận

án đe xuất xây dựng hệ thống với cách tiếp cận trên cơ sớ tri thức - ontology cám xúc, kết hợp các giải thuật xử lý ngôn ngữ tự nhiên và các phương pháp học máy, học sâu trênkho ngừ liệu văn bản có cám xúc, có ngừ cảnh Dựa trên đặc điểm của văn bàn cam xúc

và mục tiêu của bài toán, luận án cần giải quyết các vấn đe chính sau đây Thứ nhất, đềxuất ontology cám xúc và đo thị đong tham chiếu hỗ trợ giãi quyết bài toán cua luận án

Thứ hai, đề xuất mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cómột đối tượng Thứ ba, đề xuất mô hình làm giàu ontology cảm xúc cho miền chuyênbiệt Thứ tư, đề xuất mô hình xác định khía cạnh an trong văn bán cám xúc

Thứ năm, đề xuất mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc

có nhiều đối tượng Phần thực nghiệm cùa luận án được thực hiện trên kho ngừ liệu các văn bản cảm xúc bình luận về các sàn phẩm, dịch vụ trên trang web của Amazon và YouNetMedia. Các kết quá thực nghiệm phan ánh tính khả thi của các giai thuật, mô hình

đề xuất trong luận án

Trang 5

Coreference resolution and aspect-based sentiment analysis are popular problems innatural language processing (NLP) and are going under research by the NLP communitywith different approaches Up to now, many works combine co-referencing resolution into the sentiment analysis problem to improve accuracy In order for the sentimentanalysis problem to have complete and detailed results that bring practical benefits, thethesis proposes to solve the object coreference resolution problem for sentiment analysis.This is the aim of the thesis Results of the problem are triplets of object-aspcct-sentiment, which belong to special products or services on a domain The limit of the thesis is applied

to English sentiment texts

To build object coreference resolution in sentiment analysis, the thesis proposes a fairly popular knowledge-based approach, sentiment ontology, combining natural languageprocessing algorithms, machine learning, and deep learning on contextual sentiment corpus Based on the characteristics of the sentiment text and the goal of the problem, thethesis must solve the following problems Firstly, the thesis proposes sentiment ontology and the coreference graph to support the problem of object coreference resolution insentiment analysis Secondly, the thesis proposes the model of object coreferenceresolution on texts with one object Thirdly, the thesis proposes the instance-based enrichment of the sentiment ontology model depending on the special domain Fourthly, the thesis proposes the implicit aspect identification model in sentiment texts Finally, thethesis proposes object coreference resolution in sentiment analysis with more than one object The experiments of the thesis are carried out on the corpus of sentiment textscommenting on products and services on the Amazon website and the YouNelMediaCompany The experimental results reflect the feasibility of the proposed algorithms and models in the thesis

Trang 6

LỜI CẢM ƠN

Trong quá trinh hoàn thành luận án, tôi đã được các Thầy Cô nưi cơ sở đào tạo giúp đờ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và gia đình cùng bạn bè thường xuyên động viên khích lệ

Luận án này đã được hoàn thành với sự hướng dẫn tận tình, giúp đỡ và sự động viên quýbáu rất nhiều từ GS.TS Phan Thị Tươi, cán bộ hướng dẫn mà tôi tôn trọng và bày tỏ lòng biết ơn sâu sắc nhất

Qua đây, tôi bày tỏ lòng biết ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách Khoa Tp.Hồ Chí Minh dã tạo điều kiện thuận lợi cho tôi trong quátrinh học tập và nghiên cứu tại Khoa

Lời cảm ơn cua tôi xin được gưi đốn Phòng Quan lý Sau Đại học về sự hỗ trự các thii tụctrong quá trình hoàn thành luận án

Đồng thời, tôi muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa Tp.HCM, PhòngKhoa học Công nghệ & Dự án, Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện

đề tài cấp trường năm 2016

Cuối cùng tôi cám ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những lời độngviên khích lệ quí báu giúp tôi vượt qua khó khăn để hoàn thành tốt luận án

Tác giả luận án

Lê Thị Thủy

Trang 7

MỤC LỤC

DANH MỤC CÁC HÌNH ẢNH vii

DANH MỤC BẢNG BIẾU ix

DANH MỤC CÁC TỪ VIẾT TẨT X CHƯƠNG I GIỚI THIỆU I 1.1 Động cơ nghiên cứu 1

1.2 Mục tiêu và phạm vi nghiên cứu 3

1.3 Mô hình đề xuất 5

1.4 Đóng góp chính cùa luận án 10

1.5 Cấu trúc cùa luận án 13

CHƯƠNG 2 CÁC NGHIÊN cửu LIÊN ỌUAN VÀ CÁC KIẺN THỨC NÈN TẢNG 14

2.1 Phân giải đồng tham chiếu 14

2.2 Phân tích cảm xúc 15

2.3 Phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc 19

2.4 Xác định khía cạnh ẩn 25

2.5 Ontology cảm xúc và làm giàu ontology 27

2.6 Các kiến thức nền tang 33

2.6.1 Mạng nơ-ron nhân tạo - ANN 33

2.6.2 Mô hình ngôn ngữ - Tiền huấn luyện 35

2.7 Kết luận 38

CHƯƠNG 3 PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CÁM XÚC CÓ MỘT ĐỐI TƯỢNG 39

3.1 Mô hình xác định khía cạnh ân - IAI 39

3.1.1 Giới thiệu 39

3.1.2 Tiền xứ lý dữ liệu 41

3.1.3 Mô hình xác định khía cạnh ẩn 42

3.1.4 Thực nghiệm 46

3.2 Mô hình phàn giải đồng tham chiếu đối tượng cho phân tích cảm xúc có một đối tượng 53

3.2.1 Parse - Phân tích cú pháp 54

3.2.2 Anaphora & Entity CR - Phân giái dồng tham chiếu đại từ và thực thế 55

Trang 8

3.2.3 Aspect-based sentiment analysis - Phân tích cảm xúc mức khía cạnh 56

3.2.4 Ontology cảm xúc 56

3.2.5 Đồ thị đồng tham chiếu (CoRcfcrcncc Graph - CRG) 59

3.2.6 Mô-đun OBASCore 60

3.2.7 Kết quả thực nghiệm 63

3.2.8 Đánh giá thực nghiệm 65

3.3 Kết luận 66

CHƯƠNG 4 LÀM GIÀU ONTOLOGY CAM xúc HÒ TRỢ PHÂN GIAI ĐỎNG THAM CHIÉƯ CHO PHÂN TÍCH CÁM xúc 67

4.1 Giới thiệu 67

4.2 Mô hình làm giàu ontology cảm xúc ESO (Enriched Sentiment Ontology) 68

4.3 Thực nghiệm và đánh giá 75

4.4 Kết luận 79

CHƯƠNG 5 PHÂN GIAI ĐÒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CÁM XÚC CÓ NHIỀU ĐỐI TƯỢNG 80

5.1 Đặt vấn đề 80

5.2 Mô hình phân giải đồng tham chiểu cho phân tích cảm xúc có nhiều đối tượng -CRO AS 81

5.2.1 Giai đoạn huấn luyện 81

5.2.2 Giai đoạn thử nghiệm 86

5.2.3 Đánh giá thực nghiệm 90

5.3 Kết luận 97

CHƯƠNG 6 KẾT LUẬN 99

6.1 Kết quả đạt được 99

6.2 Hướng phát triển 102

CÁC TÀI LIỆU CÒNG BÓ CUA TÁC GIA LIÊN QUAN ĐẾN LUẬN ÁN 103

TÀI LIỆU THAM KHẢO 104

PHỤ LỤC 118

Trang 9

DANH MỤC CÁC HÌNH ẢNH

Hình I I Mô hình phân giải đồng tham chiếu đốitượng cho phân tích cảm xúc 6

Hinh 2.1 Kiến trúc mô hình 0AC2 hướng tri thức [87] 22

Hình 2.2 Ví dụ ontology tổng quát [8] 28

Hình 2.3 T-Box của ontology công nghiệp [8] 29

Hình 2.4 A-Box cùa ontology công nghiệp [8] 29

Hình 2.5 Tống quan OntoSenticNet [104] 31

Hình 2.6 Kiến trúc làm giàu ontology [113] 32

Hình 2.7 Một nơ-ron nhân tạo - Perceptron 34

Hình 2.8 Kiến trúc mạng nơ-ron nhân tạo ANN 34

Hình 2.9 Word embedding của từ “king” và “queen” 36

Hình 2.10 Word embeddings của từ “bank” không ngữ cánh 36

Hình 2.11 Biểu diễn đầu vào của mô hình BERT [92] 37

Hình 3.1 Kho ngừ liệu có chứa các dấu hiệu xác định khía cạnh ân của “beautiful” 40

Hình 3.2 Kiến trúc mô hình xác định khía cạnh an IAI 43

Hình 3.3 Kiến trúc mạng nơ ron nhân tạo 2 tang ẩn - mô-đun Training 45

Mô-đun Training có 69.905 mẫu dừ liệu được trích xuất từ Corpus 12 với 389.103 vãn bản cảm xúc về điện thoại thông minh (smartphone), trong đó: dừ liệu huấn luyện có 64.374 mầu và dừ liệu thư nghiệm có 5.598 mầu và độ chính xác 0,82 Dịnh dạng của Corpus 12 được mô tả chi tiết như Hình 3.4, trong đó: 47

Hình 3.5 Minh họa định dạng dừ liệu cùa Corpus 12 47

Hình 3.6 So sánh mô hình 1AI với phương pháp ML-KB* 53

Hình 3.7 Mô hình phân giải đồng tham chiếu cho phân tích cãm xúc có một đối tượng 55

Hình 3.8 Kiến trúc Ontology cảm xúc 58

Hình 3.9 Đồ thị CRG của Ví dụ 3.8 62

Hình 3.10 Giải thuật của mô-đun OBASCore 61

Hình 3.11 Đồ thị CRG cùa Ví dụ 3.8 sau bước 5 của giãi thuật Hình 3.10 62

Hình 3.12 CRG của Ví dụ 3.8 được thực hiện bởi giải thuật Hình 3.10 63

Hình 4.1 Mô hình đề xuất ESO làm giàu ontology cảm xúc 69

Hình 4.2 Quan hệ văn phạm “compound” [146] 69

Hình 4.3 Tập từ đồng nghĩa của danh từ “quality” trong WordNet 70

Hình 4.4 Cấu trúc phân cấp cùa từ “quality” với nghĩa đầu tiên 70

Hình 4.5 Cấu trúc phân cấp của WordNet 72

Hình 4.6 Cấu trúc phân cấp của WordNet 74

Hình 4.7 Cấu trúc của Opinion Lexicon (OL) [138] 74

Hình 4.8 Hiệu quả mô hình ESO trên 614 câu 78

Hình 5.1 Kiến trúc của mô hình CROAS 81

Hình 5.2 Mô-đun Training của mô hình CROAS 82

Trang 10

Hình 5.3 Mạng nơ-ron xác định bộ trọng số W2 83Hình 5.4 Kết quá phân lớp của Ví dụ 5.1 89

Hình 5.6 Mối quan hệ giữa khoảng cách Euclid trung bình và số buớc lặp của mô-đun huấn luyện với 300.000 và 500.000 bước tiền huấn luyện 93Hình 5.7 Kết quà mô-đun phân lớp trên DI và D2 với (a) 300.000 và (b) 500.000 bước tiền huấn luyện 94Hình 5.8 Kết quà mô-đun phàn lóp trên ví dụ 4 với (a) 300.000 và (b) 500.000 bước

tiền huấn luyện 94Hình 5.9 Đánh giá kết quả CROAS trên 1.000 văn bản cảm xúc 97

Trang 11

DANH MỤC BẢNG BIỂU

Bảng 2.1 Danh sách các đặc trưng được sử dụng trong [6] 20

Bảng 3.1 Tập dừ liệu của mô-đun Fine-Tuning 1 48

Bảng 3.2 Tập dừ liệu của mô-đun Fine-Tuning2 48

Báng 3.3 Thống kê số khía cạnh theo từ cảm xúc trong miền dừ liệu smartphone 49

Báng 3.4 Các tham số cùa các mô-đun Training, Fine-Tuningl và Fine-Tuning2 50

Bảng 3.5 So sánh độ chinh xác của Fine-Tuning 1 và Fine-Tuning2 50

Bảng 3.6 Mô tá tập dữ liệu smartphone dùng cho đánh giá thực nghiệm mô hình IAI 51 Báng 3.7 Bảng so sánh mô hình 1AI và ML-KB* trên Documents có 110 văn bản về smartphone 52

Báng 3.8 Kct quá thực nghiệm cho 320 văn bản có cảm xúc ve smartphone 64

Báng 3.9 Phương pháp đánh giá mô hình Hình 3.7 65

Bảng 3.10 Kết quả đánh giá thực nghiệm cùa mô hình ở Hình 3.7 với 320 văn bản 65

Bảng 4.1 Ket quả SSW của “quality” và ba lớp con của lớp Aspect 73

Bảng 4.2 Một số quan hệ cùa vàn phạm phụ thuộc 75

Bảng 4.3 Bảng mô tả so trước khi làm giàu và tập dừ liệu thực nghiệm 76

Bảng 4.4 Ket quả làm giàu dữ liệu của ESO trên 614 câu văn bản cảm xúc 76

Báng 4.5 Đánh giá kết quá thực nghiệm mô hình ESO trên 614 câu 'll Bảng 4.6 Đánh giá hiệu quả của so sau khi được làm giàu dừ liệu 78

Bảng 5.1 Véc-tơ ngữ cảnh của các từ trong Ví dụ 5.2 85

Báng 5.2 Sử dụng so lọc ra các đối tượng, khía cạnh, cảm xúc 85

Báng 5.3 Bộ dừ liệu huấn luyện của mô-đun Training 86

Báng 5.4 Mầu dữ liệu Classifying từ văn bản Ví dụ 5.1 88

Báng 5.5 Kết quá phân lớp cua Ví dụ 5.1 88

Báng 5.6 Các thông số cài đặt của Pre-training và Training 91

Báng 5.7 Kết quá huấn luyện trên Corpusl với 300.000 bước tiền huấn luyện 92

Bảng 5.8 Kết quá huấn luyện trên Corpusl với 500.000 bước tiền huấn luyện 92

Báng 5.9 Kết quả đánh giá CROAS trên 1.000 văn bàn bình luận VC smartphone 95

Bảng 5.10 So sánh kết quả thực nghiệm của CROAS và hai công trình Baseline 96

Bảng 5.11 Kết quả thực nghiệm của CROAS 96

Trang 12

DANH MỤC CÁC TÙ VIÉT TẤT

Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt

CR Coreference Resolution Phân giải đồng tham chiếu

ACR Anaphora Coreference Resolution Phân giải đồng tham chiếu đại từ

NLP Natural Language Processing Xử lý ngôn ngừ tự nhiên

SSW Semantic Similarity between Words Độ tương tự ngữ nghĩa giữa các từCROAS Corcfcrcncc Resolution for Object

Aspect Sentiment

Đồng tham chiếu đối tượng, khíacạnh • và cảm xúc

ECW Embedding Context Word Nhúng từ có ngừ cành

OCRIObj Object Coreference Resolution with

TF-IDF Term Frequency - Inverse Document

Frequency

OL Opinion Lexical

PMI Pointwise Mutual Information

Trang 13

CHƯƠNG 1 GIÓI THIỆU

1.1 Động CO’ nghiên cửu

Phân giải đồng tham chiếu là một bài toán khá phổ biến trong lĩnh vực Xứ lý ngônngữ tự nhiên, được áp dụng trong tóm tắt văn bản, rút trích thông tin, hệ thống hỏi đáp, phân tích cảm xúc, v.v Trong vãn bán, một đổi tượng hay khia cạnh của một đối tượng

có thể được nhắc nhiều lần bời chính cụm từ ban đầu hoặc có thể là những cụm từ khác,nhưng người đọc vẫn tham chiếu được đoi tượng hay khía cạnh đô Các cụm từ khác này là một tên gọi ngắn gọn hơn, hay các đại từ, danh từ Đê hiểu được nội dung một đoạn hay toàn bộ văn bản, thì người đọc phải nối ý của các câu với nhau Trong đó, quan trọng nhất là liên kết các từ thay thế với các từ chi đổi tượng được đề cập ớ những câutrước trong văn bản Việc xác định sự liên kết (sự tham chiếu) của các cụm từ cùng chỉđến một dối tượng trong văn bán dược gọi là bài toán phân giải đồng tham chiếu trong

Đồng tham chiếu đối tượng và khỉa cạnh lỏi là nghiên cứu nhằm nâng cao hiệu quả của bài toán phân tích cám xúc, đóng vai trò quan trọng vì giải quyết vấn đe làm mấthay gán sai thông tin về cảm xúc, quan diêm cho các thực thê liên quan Ví dụ: ‘7 bought

a Canon S500 camera yesterday, ỉt looked beautiful I took a few photos last night They were amazing." Trong câu thứ nhất, “a Canon S500 camera” là đổi tượng được thamchiếu bởi từ “It” trong câu thứ 2 Trong câu thử ba, “photos” là thuộc tinh của đối tượng

“Canon S500 camera” được tham chiếu bởi “They” trong câu thứ tư Bài toán phân giải

Trang 14

đồng tham chiểu đối tượng và khía cạnh xác định các đề cập đến đối tượng và thuộc tính

tham chiêu đên cùng một thực thê

Hiện nay, do sự đa dạng về mặt hàng cùng loại sản phẩm, nhu cầu của con ngườicàng ngày khat khc trong việc lựa chọn sản phẩm và với công nghệ Internet, mạng xã hội toàn cầu phát triển mạnh nên nguồn dữ liệu văn bản có nhiều ỳ kiến về các sản phẩm trên các trang web ngày một giàu và phong phú Những đoạn văn bán có ý kiến đó gọi

là văn bản có cảm xúc và việc quan tâm đến vấn đề phân tích vãn bàn câm xúc cũng là một nhu cau tat yếu của thực tiễn và khoa học

Phân tích cảm xúc (Sentiment analysis) 171 hay còn gọi là khai phá ỷ kiến (Opinionmining) là một lĩnh vực phân tích ý kiến, tình cảm, sự ước lượng, sự đánh giá, thái độ

và cảm xúc cua con người về các thực thê như sán phấm, dịch vụ, tổ chức, cá nhân, vấn

đề, sự kiện, chù đề và các thuộc tính của chúng Bài toán phân tích cảm xúc vần đang là một vấn đề được khá nhiều công trình nghiên cứu quan tâm và bài toán được chia thành nhiều mức Thứ nhất là phân tích cảm xúc mức văn bản, thứ hai là mức câu, và chi tiết hơn là mức khía cạnh

Bài toán phán tích cám xúc ớ mức văn bán là bài toán đưn giàn nhất trong phân líchcảm xúc, với việc xác định tổng thể tính phân cực của văn bản là tích cực, tiêu cực hay trung lập Nhiệm vụ này thường được xem là bài toán phân lớp câm xúc mức văn bản

Bài toán phân tích cảm xúc ở mức cáu xác định mỗi câu trong văn ban có giá trị tích cực, tiêu cực hay trung lập, phân tích cảm xúc ở mức này sâu hơn mức văn bàn

Phán tích cảm xúc mức khía cạnh là xác định cảm xúc hay ý kiến nhận xét về các khía cạnh hoặc đổi tượng được đề cập trong văn bán Nói cụ the hơn, ngoài việc đánh giá cảm nhận tích cực hay tiêu cực của một khía cạnh, đổi tượng bằng một từ căm xúcthì các đối lượng có thế là sản phẩm hay khía cạnh cũng phái được xác định cụ thể Ví

dụ, câu “ although the service is not that great, I still love this restaurant" có tính tích cực ve “restaurant” nhưng tiêu cực về “service” Do đó phân tích cám xúc ờ mức khía cạnh được coi là phức tạp hơn so với hai mức trên

Tuy có nhiều phương pháp tiếp cận cho bài toán phân tích cảm xúc ở các mức,nhưng các tiếp cận này cũng chí mới dừng ở kết quả văn bán, câu hay khía cạnh và đổi

Trang 15

tượng được đề cập có tính phân cực gì về cảm xúc mà vẫn chưa quan tâm mối quan hệ

giữa cám xúc, klỉía cạnh và đối tượng Van đề nghiên cứu còn để mở này chính là động

cơ nghiên cửu của luận án

1.2 Mục tiêu và phạm vi nghiên cứu

Mục tiêu của luận án là xây dựng mô hình phân giải đồng tham chiếu đối tượngcho phân tích cảm xúc có một và nhiều đối tượng đê xác định được các hộ ha đối tượng,

khiu cạnh và cam xúc từ các văn bàn cam xúc có một hoặc nhiều đối tượng Đe đạt

được mục tiêu trên, trước tiên luận án giải quyết bài toán 1 “Phân giải đồng tham chiếu

đối tượng cho phân tích cam xúc có một đối tượng ” (được trình bày chương 3). Đẻ giảiquyết bài toán 1, luận án đã nghiên cứu và tiếp cận các phương pháp và công cụ hỗ trợ như dồ thị dồng tham chiếu, ontology và xác định khía cạnh ấn dể giải quyết triệt để và nâng cao hiệu quả cho bài toán 1 Trong quá trình giãi quyết bài toán 1, luận án đã nghiên cứu và tiếp cận giải quyết bài toán 2 “Làm giàu ontology- cảm xúc ” và bài toán 3 “Xác định khỉa cạnh ân ”. Cuối cùng, luận án tiếp cận và giai quyết bài toán 4 “Phân giải đồng

tham chiếu đối tượng cho phản tích cảm xúc có nhiều đổi tượng Đe giải quyết được bài toán 4, là vấn đề khó, vì chưa có công trình nào công bố trước đó Luận án đã nghiên cứu các phương pháp tiếp cận, và cuối cùng đã chọn phương pháp học sâu, có ứng dụng

mô hình ngôn ngữ BERT

Trước khi đi vào chi tiết mục tiêu, luận án đưa ra các định nghía, khái niệm của một

số thuật ngừ được sử dụng trong luận án

- Đối tượng (Object) là một khái niệm chi đến một thực thể hay là một tên riêng cua

một sân phẩm, đồ vật cụ thê Ví dụ: Samsung Galaxy Note7, iPhone 6S là tên riêng chi đến đối tượng là điện thoại di động

- Khia cạnh (Aspect) là một khái niệm đề cập đến một thành phần (component) hay

một thuộc tính (tính chất - attribute) của một đối tượng Ví dụ như pin (battery) làmột thành phần cùa smartphone, thiết kế (design), giá thành (price) là các thuộc tinh của smartphone, v.v

- Cảm xúc (Sentiment) là nhừng khái niệm gồm những từ mang cảm xúc, ý kiến về

một khía cạnh của đối tượng Cám xúc có the là tích cực (khen), trung lập (không

Trang 16

khen, không chê) và tiêu cực (chê, phê bình) Ví dụ, beautiful (tích cực), normal (trung lập), bad (tiêu cực).

Việc xác định cảm xúc cho một khía cạnh của một đối tượng cụ thể cho thấy chitiết hơn về chất lượng của một san phẩm mà một khách hàng quan tâm Trên cơ sớ phân giải đồng tham chiếu trên văn bản có cám xúc, tác giả luận án đề xuất (1) bài toán phân giải đồng tham chiểu đối tượng de tìm ra bộ ba gồm đổi tượng, khiu cạnh và câm xúc.

Tuy nhiên với văn ban có từ hai đối tượng trở lên thì việc tìm ra các khía cạnh, cảmxúc thuộc về đối tượng nào sẽ khó hơn rất nhiều Xét ví dụ sau:

Ví dụ 1.1: ‘7 gave my 6s plus to my wife and bought for myself an Apple iPhone?

two days ago iPhone? is beautiful The battery is amazing But what I really appreciate

is the speaker producing good sound and its 128g storage."

Trong Ví dụ 1.1 xuất hiện hai đối tượng “Ố5 plus" và “ Apple iPhone?" (nói ngắn gọn

“ iPhone?") Ngoài ra có một số các khía cạnh như “ battery", “speaker", “sound",

“ storage" và các từ cảm xúc “beautiful", “ amazing", “appreciate", “good". Vậy các từchỉ khía cạnh và cảm xúc này sẽ đề cập đến đối tượng nào trong hai đối tượng trên

Với người đọc có thể dễ nhận thấy các cặp khía cạnh - cam xúc như: “ battery" -

“ amazing", “ speaker" - “ appreciate", “ sound" - “ good" “ beautiful - khía cạnh ân"

cùng nói về “Apple iPhone?" Với văn bản có từ hai đối tượng trớ lên, việc xác dịnhkhía cạnh, cảm xúc cho đối tượng cụ thê trở nên phức tạp hơn

Dựa trẽn đặc điềm của loại văn bản yêu cầu cúa bài toán đặt ra và các tiếp cận hiện nay, luận án đề xuất (2) hướng giải quyết đồng tham chiếu đối tượng trên cư sớ cám

xúc từ văn bủn đưn gian chỉ có một đối tượng den ván bán có từ hai doi tượng trở lên.

Trong thực tế, các văn bản cảm xúc đề cập từ hai đối tượng trờ lên khá nhiều, vìkhách hàng thường có sự so sánh các sản phẩm với nhau Với các văn bản đề cập nhiều hơn một đối tượng, đe xác định khía cạnh và cám xúc cua đối tượng nào là vấn đe trọng tâm của bài toán phân giái đồng tham chiếu đối tượng cho phân tích càm xúc Hiện nay, vấn đề này còn rất ít công trình khoa học được công bố

Phạm vi nghiên cứu của luận án được thực nghiệm trên các vãn bàn có cảm xúc, bình luận và nhận xét về các sản phẩm bằng tiếng Anh Vì nguồn dừ liệu tiếng Anh

Trang 17

phong phú và các công cụ hồ trợ trong xử lý ngôn ngữ tự nhiên cho văn bán tiếng Anh rất mạnh nên luận án chọn văn bản cảm xúc bàng tiếng Anh để nghiên cứu và thực

đên một đôi tượng

OCR2()bj: Mô-đun phân giải đồng tham chiếu đối tượng trong văn bản đề cập, có

từ hai đối tượng trờ lên

EMBEDDING CONTEXT WORD (ECW): Mô-đun chuyển đổi các từ thành cácvéc-tơ dựa theo ngữ canh trái và phái cùa các từ trong một câu cua một đoạn văn bán

COREFERENCE RESOLUTION: Sư dụng đồ thị đồng tham chiếu để truy xuất

bộ ba: đối tượng - khía cạnh - cảm xúc về các đối tượng được đề cập trong văn bản

SENTIMENT ONTOLOGY: Cơ sớ tri thức chứa các thể hiện cúa đối tượng, khía cạnh, cam xúc về một loại san phẩm và mối quan hệ giữa các thành phần

POPULATION: Mô-đun làm giàu cơ sở tri thức ontology câm xúc SENTIMENTONTOLOGY

TRIPLETS OF OBJECT - ASPECT - SENTIMENT: Ket qua cùa mô hình là các bộ ba: đối tượng - khía cạnh - cảm xúc về các đối tượng trong Document

Nhiệm vụ cứa mô hình: Từ một văn bản dược phân tích cú pháp và chuyển dối các

từ thành các véc-tơ số, mô hình sẽ nhận diện các thành phần dựa vào ontology cám xúc,

Trang 18

xác định số đối tượng được đề cập trong vãn bán Nếu sổ đối tượng lớn hon 1 (Obj > 1)thì bài toán phân giải đồng tham chiếu đổi tượng được thực hiện theo mô-đun OCR2Obj,ngược lại bài toán thực hiện theo mô-đun OCRIObj Sau khi xác định được các thành phần và các cặp, như đối tượng - cảm xúc, đối tượng - khía cạnh, khía cạnh - cảm xúc, v.v thì các thành phần và mối quan hệ giữa chúng được đưa vào một đồ thị đồng thamchiếu có hướng và có trọng số CRG Áp dụng các thuật toán tìm kiếm trên đồ thị xác định được các bộ ba đối tượng - khía cạnh - cảm xúc.

Document

I gave WT ứĩ pỉur ĩữ nạ- wịfe and bough for myself an Apple iPhone ~ nt ữ days ago

COREFERENCE RESOLUTION

Trang 19

•> *> r 1 \ /

Đê hiêu chi tiêt hơn vê các mô-đun và lý do đê xuât mô hình, trong chương 2 luận

án sẽ trình bày các nghiên cứu liên quan: bài toán phân tích cảm xúc mức khía cạnh, bàitoán phân giải đong tham chiếu, ontology cảm xúc, v.v Với mỗi bài toán, luận án sẽtrình bày các phương pháp đã và đang được quan tâm và đưa ra các điếm còn hạn chế

Từ đó khẳng định giải pháp đề xuất của tác già là cần thiết

Đe xây dựng mô hình phân giái đồng tham chiểu đối tượng cho phân tích cám xúc, luận án cần giải quyết một số bài toán sau

Bài toán 1: Phân giải đồng tham chiếu đổi tượng cho phân tích cam xúc có một đỏi

tượng - OCRIObj

Với văn bàn có một đối tượng, giải quyết bài toán phân giải đồng tham chiếu đốitượng sẽ dựa vào cơ sở tri thức Văn bán câm xúc chi đề cập đến một đối tượng thì từ,cụm lừ chi khía cạnh, cảm xúc đều tham chiếu đến một đối tượng duy nhất Yêu cầu đặt

ra của bài toán là phải xác định được từ, cụm từ nào chì khía cạnh, cảm xúc và đối tượng

Đe hồ trợ xác định cảm xúc, khía cạnh và đối tượng chính xác, luận án đề xuất xây dựng

cơ sở tri thức chuyên biệt cho bài toán phân giải đồng tham chiếu đổi tượng, đó là ontology cám xúc Đây là một mục tiêu cua luận án

Ontology cảm xúc là một cơ sớ tri thức được chia làm ba lớp Object, Aspect và Sentiment bao gồm các từ, cụm từ chi đối tượng, khía cạnh và cảm xúc Ngoài ra nó xác định được các mối quan hệ trong bộ ba, từ đó hỗ trợ xác định khía cạnh ấn cho cam xúc, giải quyết đồng tham chiếu thực thể có tên và xác định từ cảm xúc là tích cực, tiêu cực hay trung lập

Các mối quan hệ giữa các thành phần đối tượng, khía cạnh và cảm xúc trong văn bán được tổng hợp từ đồng tham chiếu đại từ và thực thề có tên, kết hợp với các mối quan

hệ ngữ nghĩa (dược xác dịnh bằng văn phạm phụ thuộc) trong câu Các thành phần này được kết nổi thông qua một đồ thị đồng tham chiếu và từ đó rút ra được các bộ ba đổitượng - khía cạnh - càm xúc

Đồ thị đồng tham chiếu là một đồ thị có hướng và trọng số, với các đinh là các từ,cụm từ được xác định từ đồng tham chiếu đại từ và thực thể có tên Các cạnh có hướng

và trọng sổ dược gán theo mối quan hệ giữa các thành phần trong ontology cảm xúc

Trang 20

Phương pháp giai quyết cho bài toán phân giải đồng tham chiếu đối tượng cho vãn bảnmột đối tượng được trình bày chi tiết trong chương 3.

Để giải quyết Bài toán 1, luận án đề xuất xây dựng:

- ontology cám xúc (Sentiment Ontology-SO) hồ trợ phân giải đồng tham chiếu

đối tượng

- đồ thị đồng tham chiếu (CoReference Graph-CRG) để xác định bộ ba đối tượng,

khía cạnh và ý kiến (Obj-Asp-Sen)

- mô hình phân giải đồng tham chiếu (một) đối tượng

Nội dung liên quan đến đóng góp này được công bố trong các công trình [Error! R

eference source not found.], [Error! Reference source not found.].

Bài toán 2: Làm giàu ontology cảm xúc hỗ trợ phân giải đồng tham chiếu đối tượng

Ontology cảm xúc so là một công cụ hồ trợ đẳc lực cho bài toán phân giải đồng tham chiếu đối tượng trên cơ sớ cảm xúc Đe nâng cao hiệu quả việc nhận dạng các từ,cụm từ thuộc về thành phần nào trong bộ ba Obj-Asp-Sen thì ontology cảm xúc cầnchứa nhiều từ, cụm từ chỉ đối tượng, khía cạnh và cảm xúc có trong văn bán cảm xúc Việc lưu trữ đầy đủ các từ, cụm từ là một vấn đồ không thê đạt được Nhưng hiện nay với lượng thông tin khống lồ trên các trang mạng sẽ là kho ngừ liệu đũ lớn đế có thế rút trích các thông tin cần thiết và lưu trữ trong so Luận án đã xây dựng mô hình làm giàu ontology cảm xúc (Enriched Sentiment Ontology - ESO) dựa trên các the hiện (instance) cứa các lóp Dây là một nhu cầu cần thiết cúa bài toán phân giái đồng tham chiếu đốitượng cho phân tích cảm xúc

Cách tiếp cận đe xây dựng mô hình ESO là sự kết họp phương pháp dựa theo luật,phương pháp lính độ tương tự ngữ nghĩa giữa các từ và xác định phân cực câm xúc dựa trên các bộ từ vựng khá phô dụng như WordNet và Opinion Lexicon trong lình vực xử

lý ngôn ngừ tự nhiên

Mục tiêu của Bài toán 2 là làm giàu thông tin về tên các sản phâm, các khía cạnh vàcác từ cảm xúc tích cực, tiêu cực hay trung lập

Trang 21

Nội dung liên quan đến đóng góp này được công bố trong công trình [Error! R

eference source not found.].

Bài toán 3: Xác định khỉa cạnh ẩn hỗ trọ phân giai dồng tham chiếu dổi tượng.

Khía cạnh là các đặc điếm, tính chất hay thuộc tính cúa một đối tượng trong văn bản

có ý kiến, thường được đề cập trong văn bản và đi kèm với nó là các từ chỉ cảm xúc, ý kiến Với những khía cạnh xuất hiện tường minh trong văn ban thì việc xác định và rút trích chúng sẽ dễ dàng, tuy nhiên vẫn tồn tại nhiều khía cạnh thường được đề cập đếnthông qua các từ chỉ cảm xúc trong ngừ cảnh cụ thể thuộc miền chuyên biệt của văn bản, gọi là khía cạnh ấn Việc xác định khía cạnh ẩn gặp nhiều khó khăn vì một từ chi cảmxúc không chỉ tham chiếu đến một mà có thè nhiều khía cạnh, tùy thuộc vào ngữ cảnh thuộc miền xác định cua văn bản Dựa trên tập dừ liệu lớn là các văn bán cám xúc haycòn gọi là kho ngừ liệu, có nhiều thông tin, dấu hiệu về các khía cạnh tường minh vàkhông tường minh, luận án đề xuất tiếp cách giải quyết bài toán là sử dụng véc-to ngữcảnh cùng với máy học, học sâu đế tìm ra mô hình xác định khía cạnh ấn, hỗ trợ phângiải đồng tham chiếu đối tượng cho phân tích cảm xúc

Mục tiêu cùa bài toán 3:

- Xây dựng mô hình xác định khía cạnh ẩn hồ trợ phân giải đồng tham chiếu đổi

từ, cụm từ chi khía cạnh và cám xúc chắc chắn tham chiếu đến đối tượng duy nhất trong vãn bản Dựa vào mối quan hệ trong bộ ba đối tượng - khía cạnh - cảm xúc của các vãn

Trang 22

ban có một đối tượng để làm cơ sở, từ đó xác định mối quan hệ giữa khía cạnh, cảm xúcvới các đối tượng trong văn bản có nhiều đối tượng.

Mục tiêu của Bài toán 4 :

- Xác định mô hình sinh vẻc-tơ ngữ cánh cho vãn bán cảm xúc theo miền

- Xây dựng mô hình phân giái đồng tham chiếu đối tượng - khía cạnh - cảm xúc

cho các văn bản có ỷ kiến đề cập từ hai đối tượng trở lên

Nội dung liên quan đen đóng góp này dược công bố trong công trình [11

1.4 Đóng góp chính của luận án

Các đóng góp chính của luận án bao gồm:

• Đóng góp thứ nhất: Xây dựng ontology câm xúc so và đỏ thị đông tham chiêu

CRG hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cám xúc.

Ontology cảm xúc so được xây dựng bán tự động dựa trên ontology của [8] Vớimục tiêu nhận dạng các từ, cụm từ chi đối tượng, khía cạnh và cảm xúc bàng ontology, kiến trúc cúa ontology bao gồm có ba lớp chính là Object, Aspect và Sentiment Trong mồi lớp sẽ có các lớp con tùy theo miền chuyên biệt, ví dụ ontology cảm xúc về smartphone thì trong Object có các lớp con như Samsung, iPhone, v.v Trong Aspect có Device, Attribute và Application; trong Sentiment có Positive,Negative và Neutral Ngoài việc nhận dạng các thành phần cùa bộ ba đối tượng, khía cạnh và cảm xúc, ontology cảm xúc có thể:

- xác định khía cạnh không tường minh cho cám xúc;

- xác định khía cạnh với đối tượng;

- giải quyết đồng tham chiếu thực thể có tên;

- xác định cảm xúc là tích cực, tiêu cực hay trung lập;

- xác định mối quan hệ giữa các thành phần trong bộ ba

Công cụ thứ hai hồ trợ giái quyết bài toán phân giải đồng tham chiếu dó là đồ thị đồng tham chiếu (CRG), là công cụ cuối cùng để sinh ra các bộ ba đối tượng, khía cạnh và cảm xúc CRG là đồ thị có hướng và có trọng số với mỗi đinh là các từ, cụm

từ thuộc bộ đong tham chiểu đại từ, thực the có tên hoặc bộ phân tích cám xúc mức

Trang 23

khía cạnh Trọng số của mồi cạnh là khoáng cách giữa các lớp mà mỗi từ, cụm từthuộc về lớp đó Luận án áp dụng các thuật toán tìm kiếm, duyệt cây đề xác định các

bộ ba đối tượng - khia cạnh - câm xúc trên một miền chuyên biệt

Đóng góp thứ nhất được công bố trong các công trình [Error! Reference source n

ot found Error! Reference source not found.]

• Đóng góp thứ hai: Mô hình phân giãi đông tham chiêu đôi tượng cho phân tích

cảm xúc cho văn bàn có một đối tượng.

Từ đóng góp thứ nhất, luận án xây dựng đưọc mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn bàn có một đối tượng Trọng tâm của môhình là mô-đun OBASCore Mô hình sử dụng ontology nhận dạng đối tượng, khíacạnh và cam xúc dựa trên kết quả cua phân giải đồng tham chiếu đại từ, thực the có tên (ký hiệu Core) và phân tích cảm xúc mức khía cạnh (ký hiệu Sen) Sau đó, OBASCore kết nối các kết quá cúa Core và Sen trẽn đồ thị đồng tham chiểu CRG vàsuy luận ra bộ ba đồng tham chiếu đối tượng - khía cạnh - câm xúc

Đóng góp thứ hai được công bô trong các công trình [Error! Reference source n

ot found., Error! Reference source not found.)

• Dóng góp thứ ha: De xuất mô hình làm giàu ontology cám xúc.

Ontology là công cụ hỗ trợ cho bài toán phân giái đồng tham chiếu đối tượng, vì vậy nó ảnh hưởng đến hiệu quả cùa bài toán Neu ontology cảm xúc chứa nhiều thông tin tri thức thì việc nhận dạng và suy luận mối quan hệ giữa các thành phần trong một văn bán càng chính xác Đê nâng cao hiệu quá cua công cụ hỗ trợ này thìviệc làm giàu thêm tri thức cho ontology là mục tiêu cần thiết của luận án Cách tiếp cận để làm giàu ontology đã được giới thiệu ớ Bài toán 2 và sẽ được trình bày chitiết trong chưomg 4

Đóng góp thứ ba được công bố trong công trình [Error! Reference source not f

ound.].

• Đóng góp thứ tư: Đê xuât mô hình xác định klĩía cạnh án trong văn bản cảm

xúc.

Trang 24

Mô hình xác định khía cạnh ấn được áp dụng phương pháp học sâu trên một khongừ liệu các vãn bản cảm xúc (Corpus 12) đề tìm ra một mô hình phân lớp khía cạnh cho các khía cạnh ấn Đầu tiên mô hình huấn luyện từ bộ dừ liệu sinh ra từ Corpus 12

và nhận được bộ trọng số w 1 Sau đó w 1 tiếp tục được tinh chinh trên các tập dữliệu tương ứng với mỗi từ cảm xúc cho ra các bộ trọng số W2s Cuối cùng, W2s lần lượt được tinh chinh trên các tập dữ liệu tương ứng với các từ cảm xúc tham chiếu đến các khía cạnh thuộc lóp thuộc tính (Attribute) của ontology cảm xúc Kết quả cuối cùng là W3s được dùng đế phân lớp khía cạnh ấn hỗ trợ phân giải đồng thamchiếu đối tượng

• Đóng góp thứ năm: Xây dựng mô hình phân giải đồng tham chiểu đổi tượng cho

văn bàn cám xúc có từ hai đoi tượng trờ lên.

Với mục tiêu xác định các bộ ba đổi tượng - khía cạnh - cảm xúc trong một văn bán có ý kiến, cảm xúc với hai dối tượng trờ lên, mô hình sư dụng mô-dun tiền huấn luyện đề sinh ra véc-tơ có ngừ cảnh cho các từ chi đối tượng, khía cạnh và cảm xúc Cách tiếp cận cúa mô hình được áp dụng theo phương pháp mới hiện nay là học máy

và học sâu dựa trên ngữ cảnh của văn ban và ontology cảm xúc Đe áp dụng phươngpháp học máy và học sâu, bài toán cần xác định bộ dữ liệu được học từ một kho ngừliệu theo mien (Corpus 12) Đặc biệt kho ngừ liệu này được phân tách thành hai là kho ngừ liệu chứa các văn bản cảm xúc đề cập đến một đổi tượng (Corpus 1) và kho ngữ liệu dề cập từ hai đối tượng trở lên (Corpus2) Có hai vấn đề luận án cần phai

xử lý, thứ nhất chuyển đổi dừ liệu từ vãn bản sang dừ liệu số có ngừ cánh hay còn

gọi contextual word embedding, thứ hai lọc trẽn bộ dừ liệu số những mầu dừ liệutheo cặp đối tượng - khía cạnh và đổi tượng - cảm xúc đổ huấn luyện Bộ dừ liệu mẫu được huấn luyện nằm trong ngừ cảnh của kho ngừ liệu Corpus 1 Sau khi huấnluyện Corpus 1, luận án thu được một mô hình dùng đô phân lớp đối tượng cho khía cạnh và cảm xúc trong một văn bản Kết quả phân lớp được đưa vào đồ thị CRG và

áp dụng các thuật toán tìm kiếm và duyệt cây xác định dược các bộ ba đối tượng - khía cạnh - câm xúc Các bộ ba này là kết quả cuối cùng của bài toán phân giải đồngtham chiếu đổi tượng cho phân tích cảm xúc có nhiều đối tượng

Đóng góp thứ năm được công bố trong các công trình 111

Trang 25

1.5 Cấu trúc cúa luận án

Luận án được chia thành sáu chương và một phụ lục, trong đó ở đầu mồi chương đều

có phần giới thiệu tống quan và ở cuối mồi chương đều có phần kết chương

Chương 1 trình bày mục tiêu, phạm vi nghiên cứu cùa luận án và những đóng gópchính của luận án; giới thiệu cấu trúc của luận án

Chuông 2 trình bày các nghiên cứu liên quan đến các vấn đề mà luận án quan tâm.Chương này trình bày một cách tống quan những hướng nghiên cứu liên quan đến phân giải đồng tham chiếu, phân tích cảm xúc, phân giải đồng tham chiếu cho phân tích cảm xúc, xác định khía cạnh ân, xây dựng và làm giàu ontology trên miền chuyên biệt

Chuông 3 trình bày mô hình, giải thuật phân giái đồng tham chiếu đối tượng cho phân tích cảm xúc cùa văn bản có một đối tượng Đồng tham chiếu đối tượng cho phân tích cảm xúc của vãn ban có một đối tượng là bài toán cơ ban làm tiền đề đế giải quyếtbài toán phân giải đồng tham chiếu đối tượng phức tạp hơn, với văn bân có từ hai đốitượng trớ lèn

Chương 4 trình bày mô hình làm giàu ontology cảm xúc hô trợ phân giái đông tham

£

chiêu

Chương 5 trình bày mô hình, giải thuật phân giải đồng tham chiếu đối tượng cho phân tích càm xúc cho văn bàn có nhiều đối tượng Đây là bài toán phức tạp, vì vậychương này sẽ trinh bày các mô-đun hồ trợ như tiền xử lý văn bản, mô-đun học sâu đề sinh ra các vcc-tơ ngữ cành, mô-đun huấn luyện và cuối cùng là mô-đun phân giải đồngtham chiếu sinh ra các bộ ba đối tượng, khía cạnh và cám xúc

Chương 6 là phần tông kết của luận án, trong đó trình bày những kết quả mả luận

án đã đạt được cũng như những dự định nghiên cứu trong tương lai Các kết quả cùaluận án đã được công bố trong các công trình [ 1 -1 ]

Trang 26

CHƯƠNG 2 CÁC NGHIÊN cưu LIÊN QUAN VÀ CÁC KIÉN THÚC NÈN TẢNG

Trong chương này sẽ trình bày các công trình nghiên cứu liên quan đến các vấn đề như phân giai đồng tham chiếu, phân giài đồng tham chiếu cho phân tích cam xúc, phân tíchcảm xúc, ontology cảm xúc, các phương pháp làm giàu ontology cảm xúc Từ nhừng tim hiếu các nghiên cứu liên quan này, tác giả sẽ dưa ra các ưu điểm, hạn chế của các phương pháp để xác định hướng nghiên cứu cùa luận án

2.1 Phân giải đồng tham chiếu

Phân giai dồng tham chiếu là một thách thức phố biến trong xứ lý ngôn ngừ tự nhiên

và được ứng dụng trong các bài toán như phân tích cảm xúc [7], tóm tắt văn bản [9], vàrút trích thông tin hoặc hệ thống hói đáp [10]

Bài toán phân giải đồng tham chiếu được chia ớ nhiều dạng đồng tham chiếu, nhưđồng tham chiểu đại từ, đồng tham chiếu thực thể, đồng tham chiếu sự kiện Mồi dạngbài toán đến nay đà có nhiều phương pháp được nghiên cứu và áp dụng nhu dựa theoluật, dựa theo học máy, thống kê và học sâu, v.v Đối với phân giải đồng tham chiếu đại

từ (ACR) và thực thể, bài toán tập trung vào việc xác định các cặp danh từ hoặc đại từ với danh từ cùng đồng tham chiếu đen một đối tượng Trong [2], R Suklhanker cùngcác cộng sự (2018) đà tông hợp đồng tham chiếu đại từ được chia thành nhiều loại tham chiếu khác nhau và các ràng buộc cho đồng tham chiếu đại từ Từ các ràng buộc này, nhiều công trình nghiên cứu đã đưa ra các tiếp cận từ dựa theo luật đến học máy Các giái pháp dựa theo luật như các công trình [11-19], Trong đó các công trình sử dụng các đặc trưng về cú pháp vả ngữ nghĩa của văn bản được xem xét đế xây dựng các luật giải quyết đồng tham chiếu đại từ và thực thể Tiếp cận học máy như cây quyết định [20- 22], Bayes [23] mang lại hiệu quả cao hơn tiếp cận dựa theo luật Hoặc các công trình [24-26] giải quyết đồng tham chiếu theo tiếp cận gom cụm Ngoài ra, phân giải đồng tham chiếu dựa vào đồ thị có các công trình 127-30] Công trình [291, A Culotta và các cộng sự (2007) áp dụng đồ thị đê giải quyết bài toán đồng tham chiếu cụm danh tù’, vớimỗi đinh của đồ thị là cụm danh từ và mỗi cạnh có trọng số tương ứng với xác suất màhai danh từ đồng tham chiếu Sau đó phân chia đồ thị thảnh các cụm rời rạc tương ứngvới phân giải đồng tham chiếu trên cụm danh từ Công trình [30] sử dụng đo thị vô

Trang 27

hướng có trọng số là độ tin cậy giữa các đinh và cũng là cạnh giữa hai đinh Sau đó áp dụng thuật toán Min-Cut [31] để tính trọng số cắt và dừng Hay tiếp cận đồ thị có tri thức, ontology [32], R Prokofyev và các cộng sự (2015) đề xuất thêm tang ngừ nghĩa

để giải quyết đồng tham chiếu tốt hơn Tầng ngữ nghĩa sử dụng các kỳ thuật Web ngừnghĩa cụ thể là Knowledge Graph (e.g., DBpedia) Hiện nay, có nhiều công trình áp dụng tiếp cận học sâu [33] sứ dụng mạng nơ-ron lan truyền ticn (FFNN) [34-36] hay [37] kết hợp FFNN với Recurrent Neural Network (RNN) hoặc [38] kết hợp FFNN,LSTM (Long Short Term Memory), CNN (Convolutional Neural Network) và attention Đây là các kỳ thuật học sâu khá hiệu quả trong một số nhiệm vụ của lình vực NLP và cũng hiệu quả trong phân giải đồng tham chiếu đại từ và thực thê Với tiếp cận học sâu,các từ được biểu diễn như một véc-tơ mang được ngữ nghía của từ trong câu Đen nay bài toán đồng tham chiếu vẫn được quan tàm và nghiên cứu vì tinh ứng dụng của nó trong các bài toán lien quan den NLP

Dạng bài toán thứ hai là đồng tham chiếu sự kiện So với đồng tham chiếu đại từ, thực thê, bài toán đong tham chiếu sự kiện được cho là thách thức hơn Việc xác địnhcác đề cập sự kiện đong tham chiếu đến cùng một sự kiện là xác định các từ ngữ đề cậpđến sự kiện có thể có liên quan đến thời gian, địa điểm, nhân vật, hay địa điểm Từ cácycu tố này, bài toán sẽ xác định mối quan hệ đong tham chiếu đến một sự kiện trong văn bàn Với bài toán đồng tham chiếu sự kiện cũng có nhiều cách tiếp cận như cây quyết định [39], Maximum Entropy [40,41], Support Vector Machines (SVM) [42], và mạng nơ-ron (ANN) [43,44], v.v

Trên đây là hai bài toán phổ biến về đồng tham chiếu, tuy nhiên đồng tham chiếu đại

từ và thực thể được ứng dụng và xuất hiện nhiều trong các bài toán NLP khác như tóm tắt văn bàn, phân tích cảm xúc, v.v

2.2 Phân tích cảm xúc

Phân tích cảm xúc cũng là bài toán thách thức hiện nay, được cộng đồng NLP quan tâm

và vẫn còn tiếp tục nghiên cứu Bài toán này thường được chia thành ba mức: mức văn bàn, mức câu và mức khía cạnh

Phán tích câm xúc ỏ' mức văn bủn là bài toán đơn giản và thường được xem là bàitoán phân lớp càm xúc mức văn bản Phân loại văn bản bằng một số phương pháp học

Trang 28

có giám sát: Naive Bayes [45,46J Phân loại vãn bản bằng Support Vector Machine(SVM) [47-501, ngoài ra, nhiều biến thể của SVM cũng đà được phát triển, ví dụ nhưMulti class SVM được dùng trong [51]; Maximal Entropy [52-54]; mô hình n-gram [55] Các phương pháp phân loại văn bản nêu trên được áp dụng cho bài toán phân lớp cảm xúc mức văn bản.

Bài toán phân tích cam xúc ở mức câu có một số phương pháp, công trình nghiêncứu ở mức câu như phân tích hướng ngừ nghĩa [56-59], học sâu [60], appraisal [61],point of view [62J

Phân tích càm xúc mức khía cạnh (ABSA) [7] là xác định các ý kiến về thực thể ởtừng đặc tính cùa nó Mồi thực thê hay đối tượng trong một văn bản cảm xúc thường được đề cập đến các khía cạnh đi kèm với cảm xúc, quan diêm Bài toán cần xác định

từ cảm xúc nào tham chiếu đến khía cạnh gì trong văn bản Bài toán phân tích ở mức này tập trung vào việc xác định các cặp khía cạnh - cám xúc và đánh giá cám xúc của khia cạnh ABSA có thê được chia thành ba bài toán con: rút trích khía cạnh và cảm xúc, phân tích từ cam xúc và tóm tắt cam xúc Trong đó, rút trích khía cạnh và cám xúc làbài toán con quan trọng trong ABSA Với mỗi bài toán con đều có một số vấn đề phứctạp sẽ được đào sâu và phân tích tiếp bởi cộng đồng nghiên cứu xử lý ngôn ngừ tự nhiên, đặc biệt phân tích cảm xúc

Ví dụ 2.1: ‘7 have just bought a Samsung Galaxy Note7 I like Note7 because its

design looks beautiful However, it is expensive It has a camera, i took a photo and it

is amazing ”

Trong Ví dụ 2.1, văn bản dang nhận xét về chiếc điện thoại “Samsung Galaxy Note7” và chúng ta thấy rõ “beautiful” là khen khía cạnh “design”; “amazing” là khen khia cạnh “photo” Ngoài ra “expensive” cũng là từ chỉ cam xúc nhưng trong văn bản không đề cập tường minh khía cạnh mà “expensive” nói tới

Công trình [63], c Manning và cộng sự (2014) đã sứ dụng ngân hàng cày có nhãn cám xúc (Stanford Sentiment Trccbank) và mạng Neural Tensor đệ quy (Recursive Neural Tensor Network - RNTN) đế phân lớp các câu theo năm lớp từ rất tiêu cực (very negative) den rất tích cực (very positive) the hiện qua các ký hiệu: —, -, 0, +, + + Stanford Sentiment Treebank là một kho ngữ liệu với các cây được phân tích cú pháp

có gán nhãn cảm xúc Các nút lá sẽ được gán giá trị cảm xúc, các nút cha được tính giá

Trang 29

trị thông qua các nút con bời một hàm thành phần Mồi nút là một véc-tơ đặc trưng, qua

bộ phân lớp được gán một trong năm nhãn lớp (—, 0, +, ++) Quá trình này sè được thực hiện đệ quy về đến nút gốc Phương pháp của [63] được tích hợp vào một công cụ

xử lý NLP khá nôi tiếng là Stanford CoreNLP Việc phân tích cảm xúc được coi nhưmột tầng trong kiến trúc của CoreNLP

Công trình [64], M Hu và B Liu (2004) sẽ phân tích ý kiến sản phấm theo từng khía cạnh, phân loại ý kiến thành khen hoặc chê Đầu tiên, các tác giả nhận dạng cáckhía cạnh cùa sán phấm và xểp hạng các khía cạnh theo tần suất xuất hiện cùa chủngtrong các đánh giá Với mỗi khía cạnh, các tác giả nhận diện số ý kiến là khen hay chêtheo hướng ngừ nghĩa Trong đó, công trinh sử dụng từ điền WordNet và kỳ thuật tái định cỡ mẫu trong xác suất thống kê để xác định ngữ nghĩa

Ngoài ra, phân tích cảm xúc mức khía cạnh được giải quyết theo nhiều hướng tiếpcận khác như phương pháp mô hình hóa chú de (Topic modeling) [65]; Probabilistic Latent Semantic Analysis (PLSA) [66-68]; dựa trên Latent Dirichlet Analysis (LDA) [69-72]; học máy [73,74]; học sâu [75-82]; v.v

Trong [67], A Balahura và các cộng sự (2009) thực hiện phân cực cảm xúc với ba mức khác nhau (cao, trung binh và thấp), sau đó các tác giả sẽ tóm tắt văn bàn dựa trênyếu tố cảm xúc Các tác giả kết hợp các từ điền SentiWordNet, WordNet Affect vàMicro WordNet Option cho thứ nghiệm 0 quá trình tóm tắt, công trình [67] dùngphương pháp LSA (Latent Semantic Analysis) đe tìm kiếm các câu có độ quan trọng lớnnhất, đồng thời cỏ sự tương đồng về mặt ngừ nghĩa với chủ đề

Phát triến công trinh [67], A Balahur và các cộng sự (2012) [68] vẫn sử dụng LSA nhưng kết hợp nhiều nguồn từ điển để tăng cường kiến thức đặc trưng ngữ nghĩa Với

sự thay đổi này giúp hệ thống mới có được kết quâ khá ấn tượng

Công trình [77], H Wu và các cộng sự (2016) thực hiện rút trích ý kiến và phân lớp cảm xúc dựa trên khía cạnh Cách tiếp cận của các tác giả là dựa trên mạng nơ-ron tíchchập CNN theo hai phương pháp là cascade CNN (C-CNN) và multitask CNN (M- CNN) Hai phương pháp khác nhau ở điểm các bộ CNN sắp xếp câu theo khía cạnh vàphân lớp cám xúc cho câu ớ cùng một mức, dùng chung ma trận từ nhúng để thực hiện các phần việc riêng, không phụ thuộc nhau

Trang 30

Công trình [78J, D Dhanush và các cộng sự (2016) sử dụng mạng nơ-ron hồi quy RNN (Recurrent Neuron Network) đê phát hiện và gán nhãn khía cạnh Các câu được gán nhãn sè được phân loại câm xúc bang CNN Trong giai đoạn tiền xử lý, các tác giả

sừ dụng Word2Vec để tạo ma trận cho tầng Word Embedding

Ngoài ra, bài toán phân tích cảm xúc mức khía cạnh còn sử dụng sự kết hợp Ontology chuyên biệt với các luật ngôn ngữ cụ thổ đe xứ lý các từ cảm xúc [8] Trong[8], T Nguyen và các cộng sự (2014) đã đề xuất ontology càm xúc so (Sentiment Ontology) khá chi tiết và áp dụng vào việc phân tích cam xúc mức khía cạnh Các tác giả muốn xác định ý kiến cảm xúc cho các hãng sản xuất, sản phẩm hoặc các đặc trưng

Sứ dụng ontology cám xúc, [8] nhận diện tất cả các thực thê có mối quan hệ cảm xúc từmột văn bàn càm xúc Chính vì vậy ontology càm xúc do các tác giả đề xuất có hai lớp khải niệm (khía cạnh và cảm xúc) cùng các tập mối quan hệ (quan hệ không phân loại, quan hệ phân loại và quan hệ cảm xúc) Cụ thể cấu trúc SO sẽ được trình bày ớ phan 2.5

Bài toán phân tích cảm xúc là một chú đề rất dược cộng đồng nghiên cứu và trong thưomg mại quan tâm, chính vậy đã ra đời nhiều công cụ phân tích cảm xúc như Trackur,SAS, Opentext, StatSoft, Clarabridge, TheySay, NetOwl, NICTA, Sentiment Analysiscủa Stanford, v.v

Ngoài các phưong pháp tiếp cận ở trên, có một sổ công trình đã kết hợp đưa đồng tham chiếu đại từ, thực the vào giai quyết bài toán phân tích cảm xúc [83-861 Đe tăng

độ chính xác, hiệu quă của phân tích cảm xúc, việc kết hợp đồng tham chiếu đại từ, thựcthế là một nhu cầu thực tế và khoa học trong NLP Trong [84], N Jacob và 1 Gurevych (2010) đã kết hợp ACR để giải quyết bài toán phân tích cảm xúc với mục đích rút trích các cặp khía cạnh - cam xúc hoặc đối tượng - cảm xúc Trong đó các chuồi đồng thamchiếu đại từ sẽ là đường dẫn phụ thuộc để xác định các cặp trên Các tác giả cũng đã chứng minh được sự hiệu quả của ACR trong SA bởi các thực nghiệm so sánh với một

số công trình SA không sứ dụng ACR Trong [86], o De Clercq và V Hoste (2020) sứdụng ACR trong gán nhân thủ công cho tập dừ liệu huấn luyện để phân lớp khía cạnh Tập dữ liệu mà các tác giá sử dụng là đa miền và cần phân lớp khía cạnh dó thuộc loại

gì, ví dụ Food-Prices, Food-Quality, Restaurant-Prices, v.v Công trình được thựcnghiệm trong văn bản tiếng Anh và tiếng Hà Lan

Trang 31

Từ các công trình phân tích cám xúc có kết hợp ACR, tác giả luận án cùng các cộng

sự đã đề xuất [Error! Reference source not found., 1] sử dụng kết hợp ontology cảm xúc h ướng khía cạnh đê giai quyết bài toán phân tích cảm xúc mức khía cạnh Ngoài cách tiếp cận đồng tham chiếu đại từ và cơ sở tri thức ontology, chúng tôi sừ dụng đồ thị khái niệm để biểu diễn tẩt cả các mối quan hệ khía cạnh và cảm xúc trong một văn bản Từcác mối quan hệ khía cạnh - cảm xúc sẽ xác định được một sàn phẩm có cảm xúc đề cậpđến khía cạnh nào Tuy nhiên đề xuất này của chúng tôi cũng chỉ mới giái quyết phân tích cám xúc mức khía cạnh và chưa đề cập chi tiết đến các mối quan hệ đối tượng -khía cạnh - cảm xúc Từ kết quả trong [Error! Reference source not found., 1], tác già 1uận án đã kết hợp ontology câm xúc với ACR giải quyết các bài toán của luận án

2.3 Phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc

Phân giải đồng tham chiếu cho phân tích cảm xúc [6,87,88] xác định các từ, cụm từ chi đối tượng và khía cạnh cùng tham chiếu đến một thực thề là các sán phẩm hoặc dịch

vụ trong các văn bán có cảm xúc Các tác giả đồ xuất bài toán nhàm nâng cao hiệu quả cho bài toán phân tích cảm xúc mức khía cạnh Không bỏ sót đoi tượng, không xác định sai khía cạnh cúa đối tượng trong các văn ban cho bài toán phân tích cảm xúc mức khía cạnh, đỏ là mục tiêu của các công trình

Công trinh [6], X Ding và các cộng sự (2010) giải quyết bài toán phân giải đồng tham chiếu đoi tượng và khía cạnh cho phân tích cảm xúc Mục tiêu cúa bài toán là xácđịnh các từ, cụm từ chi đối tượng (object) và thuộc tính (attribute) cùng tham chiếu đếnmột thực thể Trong đó đối tượng là các thực thể có tên, như là tên các sàn phẩm và dịch

vụ Mỗi đổi tượng được mô tá bởi các thành phần và các thuộc tính, gọi chung là

attributes Giới hạn cùa bài toán [6] được thực hiện trên các văn bán cảm xúc trên các trang web như các bình luận, thảo luận và các blog Các tác già sử dụng tiếp cận họcmáy có giám sát với mô hình đề xuất huấn luyện trên các đặc trung từ công trình [26]cộng thêm các đặc trưng mới cúa các tác giả Các đặc trưng được trình bày trong Báng2.1 dưới đây Trong đó ai ký hiệu cho từ, cụm từ dự tuyến xuất hiện trước (antecedent candidate) và a, ký hiệu cho từ, cụm từ dự tuyển xuất hiện sau (anaphor candidate)

Trong Bảng 2.1, các đặc trưng được đánh dấu * là của công trình [6] đề xuất dựa trên phân tích cám xúc và một số đặc linh từ vựng như đồng nhất quan điểm, liên kết

Trang 32

thực thê với các từ cảm xúc, độ tương tự chuôi và các từ khóa giữa các từ, cụm từ cânxác định.

Bảng 2.1 Danh sách các đặc trưng được sử dụng trong [6J

điêm

Bằng 1 nếu hướng quan điểm cùa ai và là nhưnhau; bằng 0 nếu khác nhau, ngược lại bàng 2

Liên kết thực thể vàcác lừ quan diêm*

1, 2, 3, 4, 5 là các giá trị của đặc trung được tính theo độ Pointwise Mutual Information (PMI)

Thuộc văn

phạm

Đại từ i Bằng 1 nếu a, là đại từ, ngược lại bằng 0

Đại từ j Bang 1 nếu aj là đại từ, ngược lại bang 0

Đại từ nhân xưng Bằng 1 nếu aj bắt đầu với từ “this”, “that”,

“those” hoặc “these”, ngược lại bằng 0

rp A • ATên riêng Bang 1 nếu cả ajaj cùng là tên riêng, ngược

lại bằng 0

Thuộc từ

vựng

Tương tự chuỗi* Độ tương tự giữa aia }

Đặc trưng bí danh Bang 1 nếu a, là bí danh cua aj hoặc aj là bí danh

của ai, ngược lại bàng 0

Loại khác Khoảng cách Bằng khoáng cách giữa các câu chứa cặp a, và aj,

bằng 0 nếu cùng trong một câu

Từ khóa giữa ai

aj (is-between, between)*

has-Bằng 1 nếu tồn tại từ khóa giừa ai và aj, ngược lại bằng 0

Trang 33

Đặc trưng đồng nhất quan điểm (sentiment consistency) được sứ dụng khi tác giácủa một bình luận bắt đầu mô tả quan điểm, cảm xúc về một đối tượng thì họ sẽ tiếp tục

có cùng hướng quan điếm với đối tượng đó hoặc các thuộc tính của nó nếu không có các

từ trái ngược như “but”, “however” Xét ví dụ sau: “(1) / bought Camera-A yesterday

(2) ỉ took a few pictures in the evening in my living room (3) The images were very clear (4) They were definitely better than those from my old Camera-B (5a) It is cheap

too. (5b) The pictures of that camera were blurring for night shots, but for day shots it

was ok ” [6] Câu (4) là câu so sánh Camera-A tot hơn Camera-B, câu tiếp theo (5a) có quan điểm tích cực vậy nên “It” sẽ tham chiểu đến Camera-A Câu (5b) là câu tiếp theo câu (5a), biêu diễn câm xúc tiêu cực, “that camera” sẽ tham chiếu đến “Camera-B” Các tác giả định nghĩa ngữ cảnh này là đồng nhất quan điểm

Đặc trưng thứ hai là liên kết các thực thể với các từ cảm xúc Để xác định được sự liên kết, các tác giá cùa bài báo đã sử dụng độ tương quan giữa các từ PM1 như côngthức (2.1)

- P(NP, OW) là xác suất có điều kiện của NP với sự xuất hiện đồng thời của

ow và được tính theo công thức (2.2)

P(NP\OW) = Số câunr Ạ _ chứa(/VP_ A _ Avà OỈV)

T ongsocau

(2.2)

- P(NP) là xác suất xuất hiện của NP

- P(OW) là xác suất xuất hiện cùa owNgoài ra, một số đặc trưng hữu ích khác như is-between, has-between có giá trị “true”nếu giừa a, và (Xj có các động lừ is, are, was, were, be, has, have, had, ngược lại bang

“false”

Trang 34

Công trình phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cám xúc được áp dụng cho các văn bản cảm xúc có chứa các câu không so sánh và có so sánh từ hai đổi tượng trở lên Công trình sử dụng đặc điểm của văn bản câm xúc đế đề xuất bổ sung các đặc trang nhàm nâng cao hiệu quả bài toán phân giải đồng tham chiếu đốitượng khía cạnh trong phân tích cảm xúc Với tiếp cận học máy có giám sát trên tập dừliệu được gán nhãn thủ công, kết quà của bài báo thu được trôn ba tập dữ liệu (ccllphonc,TVs và Cars) với độ chính xác hơn 70%.

Tuy nhiên, bài báo chưa gắn kết đối tượng, khia cạnh với cảm xúc mà chi dùng ở việc xác định các cặp tham chiếu đối tượng với khía cạnh trôn các câu so sánh (không phảitất cả văn bản) Kết quả của công trình này chinh là tiền đề đè luận án nghiên cứu mốiquan hệ gẩn kết giữa đổi tượng-khía cạnh-cảm xúc

Sau 10 năm, bài báo đó đã được cải tiên bởi công trình [87] với tiêp cận định hướng trithức (knowledge-driven) Từ [6] sử dụng học máy có giám sát với dừ liệu được gánnhãn thu công, J Chen và các cộng sự (2020) đã cải tiến đề xuất khai phá tự động tri thức miền chuyên biệt từ dừ liệu văn bản thô và áp dụng tri thức theo miền chuyên biệt cho phân lớp đồng tham chiếu đối tượng, khía cạnh Cụ thề các tác giả ứng dụng mạng nơ-ron nhân tạo để thực hiện phân lớp đồng tham chiếu (OAC2) và kiến trúc mô hình

: Padding

được trình bày như Hình 2.1

Knowledge

a green Moonbeam bought

s 111

like

Spi

General Knowledge

Domain-specific /

Contextual Fc

Trang 35

biệt (Domain-specific Knowledge) Nguồn thứ nhẩt: cơ sở tri thức OMCS [89J chứa 600K các bộ ba (thực the 1, quan hệ, thực thể 2) như (clock, usedFor, keeping time)

được áp dụng theo phương pháp [90] để chọn lọc ra các bộ ba có độ tin cậy cao hơn vàcuối cùng OMCS có tổng cộng là 62,730 bộ Nguồn tri thức thứ hai: SenticNet [911 cũng

là cơ sở tri thức chung chứa 50K các khái niệm liên quan đến cảm xúc Nguồn thứ ba:

cơ sớ tri thức miền chuyên biệt được xây dựng từ các tập dữ liệu bình luận chưa gán nhàn

Ba cơ sớ tri thức trên là yêu cầu cho bước 1 của Hình 2.1, xác định được các bộ ba tươngứng với từ, cụm từ đề cập đến đối tượng hoặc khía cạnh (ký hiệu m) trong một văn bàn cảm xúc Bước thứ hai các tác giả xác định các cụm từ liên quan đến cú pháp (quan hệ phụ thuộc) cho các từ, cụm từ m và các từ anaphor p Các cụm từ liên quan cú pháp cóthế là danh từ, động từ, hoặc tính từ Sau bước 1 và 2, các từ, cụm từ đã xác định, được chuyền đôi sang dữ liệu số thực theo ngữ cảnh bởi công cụ BERT |92| Bước thứ ba.diêm dự đoán cuòi cùng (the final prediction score) F được tính theo công thức (2.3)

ron nhân tạo theo kiêu xêp chông, phụ thuộc nhau

Thực nghiệm của mô hình được thực hiện trên năm tập dữ liệu khác nhau: (1) alarmclock, (2) camera, (3) cellphone, (4) computer, và (5) laptop Ket quà đạt được cùa năm

bộ dừ liệu không chênh lệch nhiều và trong khoảng 71% đến 73% độ Fl-score Mặc dù với mô hình OAC2 rất phức tạp nhưng kết qua đạt được chưa phai là cao

Phương pháp [87] còn một số hạn chế:

Sử dụng BERT đe sinh ra véc-tơ ngữ cảnh tuy nhiên phạm vi của BERT có sẵn sèrất rộng và không gần với ngữ cánh cùa một miền chuyên biệt

- Phải gán nhãn thủ công cho dừ liệu dùng để huấn luyện

Bài toán chỉ đề cập đến mối liên hệ đối tượng và khía cạnh

- Không đề cập đến vấn đề xác định khía cạnh ẩn

Trang 36

Công trình [88J, Y Zhao và các cộng sự (2015) đã quan tâm đến bài toán liên kết đốitượng và khía cạnh trong phân tích cảm xúc Các tác giâ đề xuất mô hình có hai bước: thứ nhất cung cấp bộ phân lớp nhị phân cho các cặp khía cạnh - đối tượng, thứ hai sửdụng Integer linear programming (ILP) để suy luận ra kết quả cuối cùng của bài toán.

Bộ phân lớp sừ dụng ba tập đặc trưng:

- Cơ ban: (1) đặc trưng loại câu, dựa trên các câu có chứa đối tượng và khía cạnh,

có ba loại câu lần lượt có giá trị 1,2, 3 là câu chỉ chứa đối tượng, câu chứa cả đốitượng và khía cạnh, câu chi chứa khía cạnh (2) đặc trưng câu so sánh có giá trị true nếu trong câu có sự so sánh và false là câu bình thường không so sánh (3) đặc trưng đối tượng trá về đối tượng có xuất hiện trong câu

- Quan hệ: khoang cách giữa câu hiện thời và câu trước, giữa câu hiện thời và câu

sau, sự đồng nhất giữa đối tượng trong câu trước hoặc câu sau với đối tượng dự

dừ liệu hỗ trợ phân lớp nhị phân, các tác giả đã cần sự giúp đỡ cùa các chuyên gia gán nhãn thú công cho các đối tượng và khía cạnh Công trình này cũng chưa gắn kết đốitượng, khía cạnh với cảm xúc mà chi dừng ở việc xác định các cặp tham chiếu đối tượng

và khía cạnh

Ba công trinh [6,87,88] đã góp phần nâng cao hiệu quà vấn đề phân tích càm xúc trong các văn bản bình luận về các sản phẩm, dịch vụ Tuy nhiên bài toán phân tích cảmxúc có nhiều thông tin trong văn bản cảm xúc cần quan tâm đó là đối tượng, khía cạnh.cảm xúc, phân cực trị cám xúc và xác định khía cạnh không tường minh Các công trình trên chi quan tâm đến đối tượng, khỉa cạnh Vì vậy thông tin rút trích cho bài toán phân

Trang 37

tích cảm xúc chưa đầy đủ vấn đề nghiên cứu còn đê mở này chính là một trong những động cơ nghiên cứu của luận án.

Mục tiêu của bài toán phân giải đồng tham chiếu đối tượng, khía cạnh và cảm xúc làxác định trong một đoạn văn ban có ý kiến, nhận xét có bao nhiêu bộ ba đối tượng, khíacạnh và cảm xúc

Hiện nay theo hiếu biết của tác giã luận án, bài toán phán giải đồng tham chiếu đối

tượng, khỉa cạnh và cảm xúc hay nói ngắn gọn phân giải đồng tham chiếu cho phân tích

cảm xúc chưa có công trinh nghiên cứu và chủ yếu các tác giả tập trung vào phân tích cảm xúc ở các mức như văn bán, mức câu hay mức khía cạnh

2

2.4 Xác định khía cạnh ân

Rút trích khía cạnh là nhiệm vụ quan trọng của bài toán phân tích cảm xúc mức khía cạnh Rút trích khia cạnh được khá nhiều công trình nghiên cứu quan tâm và bằng nhiều cách tiếp cận khác nhau như kỹ thuật xừ lý ngôn ngữ tự nhiên, dựa theo luật, kỹ thuậtTerm Frequency - Inverse Document Frequency (TF-IDF), hoặc PMI

Khía cạnh trong văn ban có cam xúc, quan điêm thường được các công trình nghiêncứu [7] chia thành hai loại, khỉa cạnh tường minh (Explicit Aspect) và khía cạnh ẩn (Implicit Aspect) Explicit aspect là khía cạnh được biểu diễn bởi các danh từ, động từhoặc cụm danh từ, cụm động từ, ví dụ: “picture”, “run” Implicit aspect là khía cạnh

Gom cụm

Trang 38

Công trình [95], Q Su và các cộng sự (2008) đề xuất theo hướng tăng cường lẫnnhau để gom cụm các khía cạnh tường minh và các từ câm xúc của chúng Dựa trên các cụm này, công trinh xác định các khía cạnh ẩn bang cách tìm sự liên kết giữa các khia cạnh tường minh và các từ cảm xúc.

Các tác giá [96,97] sư dụng phương pháp gom cụm đề xác định các khia cạnh tườngminh và gom nhóm chúng vào cùng nhóm tương tự nhau Sau đó xác định các khía cạnh

ẩn bang cách ánh xạ các khía cạnh ấn vào tập các khía cạnh tường minh

Phân cấp

Công trình [98], J Yu và các cộng sự (2011) sử dụng phân cấp khía cạnh và các từ cám xúc để xác định khía cạnh ẩn Họ tích hợp các thông số sản phấm và các binh luận cúa khách hàng để sinh ra một cấu trúc phân cấp có the suy diễn khía cạnh ấn trong mộtcâu

Học máy

Công trình [99], E H Hajar và B Mohammed (2016) sử dụng Naive Bayes và cùngvới WordNet huấn luyện một bộ phân lớp xác định khía cạnh ẩn Đầu tiên họ kết hợpkho ngữ liệu với bộ từ điên WordNet đẽ xác định các từ chỉ khía cạnh ân Với các từ khía cạnh được rút trích này, các tác già đã huấn luyện một mô hình sử dụng NaiveBayes đế xác định các khía cạnh ẩn

Công trình [100], J Feng và các cộng sự (2019) sứ dụng Convolutional neuralnetwork (CNN) với thuật toán tuần tự để gán nhãn các từ trong câu Họ xác định khíacạnh ẩn bằng cách xem các khia cạnh ân như là các chù đề, sau đó đối sánh mức độ giữacác từ cảm xúc và mức độ của các khía cạnh

Đồ thị

Tác giả A Bagheri và các cộng sự (203) [101] đề xuất mô hình dựa trẽn đồ thị để rút trích khía cạnh ân Công trình định nghĩa một hàm dựa trcn mối liên kết giữa cáckhía cạnh tường minh và các từ cảm xúc và trên cơ sở của hàm này, họ đã cập nhật thêm

Trang 39

trọng số cho mồi cạnh cúa đồ thị Tiếp theo, họ sứ dụng ngưỡng chênh lệch mô tả ranh giới giữa mọi khía cạnh với giá trị đo được đồng xuất hiện cùa từ cảm xúc và trích xuất

ra danh sách các từ khia cạnh ẩn có khả năng xảy ra nhất

Công trình [102], z Yan và các cộng sự (2015) đề xuất thuật toán NodeRank, đầutiên xác định tất cả các cặp đồng xuất hiện của các từ cảm xúc với các từ khía cạnh Sau

đó thuật toán tính giá trị NodcRank cho mỗi khía cạnh ấn với từ cảm xúc Khía cạnh cógiá trị cao nhất được xem như khía cạnh ẩn tiềm năng

Dựa trên tri thức

Công trình [103], T A Rana và các cộng sự (2020) đề xuất giài pháp dựa trên trithức nhiều lớp để rút trích các khía cạnh ẩn từ các bình luận, nhận xét sản phẩm online.Công trình sử dụng NGD (Normalized Google Distance) đế xác định khía cạnh liên quan nhất đối với những từ cảm xúc có the đồ cập đến nhiều hơn một khía cạnh Bài báo thực hiện rút trích cả khía cạnh tường minh và không tường minh (ẩn)

Nhược diêm của [103] là chưa quan tâm đên đòng tham chiêu đại từ trong trường hợp có đại từ ‘ít’ (ví dụ: T like the size It is small and light’), họ sử dụng lACs (ImplicitAspect Clues) đê thay thế ‘It’ bởi ‘phone’ Trong ví dụ này không đúng cho việc thaythế ‘it’

Trong một văn bản mồi từ tại vị trí khác nhau sẽ có ngữ nghĩa khác nhau, đặc biệt

từ cảm xúc, nó có thể tham chiểu đến một đối tượng hay khía cạnh khác nhau Nó không những phụ thuộc vào ý nghĩa cũa các từ dứng trước mà còn phụ thuộc cả từ dứng sau Hay nói cách khác, tại mồi vị trí của từ cảm xúc xuất hiện trong câu, văn bản nó có ngữnghĩa khác nhau và tham chiếu đến thực thể khác nhau Đây chính là hạn chế mà các công trình nghiên cứu trên chua đê cập

2.5 Ontology cảm xúc và làm giàu ontology

Ontology cảm xúc là một cơ sở tri thức phụ thuộc miền được sử dụng cho các bài toánphân tích cảm xúc Hiện nay đã có nhiều công trình nghiên cứu về phân tích cảm xúc dựa trên ontology Một trong các công trình đưa ra định nghĩa ontology cảm xúc chi tiết nhất đó là [8|

Theo định nghĩa của [8]: Ontology cảm xúc là một cặp (C, R), trong đó:

Trang 40

- c = (CA, cs), tập các khái niệm

CA : tập khái niệm khía cạnh

cs : tập khái niệm cảm xúc

- R = (RT Rn, Rs) tập các quan hệ

RN : tập quan hệ không phân loại (non-taxonomic relationships)

R1: tập quan hệ phân loại (taxonomic relationships)

Rs : quan hệ cảm xúc (sentiment relationships)

- Ci e C: tập các đổi tượng (the hiện-instances), được ký hiệu là instancc-of(ci)

- lì (Cp,Cq) e R: mối quan hệ nhị phân giữa Cp và Cq,

- instance của n là instance-of(ri),

- một instance rsi(a,s) cua Rs là mối quan hệ giữa một aspect a e A và một từ cảm xúc

(sentiment term) sgS

Hình 2.2 là một ví dụ của ontology tổng quát bao gom T-Box và A-Box T-Box baogồm các khái niệm khía cạnh, khái niệm cam xúc và các mối quan hệ giữa các kháiniệm;• / A-Box mô •tả các thể hiện của các khái niệm •

Ngày đăng: 14/05/2023, 16:51

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] R. Mitkov, "Anaphora Resolution: The State Of The Art." University of Wolverhampton, Wolverhampton, England, 1999 Sách, tạp chí
Tiêu đề: Anaphora Resolution: The State Of The Art
[2] R. Sukthanker, s. Poria, E. Cambria and R. Thirunavukarasu, "Anaphora and Coreference Resolution: A Review," CoRR, vol. abs/1805.11824, 2018 Sách, tạp chí
Tiêu đề: Anaphora and Coreference Resolution: A Review
[3] R. Sukthanker, s. Poria, E. Cambria and R. Thirunavukarasu, "Anaphora and Corcfcrcncc Resolution: A Review," inf. Fusion, vol. 59, pp. 139-162, 2020 Sách, tạp chí
Tiêu đề: Anaphora and Corcfcrcncc Resolution: A Review
[4] N. Vincent, achine Learning for Entity Coreference Resolution: A Retrospective Look at Two Decades of Research, in AAAI Press, San Francisco, California,USA, 2017 Sách, tạp chí
Tiêu đề: achine Learning for Entity Coreference Resolution: A Retrospective Look at Two Decades of Research
[5] L. Jing and N. Vincent, Event Coreference Resolution: A Survey of Two Decades of Research, in AAAI Press, Stockholm, Sweden, 2018 Sách, tạp chí
Tiêu đề: Event Coreference Resolution: A Survey of Two Decades of Research
[6] X. Ding and B. Liu, "Resolving Object and Attribute Corcfcrcncc in Opinion Mining," in Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), August 23-27, Beijing, China, pp. 268-276, 2010 Sách, tạp chí
Tiêu đề: Resolving Object and Attribute Corcfcrcncc in Opinion Mining
[7] B. Liu, "Sentiment analysis and opinion mining," Synthesis lectures on human language technologies, vol. 5, no. 1, pp. 1-167, 2012 Sách, tạp chí
Tiêu đề: Sentiment analysis and opinion mining
[8] T. Nguyen, T. Quan and T. Phan, "Sentiment search: An emerging trend on social media monitoring systems," Aslib Jouma! of Information Management, vol. 66, no. 5, pp. 553-580, 2014 Sách, tạp chí
Tiêu đề: Sentiment search: An emerging trend on social media monitoring systems
[9] w. René and B. Sabine, "Fuzzy Coreference Resolution for Summarization," in Proceedings of 2003 International Symposium on Reference Resolution and Its Applications to Question Answering and Summarization (ARQAS), June 23-24,Venice, Italy, pp. 43-50, 2003 Sách, tạp chí
Tiêu đề: Fuzzy Coreference Resolution for Summarization
[10] H. Sven, G. Ingo and L. Johannes, "Coreference Resolution for Questions and Answer Merging by Validation," in Advances In Multilingual And Multimodal Information Retrieval: 8th Workshop Of The Cross-language Evaluation Forum, September 19-21, Budapest, Hungary, pp. 269-272, 2007 Sách, tạp chí
Tiêu đề: Coreference Resolution for Questions and Answer Merging by Validation
[15] s. Lappin and H. J. Leass, "An Algorithm for Pronominal Anaphora Resolution," Computational Linguistics, vol. 20, no. 4, pp. 535-561, 1994 Sách, tạp chí
Tiêu đề: An Algorithm for Pronominal Anaphora Resolution
[16] H. Lee, A. Chang, Y. Peirsman, N. Chambees, M. Surdeanu and D. Jarafky, "Deterministic coreference resolution based on entity-centric, precision-ranked rules," Comput. Linguist., vol. 39, no. 4, pp. 885-916, 2013 Sách, tạp chí
Tiêu đề: Deterministic coreference resolution based on entity-centric, precision-ranked rules
[17] T. Liang and D.-S. Wu, "Automatic pronominal anaphora resolution in English texts," international Journal of Computational Linguistics & Chinese Language Processing, vol. 9, no. 1, pp. 21-40, 2004 Sách, tạp chí
Tiêu đề: Automatic pronominal anaphora resolution in English texts
[18] K. Raghunathan. H. Lee, s. Rangarajan, N. Chambers, M. Surdeanu, D. Jurafsky and c. Manning, "A Multi-Pass sieve for coreference resolution," in EMNLP 2010 - Conference on Empirical Methods in Natural Language Processing, October 9-10, MIT, Massachusets, USA, pp. 492-501,2010 Sách, tạp chí
Tiêu đề: A Multi-Pass sieve for coreference resolution
[19] A. Zeldes and S. Zhang, "When Annotation Schemes Change Rules Help: A Configurable Approach to Coreference Resolution beyond Ontonotes," in Proceedings of the Workshop on Coreference Resolution Beyond Ontonotes ịCORBON 2016), June 16, San Diego, California, pp. 92-101, 2016 Sách, tạp chí
Tiêu đề: When Annotation Schemes Change Rules Help: A Configurable Approach to Coreference Resolution beyond Ontonotes
[20] c. Aone and s. William, "Evaluating Automated and Manual Acquisition of Anaphora Resolution Strategies," in 33rd Annual Meeting of the Association for Computational Linguistics, June 26-30, Cambridge, Massachusetts, USA, pp.122-129, 1995.[211 L. Heeyoung, s. Mihai and J. Dan, "A scaffolding approach to coreference resolution integrating statistical and rule-based models," Natural Language Engineering, vol. 23, pp. 733-762, 2017 Sách, tạp chí
Tiêu đề: Evaluating Automated and Manual Acquisition of Anaphora Resolution Strategies," in 33rd Annual Meeting of the Association for Computational Linguistics, June 26-30, Cambridge, Massachusetts, USA, pp. 122-129, 1995.[211 L. Heeyoung, s. Mihai and J. Dan, "A scaffolding approach to coreference resolution integrating statistical and rule-based models
[22] F. M. Joseph and G. L. Wendy, "Using Decision Trees for Corcfcrcncc Resolution," ArXiv, Vols. cmp-lg/9505043, 1995 Sách, tạp chí
Tiêu đề: Using Decision Trees for Corcfcrcncc Resolution
[23] G. Niyu, H. John and c. Eugene, "A Statistical Approach to Anaphora Resolution," in In Proceedings of the Sixth Workshop on Very Large Corpora (COLING-ACL98), August 16-18, Montreal, Canada, pp. 161-170, 1998 Sách, tạp chí
Tiêu đề: A Statistical Approach to Anaphora Resolution
[24] A. McCallum and B. Wellner, "Conditional Models of Identity Uncertainty with Application to Noun Coreference," in Proceedings of the 17th International Sách, tạp chí
Tiêu đề: Conditional Models of Identity Uncertainty with Application to Noun Coreference
[28] E. Bengtson and D. Roth, "Understanding the Value of Features for Coreference Resolution," in Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, October 25-27, Honolulu, Hawaii, pp. 294-303,2008 Sách, tạp chí
Tiêu đề: Understanding the Value of Features for Coreference Resolution

HÌNH ẢNH LIÊN QUAN

Hình 2.4 A-Box của ontology công nghiệp 18]. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 2.4 A-Box của ontology công nghiệp 18] (Trang 41)
Hình 2.5 Tổng quan OntoSenticNet [104], - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 2.5 Tổng quan OntoSenticNet [104], (Trang 43)
Hình 2.6 Kiên trúc làm giàu ontology [1131. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 2.6 Kiên trúc làm giàu ontology [1131 (Trang 44)
Hình 2.11 Biểu diễn đầu vào của mô hình BERT [92]. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 2.11 Biểu diễn đầu vào của mô hình BERT [92] (Trang 49)
Hình 3.2 Kiến trúc mô hình xác định khía cạnh ấn 1AI. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 3.2 Kiến trúc mô hình xác định khía cạnh ấn 1AI (Trang 55)
Hình 3.6 So sánh mô hình IAI với phương pháp ML-KB*. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 3.6 So sánh mô hình IAI với phương pháp ML-KB* (Trang 65)
Hình 3.7 Mô hình phân giải đồng tham chiếu cho phân tích cảm xúc cô một đối tượng. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 3.7 Mô hình phân giải đồng tham chiếu cho phân tích cảm xúc cô một đối tượng (Trang 67)
Hình 3.11 Đồ thị CRG cúa Ví dụ 3.8 sau bước 5 của giải thuật Hình 3.9. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 3.11 Đồ thị CRG cúa Ví dụ 3.8 sau bước 5 của giải thuật Hình 3.9 (Trang 74)
Hình 3.12 CRG cua Ví dụ 3.8 được thực hiện bởi giải thuật Hình 3.9. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 3.12 CRG cua Ví dụ 3.8 được thực hiện bởi giải thuật Hình 3.9 (Trang 75)
Hình 4.1 Mô hình đê xuât ESO làm giàu ontology cảm xúc. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 4.1 Mô hình đê xuât ESO làm giàu ontology cảm xúc (Trang 81)
Hình 4.8 Hiệu quả mô hình ESO trên 614 câu. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 4.8 Hiệu quả mô hình ESO trên 614 câu (Trang 90)
Hình 5.1 Kiến trúc của mô hình CROAS. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 5.1 Kiến trúc của mô hình CROAS (Trang 93)
Hình 5.5 CRG của Ví dụ 5.1. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 5.5 CRG của Ví dụ 5.1 (Trang 102)
Hình 5.6 Mối quan hệ giữa khoảng cách Euclid trung bình và số bước lặp của mô-đun - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 5.6 Mối quan hệ giữa khoảng cách Euclid trung bình và số bước lặp của mô-đun (Trang 105)
Hình 5.9 Đánh giá kết quà CROAS trên 1.000 văn bản cảm xúc. - Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Hình 5.9 Đánh giá kết quà CROAS trên 1.000 văn bản cảm xúc (Trang 109)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w