Để giải quyết bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận án đề xuất xây dựng hệ thống với cách tiếp cận trên cơ sở tri thức - ontology cảm xúc, kết hợp cá
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ THỊ THỦY
PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG
CHO PHÂN TÍCH CẢM XÚC
LUẬN ÁN TIẾN SĨ KĨ THUẬT
TP HỒ CHÍ MINH - NĂM 2022
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
LÊ THỊ THỦY
PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG
CHO PHÂN TÍCH CẢM XÚC
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số chuyên ngành: 62.48.01.01
Phản biện độc lập: PGS TS Nguyễn Tuấn Đăng
Phản biện độc lập: PGS TS Lê Hoàng Thái
Phản biện: PGS TS Đinh Điền
Phản biện: PGS TS Đỗ Văn Nhơn
Phản biện: PGS TS Phạm Trần Vũ
NGƯỜI HƯỚNG DẪN:
1 GS TS PHAN THỊ TƯƠI
Trang 3
i
LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, và không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào Việc tham khảo các nguồn tài liệu (nếu có)
đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định
Tác giả luận án
Chữ ký
Lê Thị Thủy
Trang 4ii
TÓM TẮT LUẬN ÁN
Phân giải đồng tham chiếu và phân tích cảm xúc là hai bài toán khá phổ biến trong xử lý ngôn ngữ tự nhiên, được rất nhiều nhà nghiên cứu quan tâm với các cách tiếp cận khác nhau Đến nay đã có nhiều công trình kết hợp bài toán phân giải đồng tham chiếu với bài toán phân tích cảm xúc nhằm nâng cao độ chính xác Để bài toán phân tích cảm xúc có được kết quả đầy đủ, chi tiết mang lại lợi ích thực tiễn, luận án đề xuất giải quyết bài toán
phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc Đây chính là mục tiêu của
luận án Kết quả của bài toán đề xuất là các bộ ba đối tượng, khía cạnh và cảm xúc của các sản phẩm hay dịch vụ trên một miền chuyên biệt Giới hạn của luận án được áp dụng trên các văn bản cảm xúc tiếng Anh
Để giải quyết bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận
án đề xuất xây dựng hệ thống với cách tiếp cận trên cơ sở tri thức - ontology cảm xúc, kết hợp các giải thuật xử lý ngôn ngữ tự nhiên và các phương pháp học máy, học sâu trên kho ngữ liệu văn bản có cảm xúc, có ngữ cảnh Dựa trên đặc điểm của văn bản cảm xúc
và mục tiêu của bài toán, luận án cần giải quyết các vấn đề chính sau đây Thứ nhất, đề
xuất ontology cảm xúc và đồ thị đồng tham chiếu hỗ trợ giải quyết bài toán của luận án
Thứ hai, đề xuất mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có
một đối tượng Thứ ba, đề xuất mô hình làm giàu ontology cảm xúc cho miền chuyên biệt Thứ tư, đề xuất mô hình xác định khía cạnh ẩn trong văn bản cảm xúc
Thứ năm, đề xuất mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
có nhiều đối tượng Phần thực nghiệm của luận án được thực hiện trên kho ngữ liệu các
văn bản cảm xúc bình luận về các sản phẩm, dịch vụ trên trang web của Amazon và
YouNetMedia Các kết quả thực nghiệm phản ánh tính khả thi của các giải thuật, mô hình
đề xuất trong luận án
Trang 5iii
ABSTRACT
Coreference resolution and aspect-based sentiment analysis are popular problems in natural language processing (NLP) and are going under research by the NLP community with different approaches Up to now, many works combine co-referencing resolution into the sentiment analysis problem to improve accuracy In order for the sentiment analysis problem to have complete and detailed results that bring practical benefits, the thesis proposes to solve the object coreference resolution problem for sentiment analysis This is the aim of the thesis Results of the problem are triplets of object-aspect-sentiment, which belong to special products or services on a domain The limit of the thesis is applied
to English sentiment texts
To build object coreference resolution in sentiment analysis, the thesis proposes a fairly popular knowledge-based approach, sentiment ontology, combining natural language processing algorithms, machine learning, and deep learning on contextual sentiment corpus Based on the characteristics of the sentiment text and the goal of the problem, the thesis must solve the following problems Firstly, the thesis proposes sentiment ontology and the coreference graph to support the problem of object coreference resolution in sentiment analysis Secondly, the thesis proposes the model of object coreference resolution on texts with one object Thirdly, the thesis proposes the instance-based enrichment of the sentiment ontology model depending on the special domain Fourthly, the thesis proposes the implicit aspect identification model in sentiment texts Finally, the thesis proposes object coreference resolution in sentiment analysis with more than one object The experiments of the thesis are carried out on the corpus of sentiment texts commenting on products and services on the Amazon website and the YouNetMedia Company The experimental results reflect the feasibility of the proposed algorithms and
models in the thesis
Trang 6iv
LỜI CẢM ƠN
Trong quá trình hoàn thành luận án, tôi đã được các Thầy Cô nơi cơ sở đào tạo giúp đỡ tận tình, cơ quan nơi công tác tạo mọi điều kiện thuận lợi và gia đình cùng bạn bè thường xuyên động viên khích lệ
Luận án này đã được hoàn thành với sự hướng dẫn tận tình, giúp đỡ và sự động viên quý báu rất nhiều từ GS.TS Phan Thị Tươi, cán bộ hướng dẫn mà tôi tôn trọng và bày tỏ lòng biết ơn sâu sắc nhất
Qua đây, tôi bày tỏ lòng biết ơn các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính trường Đại học Bách Khoa Tp.Hồ Chí Minh đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu tại Khoa
Lời cảm ơn của tôi xin được gửi đến Phòng Quản lý Sau Đại học về sự hỗ trợ các thủ tục trong quá trình hoàn thành luận án
Đồng thời, tôi muốn cảm ơn Ban Giám Hiệu trường Đại học Bách Khoa Tp.HCM, Phòng Khoa học Công nghệ & Dự án, Phòng Quản lý Sau Đại học đã tài trợ cho tôi thực hiện
đề tài cấp trường năm 2016
Cuối cùng tôi cảm ơn tất cả bạn bè và người thân đã góp nhiều ý kiến và những lời động viên khích lệ quí báu giúp tôi vượt qua khó khăn để hoàn thành tốt luận án
Tác giả luận án
Lê Thị Thủy
Trang 7v
MỤC LỤC
DANH MỤC CÁC HÌNH ẢNH vii
DANH MỤC BẢNG BIỂU ix
DANH MỤC CÁC TỪ VIẾT TẮT x
CHƯƠNG 1 GIỚI THIỆU 1
1.1 Động cơ nghiên cứu 1
1.2 Mục tiêu và phạm vi nghiên cứu 3
1.3 Mô hình đề xuất 5
1.4 Đóng góp chính của luận án 10
1.5 Cấu trúc của luận án 13
CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN VÀ CÁC KIẾN THỨC NỀN TẢNG 14
2.1 Phân giải đồng tham chiếu 14
2.2 Phân tích cảm xúc 15
2.3 Phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc 19
2.4 Xác định khía cạnh ẩn 25
2.5 Ontology cảm xúc và làm giàu ontology 27
2.6 Các kiến thức nền tảng 33
2.6.1 Mạng nơ-ron nhân tạo – ANN 33
2.6.2 Mô hình ngôn ngữ - Tiền huấn luyện 35
2.7 Kết luận 38
CHƯƠNG 3 PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CÓ MỘT ĐỐI TƯỢNG 39
3.1 Mô hình xác định khía cạnh ẩn - IAI 39
3.1.1 Giới thiệu 39
3.1.2 Tiền xử lý dữ liệu 41
3.1.3 Mô hình xác định khía cạnh ẩn 42
3.1.4 Thực nghiệm 46
3.2 Mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có một đối tượng 53
3.2.1 Parse – Phân tích cú pháp 54
3.2.2 Anaphora & Entity CR - Phân giải đồng tham chiếu đại từ và thực thể 55
Trang 8vi
3.2.3 Aspect-based sentiment analysis - Phân tích cảm xúc mức khía cạnh 56
3.2.4 Ontology cảm xúc 56
3.2.5 Đồ thị đồng tham chiếu (CoReference Graph – CRG) 59
3.2.6 Mô-đun OBASCore 60
3.2.7 Kết quả thực nghiệm 63
3.2.8 Đánh giá thực nghiệm 65
3.3 Kết luận 66
CHƯƠNG 4 LÀM GIÀU ONTOLOGY CẢM XÚC HỖ TRỢ PHÂN GIẢI ĐỒNG THAM CHIẾU CHO PHÂN TÍCH CẢM XÚC 67
4.1 Giới thiệu 67
4.2 Mô hình làm giàu ontology cảm xúc ESO (Enriched Sentiment Ontology) 68
4.3 Thực nghiệm và đánh giá 75
4.4 Kết luận 79
CHƯƠNG 5 PHÂN GIẢI ĐỒNG THAM CHIẾU ĐỐI TƯỢNG CHO PHÂN TÍCH CẢM XÚC CÓ NHIỀU ĐỐI TƯỢNG 80
5.1 Đặt vấn đề 80
5.2 Mô hình phân giải đồng tham chiếu cho phân tích cảm xúc có nhiều đối tượng - CROAS 81
5.2.1 Giai đoạn huấn luyện 81
5.2.2 Giai đoạn thử nghiệm 86
5.2.3 Đánh giá thực nghiệm 90
5.3 Kết luận 97
CHƯƠNG 6 KẾT LUẬN 99
6.1 Kết quả đạt được 99
6.2 Hướng phát triển 102
CÁC TÀI LIỆU CÔNG BỐ CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 103
TÀI LIỆU THAM KHẢO 104
PHỤ LỤC 118
Trang 9vii
DANH MỤC CÁC HÌNH ẢNH
Hình 1.1 Mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc 6
Hình 2.1 Kiến trúc mô hình OAC2 hướng tri thức [87] 22
Hình 2.2 Ví dụ ontology tổng quát [8] 28
Hình 2.3 T-Box của ontology công nghiệp [8] 29
Hình 2.4 A-Box của ontology công nghiệp [8] 29
Hình 2.5 Tổng quan OntoSenticNet [104] 31
Hình 2.6 Kiến trúc làm giàu ontology [113] 32
Hình 2.7 Một nơ-ron nhân tạo – Perceptron 34
Hình 2.8 Kiến trúc mạng nơ-ron nhân tạo ANN 34
Hình 2.9 Word embedding của từ “king” và “queen” 36
Hình 2.10 Word embeddings của từ “bank” không ngữ cảnh 36
Hình 2.11 Biểu diễn đầu vào của mô hình BERT [92] 37
Hình 3.1 Kho ngữ liệu có chứa các dấu hiệu xác định khía cạnh ẩn của “beautiful” 40
Hình 3.2 Kiến trúc mô hình xác định khía cạnh ẩn IAI 43
Hình 3.3 Kiến trúc mạng nơ ron nhân tạo 2 tầng ẩn - mô-đun Training 45
Mô-đun Training có 69.905 mẫu dữ liệu được trích xuất từ Corpus12 với 389.103 văn bản cảm xúc về điện thoại thông minh (smartphone), trong đó: dữ liệu huấn luyện có 64.374 mẫu và dữ liệu thử nghiệm có 5.598 mẫu và độ chính xác 0,82 Định dạng của Corpus12 được mô tả chi tiết như Hình 3.4, trong đó: 47
Hình 3.5 Minh họa định dạng dữ liệu của Corpus12 47
Hình 3.6 So sánh mô hình IAI với phương pháp ML-KB* 53
Hình 3.7 Mô hình phân giải đồng tham chiếu cho phân tích cảm xúc có một đối tượng 55
Hình 3.8 Kiến trúc Ontology cảm xúc 58
Hình 3.9 Đồ thị CRG của Ví dụ 3.8 62
Hình 3.10 Giải thuật của mô-đun OBASCore 61
Hình 3.11 Đồ thị CRG của Ví dụ 3.8 sau bước 5 của giải thuật Hình 3.10 62
Hình 3.12 CRG của Ví dụ 3.8 được thực hiện bởi giải thuật Hình 3.10 63
Hình 4.1 Mô hình đề xuất ESO làm giàu ontology cảm xúc 69
Hình 4.2 Quan hệ văn phạm “compound” [146] 69
Hình 4.3 Tập từ đồng nghĩa của danh từ “quality” trong WordNet 70
Hình 4.4 Cấu trúc phân cấp của từ “quality” với nghĩa đầu tiên 70
Hình 4.5 Cấu trúc phân cấp của WordNet 72
Hình 4.6 Cấu trúc phân cấp của WordNet 74
Hình 4.7 Cấu trúc của Opinion Lexicon (OL) [138] 74
Hình 4.8 Hiệu quả mô hình ESO trên 614 câu 78
Hình 5.1 Kiến trúc của mô hình CROAS 81
Hình 5.2 Mô-đun Training của mô hình CROAS 82
Trang 10viii
Hình 5.3 Mạng nơ-ron xác định bộ trọng số W2 83Hình 5.4 Kết quả phân lớp của Ví dụ 5.1 89Hình 5.5 CRG của Ví dụ 5.1 90Hình 5.6 Mối quan hệ giữa khoảng cách Euclid trung bình và số bước lặp của mô-đun huấn luyện với 300.000 và 500.000 bước tiền huấn luyện 93Hình 5.7 Kết quả mô-đun phân lớp trên D1 và D2 với (a) 300.000 và (b) 500.000 bước tiền huấn luyện 94Hình 5.8 Kết quả mô-đun phân lớp trên ví dụ 4 với (a) 300.000 và (b) 500.000 bước tiền huấn luyện 94Hình 5.9 Đánh giá kết quả CROAS trên 1.000 văn bản cảm xúc 97
Trang 11ix
DANH MỤC BẢNG BIỂU
Bảng 2.1 Danh sách các đặc trưng được sử dụng trong [6] 20
Bảng 3.1 Tập dữ liệu của mô-đun Fine-Tuning1 48
Bảng 3.2 Tập dữ liệu của mô-đun Fine-Tuning2 48
Bảng 3.3 Thống kê số khía cạnh theo từ cảm xúc trong miền dữ liệu smartphone 49
Bảng 3.4 Các tham số của các mô-đun Training, Fine-Tuning1 và Fine-Tuning2 50
Bảng 3.5 So sánh độ chính xác của Fine-Tuning1 và Fine-Tuning2 50
Bảng 3.6 Mô tả tập dữ liệu smartphone dùng cho đánh giá thực nghiệm mô hình IAI 51 Bảng 3.7 Bảng so sánh mô hình IAI và ML-KB* trên Documents có 110 văn bản về smartphone 52
Bảng 3.8 Kết quả thực nghiệm cho 320 văn bản có cảm xúc về smartphone 64
Bảng 3.9 Phương pháp đánh giá mô hình Hình 3.7 65
Bảng 3.10 Kết quả đánh giá thực nghiệm của mô hình ở Hình 3.7 với 320 văn bản 65
Bảng 4.1 Kết quả SSW của “quality” và ba lớp con của lớp Aspect 73
Bảng 4.2 Một số quan hệ của văn phạm phụ thuộc 75
Bảng 4.3 Bảng mô tả SO trước khi làm giàu và tập dữ liệu thực nghiệm 76
Bảng 4.4 Kết quả làm giàu dữ liệu của ESO trên 614 câu văn bản cảm xúc 76
Bảng 4.5 Đánh giá kết quả thực nghiệm mô hình ESO trên 614 câu 77
Bảng 4.6 Đánh giá hiệu quả của SO sau khi được làm giàu dữ liệu 78
Bảng 5.1 Véc-tơ ngữ cảnh của các từ trong Ví dụ 5.2 85
Bảng 5.2 Sử dụng SO lọc ra các đối tượng, khía cạnh, cảm xúc 85
Bảng 5.3 Bộ dữ liệu huấn luyện của mô-đun Training 86
Bảng 5.4 Mẫu dữ liệu Classifying từ văn bản Ví dụ 5.1 88
Bảng 5.5 Kết quả phân lớp của Ví dụ 5.1 88
Bảng 5.6 Các thông số cài đặt của Pre-training và Training 91
Bảng 5.7 Kết quả huấn luyện trên Corpus1 với 300.000 bước tiền huấn luyện 92
Bảng 5.8 Kết quả huấn luyện trên Corpus1 với 500.000 bước tiền huấn luyện 92
Bảng 5.9 Kết quả đánh giá CROAS trên 1.000 văn bản bình luận về smartphone 95
Bảng 5.10 So sánh kết quả thực nghiệm của CROAS và hai công trình Baseline 96
Bảng 5.11 Kết quả thực nghiệm của CROAS 96
Trang 12x
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Diễn giải tiếng Anh Diễn giải tiếng Việt
CR Coreference Resolution Phân giải đồng tham chiếu
ACR Anaphora Coreference Resolution Phân giải đồng tham chiếu đại từ
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
SSW Semantic Similarity between Words Độ tương tự ngữ nghĩa giữa các từ
CROAS Coreference Resolution for Object
Aspect Sentiment
Đồng tham chiếu đối tượng, khía cạnh và cảm xúc
ECW Embedding Context Word Nhúng từ có ngữ cảnh
OCR1Obj Object Coreference Resolution with
cảm xúc SVM Support Vector Machine
TF-IDF Term Frequency – Inverse Document
Frequency
PMI Pointwise Mutual Information
Trang 131
CHƯƠNG 1 GIỚI THIỆU
1.1 Động cơ nghiên cứu
Phân giải đồng tham chiếu là một bài toán khá phổ biến trong lĩnh vực Xử lý ngôn
ngữ tự nhiên, được áp dụng trong tóm tắt văn bản, rút trích thông tin, hệ thống hỏi đáp, phân tích cảm xúc, v.v Trong văn bản, một đối tượng hay khía cạnh của một đối tượng
có thể được nhắc nhiều lần bởi chính cụm từ ban đầu hoặc có thể là những cụm từ khác, nhưng người đọc vẫn tham chiếu được đối tượng hay khía cạnh đó Các cụm từ khác này là một tên gọi ngắn gọn hơn, hay các đại từ, danh từ Để hiểu được nội dung một đoạn hay toàn bộ văn bản, thì người đọc phải nối ý của các câu với nhau Trong đó, quan trọng nhất là liên kết các từ thay thế với các từ chỉ đối tượng được đề cập ở những câu trước trong văn bản Việc xác định sự liên kết (sự tham chiếu) của các cụm từ cùng chỉ đến một đối tượng trong văn bản được gọi là bài toán phân giải đồng tham chiếu trong Xử lý ngôn ngữ tự nhiên
Bài toán phân giải đồng tham chiếu hiện nay có nhiều dạng, như đồng tham chiếu
đại từ, sự kiện, thực thể và đồng tham chiếu đối tượng, khía cạnh
Đồng tham chiếu đại từ [1-3]là bài toán phổ dụng, nhưng phức tạp trong Xử lý ngôn ngữ tự nhiên và thu hút sự quan tâm của nhiều nhà nghiên cứu Việc xác định các đại từ tham chiếu đến một danh từ, hoặc đại từ trước đó trong văn bản gọi là đồng tham chiếu
đại từ Đồng tham chiếu thực thể [4] là xác định thực thể nào đề cập trong văn bản tham chiếu đến cùng một thực thể Đồng tham chiếu sự kiện [5] là xác định sự kiện nào trong
văn bản tham chiếu đến cùng một sự kiện
Đồng tham chiếu đối tượng và khía cạnh [6]là nghiên cứu nhằm nâng cao hiệu quả của bài toán phân tích cảm xúc, đóng vai trò quan trọng vì giải quyết vấn đề làm mất
hay gán sai thông tin về cảm xúc, quan điểm cho các thực thể liên quan Ví dụ: “I bought
a Canon S500 camera yesterday It looked beautiful I took a few photos last night They were amazing." Trong câu thứ nhất, “a Canon S500 camera” là đối tượng được tham
chiếu bởi từ “It” trong câu thứ 2 Trong câu thứ ba, “photos” là thuộc tính của đối tượng
“Canon S500 camera” được tham chiếu bởi “They” trong câu thứ tư Bài toán phân giải
Trang 14là văn bản có cảm xúc và việc quan tâm đến vấn đề phân tích văn bản cảm xúc cũng là một nhu cầu tất yếu của thực tiễn và khoa học
Phân tích cảm xúc (Sentiment analysis) [7] hay còn gọi là khai phá ý kiến (Opinion
mining) là một lĩnh vực phân tích ý kiến, tình cảm, sự ước lượng, sự đánh giá, thái độ
và cảm xúc của con người về các thực thể như sản phẩm, dịch vụ, tổ chức, cá nhân, vấn
đề, sự kiện, chủ đề và các thuộc tính của chúng Bài toán phân tích cảm xúc vẫn đang là một vấn đề được khá nhiều công trình nghiên cứu quan tâm và bài toán được chia thành nhiều mức Thứ nhất là phân tích cảm xúc mức văn bản, thứ hai là mức câu, và chi tiết hơn là mức khía cạnh
Bài toán phân tích cảm xúc ở mức văn bản là bài toán đơn giản nhất trong phân tích
cảm xúc, với việc xác định tổng thể tính phân cực của văn bản là tích cực, tiêu cực hay trung lập Nhiệm vụ này thường được xem là bài toán phân lớp cảm xúc mức văn bản
Bài toán phân tích cảm xúc ở mức câu xác định mỗi câu trong văn bản có giá trị tích
cực, tiêu cực hay trung lập, phân tích cảm xúc ở mức này sâu hơn mức văn bản
Phân tích cảm xúc mức khía cạnh là xác định cảm xúc hay ý kiến nhận xét về các
khía cạnh hoặc đối tượng được đề cập trong văn bản Nói cụ thể hơn, ngoài việc đánh giá cảm nhận tích cực hay tiêu cực của một khía cạnh, đối tượng bằng một từ cảm xúc thì các đối tượng có thể là sản phẩm hay khía cạnh cũng phải được xác định cụ thể Ví
dụ, câu “although the service is not that great, I still love this restaurant” có tính tích
cực về “restaurant” nhưng tiêu cực về “service” Do đó phân tích cảm xúc ở mức khía cạnh được coi là phức tạp hơn so với hai mức trên
Tuy có nhiều phương pháp tiếp cận cho bài toán phân tích cảm xúc ở các mức, nhưng các tiếp cận này cũng chỉ mới dừng ở kết quả văn bản, câu hay khía cạnh và đối
Trang 153
tượng được đề cập có tính phân cực gì về cảm xúc mà vẫn chưa quan tâm mối quan hệ
giữa cảm xúc, khía cạnh và đối tượng Vấn đề nghiên cứu còn để mở này chính là động
cơ nghiên cứu của luận án
1.2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu của luận án là xây dựng mô hình phân giải đồng tham chiếu đối tượng
cho phân tích cảm xúc có một và nhiều đối tượng để xác định được các bộ ba đối tượng,
khía cạnh và cảm xúc từ các văn bản cảm xúc có một hoặc nhiều đối tượng Để đạt
được mục tiêu trên, trước tiên luận án giải quyết bài toán 1 “Phân giải đồng tham chiếu
đối tượng cho phân tích cảm xúc có một đối tượng” (được trình bày chương 3) Để giải
quyết bài toán 1, luận án đã nghiên cứu và tiếp cận các phương pháp và công cụ hỗ trợ như đồ thị đồng tham chiếu, ontology và xác định khía cạnh ẩn để giải quyết triệt để và nâng cao hiệu quả cho bài toán 1 Trong quá trình giải quyết bài toán 1, luận án đã nghiên
cứu và tiếp cận giải quyết bài toán 2 “Làm giàu ontology cảm xúc” và bài toán 3 “Xác
định khía cạnh ẩn” Cuối cùng, luận án tiếp cận và giải quyết bài toán 4 “Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng” Để giải quyết được
bài toán 4, là vấn đề khó, vì chưa có công trình nào công bố trước đó Luận án đã nghiên cứu các phương pháp tiếp cận, và cuối cùng đã chọn phương pháp học sâu, có ứng dụng
mô hình ngôn ngữ BERT
Trước khi đi vào chi tiết mục tiêu, luận án đưa ra các định nghĩa, khái niệm của một
số thuật ngữ được sử dụng trong luận án
- Đối tượng (Object) là một khái niệm chỉ đến một thực thể hay là một tên riêng của
một sản phẩm, đồ vật cụ thể Ví dụ: Samsung Galaxy Note7, iPhone 6S là tên riêng chỉ đến đối tượng là điện thoại di động
- Khía cạnh (Aspect) là một khái niệm đề cập đến một thành phần (component) hay
một thuộc tính (tính chất - attribute) của một đối tượng Ví dụ như pin (battery) là một thành phần của smartphone, thiết kế (design), giá thành (price) là các thuộc tính của smartphone, v.v
- Cảm xúc (Sentiment) là những khái niệm gồm những từ mang cảm xúc, ý kiến về
một khía cạnh của đối tượng Cảm xúc có thể là tích cực (khen), trung lập (không
Trang 164
khen, không chê) và tiêu cực (chê, phê bình) Ví dụ, beautiful (tích cực), normal (trung lập), bad (tiêu cực)
Việc xác định cảm xúc cho một khía cạnh của một đối tượng cụ thể cho thấy chi
tiết hơn về chất lượng của một sản phẩm mà một khách hàng quan tâm Trên cơ sở phân
giải đồng tham chiếu trên văn bản có cảm xúc, tác giả luận án đề xuất (1) bài toán phân
giải đồng tham chiếu đối tượng để tìm ra bộ ba gồm đối tượng, khía cạnh và cảm xúc
Tuy nhiên với văn bản có từ hai đối tượng trở lên thì việc tìm ra các khía cạnh, cảm xúc thuộc về đối tượng nào sẽ khó hơn rất nhiều Xét ví dụ sau:
Ví dụ 1.1: “I gave my 6s plus to my wife and bought for myself an Apple iPhone7
two days ago iPhone7 is beautiful The battery is amazing But what I really appreciate
is the speaker producing good sound and its 128g storage.”
Trong Ví dụ 1.1 xuất hiện hai đối tượng “6s plus” và “Apple iPhone7” (nói ngắn gọn
là “iPhone7”) Ngoài ra có một số các khía cạnh như “battery”, “speaker”, “sound”,
“storage” và các từ cảm xúc “beautiful”, “amazing”, “appreciate”, “good” Vậy các từ
chỉ khía cạnh và cảm xúc này sẽ đề cập đến đối tượng nào trong hai đối tượng trên
Với người đọc có thể dễ nhận thấy các cặp khía cạnh - cảm xúc như: “battery” -
“amazing”, “speaker” - “appreciate”, “sound” - “good” và “beautiful - khía cạnh ẩn”
cùng nói về “Apple iPhone7” Với văn bản có từ hai đối tượng trở lên, việc xác định
khía cạnh, cảm xúc cho đối tượng cụ thể trở nên phức tạp hơn
Dựa trên đặc điểm của loại văn bản, yêu cầu của bài toán đặt ra và các tiếp cận hiện
nay, luận án đề xuất (2) hướng giải quyết đồng tham chiếu đối tượng trên cơ sở cảm
xúc từ văn bản đơn giản chỉ có một đối tượng đến văn bản có từ hai đối tượng trở lên
Trong thực tế, các văn bản cảm xúc đề cập từ hai đối tượng trở lên khá nhiều, vì khách hàng thường có sự so sánh các sản phẩm với nhau Với các văn bản đề cập nhiều hơn một đối tượng, để xác định khía cạnh và cảm xúc của đối tượng nào là vấn đề trọng tâm của bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc Hiện nay, vấn đề này còn rất ít công trình khoa học được công bố
Phạm vi nghiên cứu của luận án được thực nghiệm trên các văn bản có cảm xúc,
bình luận và nhận xét về các sản phẩm bằng tiếng Anh Vì nguồn dữ liệu tiếng Anh
Trang 175
phong phú và các công cụ hỗ trợ trong xử lý ngôn ngữ tự nhiên cho văn bản tiếng Anh rất mạnh nên luận án chọn văn bản cảm xúc bằng tiếng Anh để nghiên cứu và thực nghiệm giải pháp đề xuất
RECOAS: Nhận dạng các thành phần trong văn bản theo cấu trúc của ontology cảm
xúc, như đối tượng, khía cạnh, cảm xúc và các mối quan hệ giữa các thành phần
OCR1Obj: Mô-đun phân giải đồng tham chiếu đối tượng trong văn bản chỉ đề cập đến một đối tượng
OCR2Obj: Mô-đun phân giải đồng tham chiếu đối tượng trong văn bản đề cập, có
từ hai đối tượng trở lên
EMBEDDING CONTEXT WORD (ECW): Mô-đun chuyển đổi các từ thành các
véc-tơ dựa theo ngữ cảnh trái và phải của các từ trong một câu của một đoạn văn bản
COREFERENCE RESOLUTION: Sử dụng đồ thị đồng tham chiếu để truy xuất
bộ ba: đối tượng – khía cạnh – cảm xúc về các đối tượng được đề cập trong văn bản
SENTIMENT ONTOLOGY: Cơ sở tri thức chứa các thể hiện của đối tượng, khía
cạnh, cảm xúc về một loại sản phẩm và mối quan hệ giữa các thành phần
POPULATION: Mô-đun làm giàu cơ sở tri thức ontology cảm xúc SENTIMENT
ONTOLOGY
TRIPLETS OF OBJECT – ASPECT – SENTIMENT: Kết quả của mô hình là
các bộ ba: đối tượng – khía cạnh – cảm xúc về các đối tượng trong Document
Nhiệm vụ của mô hình: Từ một văn bản được phân tích cú pháp và chuyển đổi các
từ thành các véc-tơ số, mô hình sẽ nhận diện các thành phần dựa vào ontology cảm xúc,
Trang 186
xác định số đối tượng được đề cập trong văn bản Nếu số đối tượng lớn hơn 1 (Obj > 1) thì bài toán phân giải đồng tham chiếu đối tượng được thực hiện theo mô-đun OCR2Obj, ngược lại bài toán thực hiện theo mô-đun OCR1Obj Sau khi xác định được các thành phần và các cặp, như đối tượng - cảm xúc, đối tượng - khía cạnh, khía cạnh - cảm xúc, v.v thì các thành phần và mối quan hệ giữa chúng được đưa vào một đồ thị đồng tham chiếu có hướng và có trọng số CRG Áp dụng các thuật toán tìm kiếm trên đồ thị xác định được các bộ ba đối tượng - khía cạnh - cảm xúc
Hình 1.1 Mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Trang 197
Để hiểu chi tiết hơn về các mô-đun và lý do đề xuất mô hình, trong chương 2 luận
án sẽ trình bày các nghiên cứu liên quan: bài toán phân tích cảm xúc mức khía cạnh, bài toán phân giải đồng tham chiếu, ontology cảm xúc, v.v Với mỗi bài toán, luận án sẽ trình bày các phương pháp đã và đang được quan tâm và đưa ra các điểm còn hạn chế
Từ đó khẳng định giải pháp đề xuất của tác giả là cần thiết
Để xây dựng mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc, luận án cần giải quyết một số bài toán sau
Bài toán 1: Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có một đối
tượng - OCR1Obj
Với văn bản có một đối tượng, giải quyết bài toán phân giải đồng tham chiếu đối tượng sẽ dựa vào cơ sở tri thức Văn bản cảm xúc chỉ đề cập đến một đối tượng thì từ, cụm từ chỉ khía cạnh, cảm xúc đều tham chiếu đến một đối tượng duy nhất Yêu cầu đặt
ra của bài toán là phải xác định được từ, cụm từ nào chỉ khía cạnh, cảm xúc và đối tượng Để hỗ trợ xác định cảm xúc, khía cạnh và đối tượng chính xác, luận án đề xuất xây dựng
cơ sở tri thức chuyên biệt cho bài toán phân giải đồng tham chiếu đối tượng, đó là ontology cảm xúc Đây là một mục tiêu của luận án
Ontology cảm xúc là một cơ sở tri thức được chia làm ba lớp Object, Aspect và Sentiment bao gồm các từ, cụm từ chỉ đối tượng, khía cạnh và cảm xúc Ngoài ra nó xác định được các mối quan hệ trong bộ ba, từ đó hỗ trợ xác định khía cạnh ẩn cho cảm xúc, giải quyết đồng tham chiếu thực thể có tên và xác định từ cảm xúc là tích cực, tiêu cực hay trung lập
Các mối quan hệ giữa các thành phần đối tượng, khía cạnh và cảm xúc trong văn bản được tổng hợp từ đồng tham chiếu đại từ và thực thể có tên, kết hợp với các mối quan
hệ ngữ nghĩa (được xác định bằng văn phạm phụ thuộc) trong câu Các thành phần này được kết nối thông qua một đồ thị đồng tham chiếu và từ đó rút ra được các bộ ba đối tượng - khía cạnh - cảm xúc
Đồ thị đồng tham chiếu là một đồ thị có hướng và trọng số, với các đỉnh là các từ, cụm từ được xác định từ đồng tham chiếu đại từ và thực thể có tên Các cạnh có hướng
và trọng số được gán theo mối quan hệ giữa các thành phần trong ontology cảm xúc
Trang 208
Phương pháp giải quyết cho bài toán phân giải đồng tham chiếu đối tượng cho văn bản một đối tượng được trình bày chi tiết trong chương 3
Để giải quyết Bài toán 1, luận án đề xuất xây dựng:
- ontology cảm xúc (Sentiment Ontology-SO) hỗ trợ phân giải đồng tham chiếu đối tượng
- đồ thị đồng tham chiếu (CoReference Graph-CRG) để xác định bộ ba đối tượng, khía cạnh và ý kiến (Obj-Asp-Sen)
- mô hình phân giải đồng tham chiếu (một) đối tượng
Nội dung liên quan đến đóng góp này được công bố trong các công trình [Error! R eference source not found.], [Error! Reference source not found.]
Bài toán 2: Làm giàu ontology cảm xúc hỗ trợ phân giải đồng tham chiếu đối tượng
Ontology cảm xúc SO là một công cụ hỗ trợ đắc lực cho bài toán phân giải đồng tham chiếu đối tượng trên cơ sở cảm xúc Để nâng cao hiệu quả việc nhận dạng các từ, cụm từ thuộc về thành phần nào trong bộ ba Obj-Asp-Sen thì ontology cảm xúc cần chứa nhiều từ, cụm từ chỉ đối tượng, khía cạnh và cảm xúc có trong văn bản cảm xúc Việc lưu trữ đầy đủ các từ, cụm từ là một vấn đề không thể đạt được Nhưng hiện nay với lượng thông tin khổng lồ trên các trang mạng sẽ là kho ngữ liệu đủ lớn để có thể rút trích các thông tin cần thiết và lưu trữ trong SO Luận án đã xây dựng mô hình làm giàu ontology cảm xúc (Enriched Sentiment Ontology - ESO) dựa trên các thể hiện (instance) của các lớp Đây là một nhu cầu cần thiết của bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Cách tiếp cận để xây dựng mô hình ESO là sự kết hợp phương pháp dựa theo luật, phương pháp tính độ tương tự ngữ nghĩa giữa các từ và xác định phân cực cảm xúc dựa trên các bộ từ vựng khá phổ dụng như WordNet và Opinion Lexicon trong lĩnh vực xử lý ngôn ngữ tự nhiên
Mục tiêu của Bài toán 2 là làm giàu thông tin về tên các sản phẩm, các khía cạnh và các từ cảm xúc tích cực, tiêu cực hay trung lập
Trang 219
Nội dung liên quan đến đóng góp này được công bố trong công trình [Error! R eference source not found.]
Bài toán 3: Xác định khía cạnh ẩn hỗ trợ phân giải đồng tham chiếu đối tượng
Khía cạnh là các đặc điểm, tính chất hay thuộc tính của một đối tượng trong văn bản
có ý kiến, thường được đề cập trong văn bản và đi kèm với nó là các từ chỉ cảm xúc, ý kiến Với những khía cạnh xuất hiện tường minh trong văn bản thì việc xác định và rút trích chúng sẽ dễ dàng, tuy nhiên vẫn tồn tại nhiều khía cạnh thường được đề cập đến thông qua các từ chỉ cảm xúc trong ngữ cảnh cụ thể thuộc miền chuyên biệt của văn bản, gọi là khía cạnh ẩn Việc xác định khía cạnh ẩn gặp nhiều khó khăn vì một từ chỉ cảm xúc không chỉ tham chiếu đến một mà có thể nhiều khía cạnh, tùy thuộc vào ngữ cảnh thuộc miền xác định của văn bản Dựa trên tập dữ liệu lớn là các văn bản cảm xúc hay còn gọi là kho ngữ liệu, có nhiều thông tin, dấu hiệu về các khía cạnh tường minh và không tường minh, luận án đề xuất tiếp cách giải quyết bài toán là sử dụng véc-tơ ngữ cảnh cùng với máy học, học sâu để tìm ra mô hình xác định khía cạnh ẩn, hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Mục tiêu của bài toán 3:
- Xây dựng mô hình xác định khía cạnh ẩn hỗ trợ phân giải đồng tham chiếu đối
tượng
Bài toán 4 : Phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều
đối tượng – OCR2Obj
Đây là bài toán phức tạp và khó hơn Bài toán 1 Vì trong văn bản có nhiều hơn một đối tượng, có thể xuất hiện câu, từ so sánh các đối tượng thông qua các khía cạnh của chúng Một đối tượng có thể được nhận xét, bình luận ở nhiều khía cạnh Các khía cạnh thường không đi kèm với đối tượng cụ thể mà thay vào đó là các từ thay thế khác như đại từ, thực thể đồng tham chiếu Vì vậy việc xác định khía cạnh, cảm xúc thuộc về đối tượng nào là nhiệm vụ trọng tâm của Bài toán 4 Với văn bản có một đối tượng, tất cả
từ, cụm từ chỉ khía cạnh và cảm xúc chắc chắn tham chiếu đến đối tượng duy nhất trong văn bản Dựa vào mối quan hệ trong bộ ba đối tượng - khía cạnh - cảm xúc của các văn
Trang 2210
bản có một đối tượng để làm cơ sở, từ đó xác định mối quan hệ giữa khía cạnh, cảm xúc với các đối tượng trong văn bản có nhiều đối tượng
Mục tiêu của Bài toán 4 :
- Xác định mô hình sinh véc-tơ ngữ cảnh cho văn bản cảm xúc theo miền
- Xây dựng mô hình phân giải đồng tham chiếu đối tượng - khía cạnh - cảm xúc cho các văn bản có ý kiến đề cập từ hai đối tượng trở lên
Nội dung liên quan đến đóng góp này được công bố trong công trình [1]
1.4 Đóng góp chính của luận án
Các đóng góp chính của luận án bao gồm:
• Đóng góp thứ nhất: Xây dựng ontology cảm xúc SO và đồ thị đồng tham chiếu
CRG hỗ trợ phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc
Ontology cảm xúc SO được xây dựng bán tự động dựa trên ontology của [8] Với mục tiêu nhận dạng các từ, cụm từ chỉ đối tượng, khía cạnh và cảm xúc bằng ontology, kiến trúc của ontology bao gồm có ba lớp chính là Object, Aspect và Sentiment Trong mỗi lớp sẽ có các lớp con tùy theo miền chuyên biệt, ví dụ ontology cảm xúc về smartphone thì trong Object có các lớp con như Samsung, iPhone, v.v Trong Aspect có Device, Attribute và Application; trong Sentiment có Positive, Negative và Neutral Ngoài việc nhận dạng các thành phần của bộ ba đối tượng, khía cạnh và cảm xúc, ontology cảm xúc có thể:
- xác định khía cạnh không tường minh cho cảm xúc;
- xác định khía cạnh với đối tượng;
- giải quyết đồng tham chiếu thực thể có tên;
- xác định cảm xúc là tích cực, tiêu cực hay trung lập;
- xác định mối quan hệ giữa các thành phần trong bộ ba
Công cụ thứ hai hỗ trợ giải quyết bài toán phân giải đồng tham chiếu đó là đồ thị đồng tham chiếu (CRG), là công cụ cuối cùng để sinh ra các bộ ba đối tượng, khía cạnh và cảm xúc CRG là đồ thị có hướng và có trọng số với mỗi đỉnh là các từ, cụm
từ thuộc bộ đồng tham chiếu đại từ, thực thể có tên hoặc bộ phân tích cảm xúc mức
Trang 2311
khía cạnh Trọng số của mỗi cạnh là khoảng cách giữa các lớp mà mỗi từ, cụm từ thuộc về lớp đó Luận án áp dụng các thuật toán tìm kiếm, duyệt cây để xác định các
bộ ba đối tượng - khía cạnh - cảm xúc trên một miền chuyên biệt
Đóng góp thứ nhất được công bố trong các công trình [Error! Reference source n
ot found., Error! Reference source not found.]
• Đóng góp thứ hai: Mô hình phân giải đồng tham chiếu đối tượng cho phân tích
cảm xúc cho văn bản có một đối tượng
Từ đóng góp thứ nhất, luận án xây dựng được mô hình phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc cho văn bản có một đối tượng Trọng tâm của mô hình là mô-đun OBASCore Mô hình sử dụng ontology nhận dạng đối tượng, khía cạnh và cảm xúc dựa trên kết quả của phân giải đồng tham chiếu đại từ, thực thể có tên (ký hiệu Core) và phân tích cảm xúc mức khía cạnh (ký hiệu Sen) Sau đó, OBASCore kết nối các kết quả của Core và Sen trên đồ thị đồng tham chiếu CRG và suy luận ra bộ ba đồng tham chiếu đối tượng - khía cạnh - cảm xúc
Đóng góp thứ hai được công bố trong các công trình [Error! Reference source n
ot found., Error! Reference source not found.]
• Đóng góp thứ ba: Đề xuất mô hình làm giàu ontology cảm xúc
Ontology là công cụ hỗ trợ cho bài toán phân giải đồng tham chiếu đối tượng, vì vậy nó ảnh hưởng đến hiệu quả của bài toán Nếu ontology cảm xúc chứa nhiều thông tin tri thức thì việc nhận dạng và suy luận mối quan hệ giữa các thành phần trong một văn bản càng chính xác Để nâng cao hiệu quả của công cụ hỗ trợ này thì việc làm giàu thêm tri thức cho ontology là mục tiêu cần thiết của luận án Cách tiếp cận để làm giàu ontology đã được giới thiệu ở Bài toán 2 và sẽ được trình bày chi tiết trong chương 4
Đóng góp thứ ba được công bố trong công trình [Error! Reference source not f ound.]
• Đóng góp thứ tư: Đề xuất mô hình xác định khía cạnh ẩn trong văn bản cảm
xúc
Trang 2412
Mô hình xác định khía cạnh ẩn được áp dụng phương pháp học sâu trên một kho ngữ liệu các văn bản cảm xúc (Corpus12) để tìm ra một mô hình phân lớp khía cạnh cho các khía cạnh ẩn Đầu tiên mô hình huấn luyện từ bộ dữ liệu sinh ra từ Corpus12
và nhận được bộ trọng số W1 Sau đó W1 tiếp tục được tinh chỉnh trên các tập dữ liệu tương ứng với mỗi từ cảm xúc cho ra các bộ trọng số W2s Cuối cùng, W2s lần lượt được tinh chỉnh trên các tập dữ liệu tương ứng với các từ cảm xúc tham chiếu đến các khía cạnh thuộc lớp thuộc tính (Attribute) của ontology cảm xúc Kết quả cuối cùng là W3s được dùng để phân lớp khía cạnh ẩn hỗ trợ phân giải đồng tham chiếu đối tượng
• Đóng góp thứ năm: Xây dựng mô hình phân giải đồng tham chiếu đối tượng cho
văn bản cảm xúc có từ hai đối tượng trở lên
Với mục tiêu xác định các bộ ba đối tượng - khía cạnh – cảm xúc trong một văn bản có ý kiến, cảm xúc với hai đối tượng trở lên, mô hình sử dụng mô-đun tiền huấn luyện để sinh ra véc-tơ có ngữ cảnh cho các từ chỉ đối tượng, khía cạnh và cảm xúc Cách tiếp cận của mô hình được áp dụng theo phương pháp mới hiện nay là học máy
và học sâu dựa trên ngữ cảnh của văn bản và ontology cảm xúc Để áp dụng phương pháp học máy và học sâu, bài toán cần xác định bộ dữ liệu được học từ một kho ngữ liệu theo miền (Corpus12) Đặc biệt kho ngữ liệu này được phân tách thành hai là kho ngữ liệu chứa các văn bản cảm xúc đề cập đến một đối tượng (Corpus1) và kho ngữ liệu đề cập từ hai đối tượng trở lên (Corpus2) Có hai vấn đề luận án cần phải xử lý, thứ nhất chuyển đổi dữ liệu từ văn bản sang dữ liệu số có ngữ cảnh hay còn
gọi contextual word embedding, thứ hai lọc trên bộ dữ liệu số những mẫu dữ liệu
theo cặp đối tượng - khía cạnh và đối tượng - cảm xúc để huấn luyện Bộ dữ liệu mẫu được huấn luyện nằm trong ngữ cảnh của kho ngữ liệu Corpus1 Sau khi huấn luyện Corpus1, luận án thu được một mô hình dùng để phân lớp đối tượng cho khía cạnh và cảm xúc trong một văn bản Kết quả phân lớp được đưa vào đồ thị CRG và
áp dụng các thuật toán tìm kiếm và duyệt cây xác định được các bộ ba đối tượng – khía cạnh – cảm xúc Các bộ ba này là kết quả cuối cùng của bài toán phân giải đồng tham chiếu đối tượng cho phân tích cảm xúc có nhiều đối tượng
Đóng góp thứ năm được công bố trong các công trình [1]
Trang 2513
1.5 Cấu trúc của luận án
Luận án được chia thành sáu chương và một phụ lục, trong đó ở đầu mỗi chương đều
có phần giới thiệu tổng quan và ở cuối mỗi chương đều có phần kết chương
Chương 1 trình bày mục tiêu, phạm vi nghiên cứu của luận án và những đóng góp
chính của luận án; giới thiệu cấu trúc của luận án
Chương 2 trình bày các nghiên cứu liên quan đến các vấn đề mà luận án quan tâm
Chương này trình bày một cách tổng quan những hướng nghiên cứu liên quan đến phân giải đồng tham chiếu, phân tích cảm xúc, phân giải đồng tham chiếu cho phân tích cảm xúc, xác định khía cạnh ẩn, xây dựng và làm giàu ontology trên miền chuyên biệt
Chương 3 trình bày mô hình, giải thuật phân giải đồng tham chiếu đối tượng cho
phân tích cảm xúc của văn bản có một đối tượng Đồng tham chiếu đối tượng cho phân tích cảm xúc của văn bản có một đối tượng là bài toán cơ bản làm tiền đề để giải quyết bài toán phân giải đồng tham chiếu đối tượng phức tạp hơn, với văn bản có từ hai đối tượng trở lên
Chương 4 trình bày mô hình làm giàu ontology cảm xúc hỗ trợ phân giải đồng tham
chiếu
Chương 5 trình bày mô hình, giải thuật phân giải đồng tham chiếu đối tượng cho
phân tích cảm xúc cho văn bản có nhiều đối tượng Đây là bài toán phức tạp, vì vậy chương này sẽ trình bày các mô-đun hỗ trợ như tiền xử lý văn bản, mô-đun học sâu để sinh ra các véc-tơ ngữ cảnh, mô-đun huấn luyện và cuối cùng là mô-đun phân giải đồng tham chiếu sinh ra các bộ ba đối tượng, khía cạnh và cảm xúc
Chương 6 là phần tổng kết của luận án, trong đó trình bày những kết quả mà luận
án đã đạt được cũng như những dự định nghiên cứu trong tương lai Các kết quả của luận án đã được công bố trong các công trình [1-1]
Trang 262.1 Phân giải đồng tham chiếu
Phân giải đồng tham chiếu là một thách thức phổ biến trong xử lý ngôn ngữ tự nhiên
và được ứng dụng trong các bài toán như phân tích cảm xúc [7], tóm tắt văn bản [9], và rút trích thông tin hoặc hệ thống hỏi đáp [10]
Bài toán phân giải đồng tham chiếu được chia ở nhiều dạng đồng tham chiếu, như đồng tham chiếu đại từ, đồng tham chiếu thực thể, đồng tham chiếu sự kiện Mỗi dạng bài toán đến nay đã có nhiều phương pháp được nghiên cứu và áp dụng như dựa theo luật, dựa theo học máy, thống kê và học sâu, v.v Đối với phân giải đồng tham chiếu đại
từ (ACR) và thực thể, bài toán tập trung vào việc xác định các cặp danh từ hoặc đại từ với danh từ cùng đồng tham chiếu đến một đối tượng Trong [2], R Sukthanker cùng các cộng sự (2018) đã tổng hợp đồng tham chiếu đại từ được chia thành nhiều loại tham chiếu khác nhau và các ràng buộc cho đồng tham chiếu đại từ Từ các ràng buộc này, nhiều công trình nghiên cứu đã đưa ra các tiếp cận từ dựa theo luật đến học máy Các giải pháp dựa theo luật như các công trình [11-19] Trong đó các công trình sử dụng các đặc trưng về cú pháp và ngữ nghĩa của văn bản được xem xét để xây dựng các luật giải quyết đồng tham chiếu đại từ và thực thể Tiếp cận học máy như cây quyết định [20-22], Bayes [23] mang lại hiệu quả cao hơn tiếp cận dựa theo luật Hoặc các công trình [24-26] giải quyết đồng tham chiếu theo tiếp cận gom cụm Ngoài ra, phân giải đồng
tham chiếu dựa vào đồ thị có các công trình [27-30] Công trình [29], A Culotta và các
cộng sự (2007) áp dụng đồ thị để giải quyết bài toán đồng tham chiếu cụm danh từ, với mỗi đỉnh của đồ thị là cụm danh từ và mỗi cạnh có trọng số tương ứng với xác suất mà hai danh từ đồng tham chiếu Sau đó phân chia đồ thị thành các cụm rời rạc tương ứng với phân giải đồng tham chiếu trên cụm danh từ Công trình [30] sử dụng đồ thị vô
Trang 2715
hướng có trọng số là độ tin cậy giữa các đỉnh và cũng là cạnh giữa hai đỉnh Sau đó áp dụng thuật toán Min-Cut [31] để tính trọng số cắt và dừng Hay tiếp cận đồ thị có tri thức, ontology [32], R Prokofyev và các cộng sự (2015) đề xuất thêm tầng ngữ nghĩa để giải quyết đồng tham chiếu tốt hơn Tầng ngữ nghĩa sử dụng các kỹ thuật Web ngữ nghĩa cụ thể là Knowledge Graph (e.g., DBpedia) Hiện nay, có nhiều công trình áp dụng tiếp cận học sâu [33] sử dụng mạng nơ-ron lan truyền tiến (FFNN) [34-36] hay [37] kết hợp FFNN với Recurrent Neural Network (RNN) hoặc [38] kết hợp FFNN, LSTM (Long Short Term Memory), CNN (Convolutional Neural Network) và attention Đây là các kỹ thuật học sâu khá hiệu quả trong một số nhiệm vụ của lĩnh vực NLP và cũng hiệu quả trong phân giải đồng tham chiếu đại từ và thực thể Với tiếp cận học sâu, các từ được biểu diễn như một véc-tơ mang được ngữ nghĩa của từ trong câu Đến nay bài toán đồng tham chiếu vẫn được quan tâm và nghiên cứu vì tính ứng dụng của nó trong các bài toán liên quan đến NLP
Dạng bài toán thứ hai là đồng tham chiếu sự kiện So với đồng tham chiếu đại từ, thực thể, bài toán đồng tham chiếu sự kiện được cho là thách thức hơn Việc xác định các đề cập sự kiện đồng tham chiếu đến cùng một sự kiện là xác định các từ ngữ đề cập đến sự kiện có thể có liên quan đến thời gian, địa điểm, nhân vật, hay địa điểm Từ các yếu tố này, bài toán sẽ xác định mối quan hệ đồng tham chiếu đến một sự kiện trong văn bản Với bài toán đồng tham chiếu sự kiện cũng có nhiều cách tiếp cận như cây quyết định [39], Maximum Entropy [40,41], Support Vector Machines (SVM) [42], và mạng nơ-ron (ANN) [43,44], v.v
Trên đây là hai bài toán phổ biến về đồng tham chiếu, tuy nhiên đồng tham chiếu đại
từ và thực thể được ứng dụng và xuất hiện nhiều trong các bài toán NLP khác như tóm tắt văn bản, phân tích cảm xúc, v.v
2.2 Phân tích cảm xúc
Phân tích cảm xúc cũng là bài toán thách thức hiện nay, được cộng đồng NLP quan tâm
và vẫn còn tiếp tục nghiên cứu Bài toán này thường được chia thành ba mức: mức văn bản, mức câu và mức khía cạnh
Phân tích cảm xúc ở mức văn bản là bài toán đơn giản và thường được xem là bài
toán phân lớp cảm xúc mức văn bản Phân loại văn bản bằng một số phương pháp học
Trang 2816
có giám sát: Naive Bayes [45,46] Phân loại văn bản bằng Support Vector Machine
(SVM) [47-50], ngoài ra, nhiều biến thể của SVM cũng đã được phát triển, ví dụ như
Multi class SVM được dùng trong [51]; Maximal Entropy [52-54]; mô hình n-gram [55]
Các phương pháp phân loại văn bản nêu trên được áp dụng cho bài toán phân lớp cảm xúc mức văn bản
Bài toán phân tích cảm xúc ở mức câu có một số phương pháp, công trình nghiên
cứu ở mức câu như phân tích hướng ngữ nghĩa [56-59], học sâu [60], appraisal [61], point of view [62]
Phân tích cảm xúc mức khía cạnh (ABSA) [7] là xác định các ý kiến về thực thể ở
từng đặc tính của nó Mỗi thực thể hay đối tượng trong một văn bản cảm xúc thường được đề cập đến các khía cạnh đi kèm với cảm xúc, quan điểm Bài toán cần xác định
từ cảm xúc nào tham chiếu đến khía cạnh gì trong văn bản Bài toán phân tích ở mức này tập trung vào việc xác định các cặp khía cạnh - cảm xúc và đánh giá cảm xúc của khía cạnh ABSA có thể được chia thành ba bài toán con: rút trích khía cạnh và cảm xúc, phân tích từ cảm xúc và tóm tắt cảm xúc Trong đó, rút trích khía cạnh và cảm xúc là bài toán con quan trọng trong ABSA Với mỗi bài toán con đều có một số vấn đề phức tạp sẽ được đào sâu và phân tích tiếp bởi cộng đồng nghiên cứu xử lý ngôn ngữ tự nhiên, đặc biệt phân tích cảm xúc
Ví dụ 2.1: “I have just bought a Samsung Galaxy Note7 I like Note7 because its
design looks beautiful However, it is expensive It has a camera I took a photo and it
is amazing.”
Trong Ví dụ 2.1, văn bản đang nhận xét về chiếc điện thoại “Samsung Galaxy Note7” và chúng ta thấy rõ “beautiful” là khen khía cạnh “design”; “amazing” là khen khía cạnh “photo” Ngoài ra “expensive” cũng là từ chỉ cảm xúc nhưng trong văn bản không đề cập tường minh khía cạnh mà “expensive” nói tới
Công trình [63], C Manning và cộng sự (2014) đã sử dụng ngân hàng cây có nhãn cảm xúc (Stanford Sentiment Treebank) và mạng Neural Tensor đệ quy (Recursive Neural Tensor Network - RNTN) để phân lớp các câu theo năm lớp từ rất tiêu cực (very negative) đến rất tích cực (very positive) thể hiện qua các ký hiệu: , -, 0, +, + + Stanford Sentiment Treebank là một kho ngữ liệu với các cây được phân tích cú pháp
có gán nhãn cảm xúc Các nút lá sẽ được gán giá trị cảm xúc, các nút cha được tính giá
Trang 2917
trị thông qua các nút con bởi một hàm thành phần Mỗi nút là một véc-tơ đặc trưng, qua
bộ phân lớp được gán một trong năm nhãn lớp ( , -, 0, +, ++) Quá trình này sẽ được thực hiện đệ quy về đến nút gốc Phương pháp của [63] được tích hợp vào một công cụ xử lý NLP khá nổi tiếng là Stanford CoreNLP Việc phân tích cảm xúc được coi như một tầng trong kiến trúc của CoreNLP
Công trình [64], M Hu và B Liu (2004) sẽ phân tích ý kiến sản phẩm theo từng khía cạnh, phân loại ý kiến thành khen hoặc chê Đầu tiên, các tác giả nhận dạng các khía cạnh của sản phẩm và xếp hạng các khía cạnh theo tần suất xuất hiện của chúng trong các đánh giá Với mỗi khía cạnh, các tác giả nhận diện số ý kiến là khen hay chê theo hướng ngữ nghĩa Trong đó, công trình sử dụng từ điển WordNet và kỹ thuật tái định cỡ mẫu trong xác suất thống kê để xác định ngữ nghĩa
Ngoài ra, phân tích cảm xúc mức khía cạnh được giải quyết theo nhiều hướng tiếp cận khác như phương pháp mô hình hóa chủ đề (Topic modeling) [65]; Probabilistic Latent Semantic Analysis (PLSA) [66-68]; dựa trên Latent Dirichlet Analysis (LDA) [69-72]; học máy [73,74]; học sâu [75-82]; v.v
Trong [67], A Balahura và các cộng sự (2009) thực hiện phân cực cảm xúc với ba mức khác nhau (cao, trung bình và thấp), sau đó các tác giả sẽ tóm tắt văn bản dựa trên yếu tố cảm xúc Các tác giả kết hợp các từ điển SentiWordNet, WordNet Affect và Micro WordNet Option cho thử nghiệm Ở quá trình tóm tắt, công trình [67] dùng phương pháp LSA (Latent Semantic Analysis) để tìm kiếm các câu có độ quan trọng lớn nhất, đồng thời có sự tương đồng về mặt ngữ nghĩa với chủ đề
Phát triển công trình [67], A Balahur và các cộng sự (2012) [68] vẫn sử dụng LSA nhưng kết hợp nhiều nguồn từ điển để tăng cường kiến thức đặc trưng ngữ nghĩa Với
sự thay đổi này giúp hệ thống mới có được kết quả khá ấn tượng
Công trình [77], H Wu và các cộng sự (2016) thực hiện rút trích ý kiến và phân lớp cảm xúc dựa trên khía cạnh Cách tiếp cận của các tác giả là dựa trên mạng nơ-ron tích chập CNN theo hai phương pháp là cascade CNN (C-CNN) và multitask CNN (M-CNN) Hai phương pháp khác nhau ở điểm các bộ CNN sắp xếp câu theo khía cạnh và phân lớp cảm xúc cho câu ở cùng một mức, dùng chung ma trận từ nhúng để thực hiện các phần việc riêng, không phụ thuộc nhau
Trang 3018
Công trình [78], D Dhanush và các cộng sự (2016) sử dụng mạng nơ-ron hồi quy RNN (Recurrent Neuron Network) để phát hiện và gán nhãn khía cạnh Các câu được gán nhãn sẽ được phân loại cảm xúc bằng CNN Trong giai đoạn tiền xử lý, các tác giả sử dụng Word2Vec để tạo ma trận cho tầng Word Embedding
Ngoài ra, bài toán phân tích cảm xúc mức khía cạnh còn sử dụng sự kết hợp Ontology chuyên biệt với các luật ngôn ngữ cụ thể để xử lý các từ cảm xúc [8] Trong [8], T Nguyen và các cộng sự (2014) đã đề xuất ontology cảm xúc SO (Sentiment Ontology) khá chi tiết và áp dụng vào việc phân tích cảm xúc mức khía cạnh Các tác giả muốn xác định ý kiến cảm xúc cho các hãng sản xuất, sản phẩm hoặc các đặc trưng Sử dụng ontology cảm xúc, [8] nhận diện tất cả các thực thể có mối quan hệ cảm xúc từ một văn bản cảm xúc Chính vì vậy ontology cảm xúc do các tác giả đề xuất có hai lớp khái niệm (khía cạnh và cảm xúc) cùng các tập mối quan hệ (quan hệ không phân loại, quan hệ phân loại và quan hệ cảm xúc) Cụ thể cấu trúc SO sẽ được trình bày ở phần 2.5
Bài toán phân tích cảm xúc là một chủ đề rất được cộng đồng nghiên cứu và trong thương mại quan tâm, chính vậy đã ra đời nhiều công cụ phân tích cảm xúc như Trackur, SAS, Opentext, Statsoft, Clarabridge, TheySay, NetOwl, NICTA, Sentiment Analysis của Stanford, v.v
Ngoài các phương pháp tiếp cận ở trên, có một số công trình đã kết hợp đưa đồng tham chiếu đại từ, thực thể vào giải quyết bài toán phân tích cảm xúc [83-86] Để tăng
độ chính xác, hiệu quả của phân tích cảm xúc, việc kết hợp đồng tham chiếu đại từ, thực thể là một nhu cầu thực tế và khoa học trong NLP Trong [84], N Jacob và I Gurevych (2010) đã kết hợp ACR để giải quyết bài toán phân tích cảm xúc với mục đích rút trích các cặp khía cạnh - cảm xúc hoặc đối tượng - cảm xúc Trong đó các chuỗi đồng tham chiếu đại từ sẽ là đường dẫn phụ thuộc để xác định các cặp trên Các tác giả cũng đã chứng minh được sự hiệu quả của ACR trong SA bởi các thực nghiệm so sánh với một
số công trình SA không sử dụng ACR Trong [86], O De Clercq và V Hoste (2020) sử dụng ACR trong gán nhãn thủ công cho tập dữ liệu huấn luyện để phân lớp khía cạnh Tập dữ liệu mà các tác giả sử dụng là đa miền và cần phân lớp khía cạnh đó thuộc loại
gì, ví dụ Food-Prices, Food-Quality, Restaurant-Prices, v.v Công trình được thực nghiệm trong văn bản tiếng Anh và tiếng Hà Lan
Trang 3119
Từ các công trình phân tích cảm xúc có kết hợp ACR, tác giả luận án cùng các cộng
sự đã đề xuất [Error! Reference source not found., 1] sử dụng kết hợp ontology cảm xúc h
ướng khía cạnh để giải quyết bài toán phân tích cảm xúc mức khía cạnh Ngoài cách tiếp cận đồng tham chiếu đại từ và cơ sở tri thức ontology, chúng tôi sử dụng đồ thị khái niệm để biểu diễn tất cả các mối quan hệ khía cạnh và cảm xúc trong một văn bản Từ các mối quan hệ khía cạnh - cảm xúc sẽ xác định được một sản phẩm có cảm xúc đề cập đến khía cạnh nào Tuy nhiên đề xuất này của chúng tôi cũng chỉ mới giải quyết phân tích cảm xúc mức khía cạnh và chưa đề cập chi tiết đến các mối quan hệ đối tượng -
khía cạnh - cảm xúc Từ kết quả trong [Error! Reference source not found., 1], tác giả l
uận án đã kết hợp ontology cảm xúc với ACR giải quyết các bài toán của luận án
2.3 Phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc
Phân giải đồng tham chiếu cho phân tích cảm xúc [6,87,88] xác định các từ, cụm từ chỉ đối tượng và khía cạnh cùng tham chiếu đến một thực thể là các sản phẩm hoặc dịch vụ trong các văn bản có cảm xúc Các tác giả đề xuất bài toán nhằm nâng cao hiệu quả cho bài toán phân tích cảm xúc mức khía cạnh Không bỏ sót đối tượng, không xác định sai khía cạnh của đối tượng trong các văn bản cho bài toán phân tích cảm xúc mức khía cạnh, đó là mục tiêu của các công trình
Công trình [6], X Ding và các cộng sự (2010) giải quyết bài toán phân giải đồng
tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc Mục tiêu của bài toán là xác
định các từ, cụm từ chỉ đối tượng (object) và thuộc tính (attribute) cùng tham chiếu đến một thực thể Trong đó đối tượng là các thực thể có tên, như là tên các sản phẩm và dịch vụ Mỗi đối tượng được mô tả bởi các thành phần và các thuộc tính, gọi chung là
attributes Giới hạn của bài toán [6] được thực hiện trên các văn bản cảm xúc trên các
trang web như các bình luận, thảo luận và các blog Các tác giả sử dụng tiếp cận học máy có giám sát với mô hình đề xuất huấn luyện trên các đặc trưng từ công trình [26] cộng thêm các đặc trưng mới của các tác giả Các đặc trưng được trình bày trong Bảng
2.1 dưới đây Trong đó α i ký hiệu cho từ, cụm từ dự tuyển xuất hiện trước (antecedent
candidate) và α j ký hiệu cho từ, cụm từ dự tuyển xuất hiện sau (anaphor candidate) Trong Bảng 2.1, các đặc trưng được đánh dấu * là của công trình [6] đề xuất dựa trên phân tích cảm xúc và một số đặc tính từ vựng như đồng nhất quan điểm, liên kết
Trang 32Bằng 1 nếu hướng quan điểm của α i và α j là như nhau; bằng 0 nếu khác nhau, ngược lại bằng 2 Liên kết thực thể và
các từ quan điểm*
1, 2, 3, 4, 5 là các giá trị của đặc trưng được tính theo độ Pointwise Mutual Information (PMI) Thuộc văn
phạm
Đại từ i Bằng 1 nếu α i là đại từ, ngược lại bằng 0
Đại từ j Bằng 1 nếu α j là đại từ, ngược lại bằng 0
Đặc trưng số nhiều,
Đại từ nhân xưng Bằng 1 nếu α j bắt đầu với từ “this”, “that”,
“those” hoặc “these”, ngược lại bằng 0
Tên riêng Bằng 1 nếu cả α j và α j cùng là tên riêng, ngược
lại bằng 0
Thuộc từ
vựng
Tương tự chuỗi* Độ tương tự giữa α i và α j
Đặc trưng bí danh Bằng 1 nếu α i là bí danh của α j hoặc α j là bí danh
của α i, ngược lại bằng 0
Loại khác Khoảng cách Bằng khoảng cách giữa các câu chứa cặp α i và α j,
bằng 0 nếu cùng trong một câu
Từ khóa giữa α i và
α j (is-between, between)*
has-Bằng 1 nếu tồn tại từ khóa giữa α i và α j, ngược lại bằng 0
Trang 3321
Đặc trưng đồng nhất quan điểm (sentiment consistency) được sử dụng khi tác giả của một bình luận bắt đầu mô tả quan điểm, cảm xúc về một đối tượng thì họ sẽ tiếp tục
có cùng hướng quan điểm với đối tượng đó hoặc các thuộc tính của nó nếu không có các
từ trái ngược như “but”, “however” Xét ví dụ sau: “(1) I bought Camera-A yesterday (2) I took a few pictures in the evening in my living room (3) The images were very
clear (4) They were definitely better than those from my old Camera-B (5a) It is cheap too (5b) The pictures of that camera were blurring for night shots, but for day shots it was ok” [6] Câu (4) là câu so sánh Camera-A tốt hơn Camera-B, câu tiếp theo (5a) có
quan điểm tích cực vậy nên “It” sẽ tham chiếu đến Camera-A Câu (5b) là câu tiếp theo câu (5a), biểu diễn cảm xúc tiêu cực, “that camera” sẽ tham chiếu đến “Camera-B” Các tác giả định nghĩa ngữ cảnh này là đồng nhất quan điểm
Đặc trưng thứ hai là liên kết các thực thể với các từ cảm xúc Để xác định được sự liên kết, các tác giả của bài báo đã sử dụng độ tương quan giữa các từ PMI như công thức (2.1)
- P(NP, OW) là xác suất có điều kiện của NP với sự xuất hiện đồng thời của
OW và được tính theo công thức (2.2)
𝑃(𝑁𝑃|𝑂𝑊) = Số_câu_chứa(𝑁𝑃 𝑣𝑎̀ 𝑂𝑊)
- P(NP) là xác suất xuất hiện của NP
- P(OW) là xác suất xuất hiện của OW
Ngoài ra, một số đặc trưng hữu ích khác như is-between, has-between có giá trị “true” nếu giữa α i và α j có các động từ is, are, was, were, be, has, have, had, ngược lại bằng
“false”
Trang 3422
Công trình phân giải đồng tham chiếu đối tượng và khía cạnh cho phân tích cảm xúc được áp dụng cho các văn bản cảm xúc có chứa các câu không so sánh và có so sánh từ hai đối tượng trở lên Công trình sử dụng đặc điểm của văn bản cảm xúc để đề xuất bổ sung các đặc trưng nhằm nâng cao hiệu quả bài toán phân giải đồng tham chiếu đối tượng khía cạnh trong phân tích cảm xúc Với tiếp cận học máy có giám sát trên tập dữ liệu được gán nhãn thủ công, kết quả của bài báo thu được trên ba tập dữ liệu (cellphone, TVs và Cars) với độ chính xác hơn 70%
Tuy nhiên, bài báo chưa gắn kết đối tượng, khía cạnh với cảm xúc mà chỉ dừng ở việc xác định các cặp tham chiếu đối tượng với khía cạnh trên các câu so sánh (không phải tất cả văn bản) Kết quả của công trình này chính là tiền đề để luận án nghiên cứu mối quan hệ gắn kết giữa đối tượng-khía cạnh-cảm xúc
Sau 10 năm, bài báo đó đã được cải tiến bởi công trình [87] với tiếp cận định hướng tri thức (knowledge-driven) Từ [6] sử dụng học máy có giám sát với dữ liệu được gán nhãn thủ công, J Chen và các cộng sự (2020) đã cải tiến đề xuất khai phá tự động tri thức miền chuyên biệt từ dữ liệu văn bản thô và áp dụng tri thức theo miền chuyên biệt cho phân lớp đồng tham chiếu đối tượng, khía cạnh Cụ thể các tác giả ứng dụng mạng nơ-ron nhân tạo để thực hiện phân lớp đồng tham chiếu (OAC2) và kiến trúc mô hình được trình bày như Hình 2.1
Hình 2.1 Kiến trúc mô hình OAC2 hướng tri thức [87]
Trong mô hình ở Hình 2.1, các tác giả sử dụng ba nguồn tri thức, trong đó có hai nguồn tri thức tổng quát (General Knowledge) và một nguồn cơ sở tri thức theo miền chuyên
Trang 3523
biệt (Domain-specific Knowledge) Nguồn thứ nhất: cơ sở tri thức OMCS [89] chứa
600K các bộ ba (thực thể 1, quan hệ, thực thể 2) như (clock, usedFor, keeping time)
được áp dụng theo phương pháp [90] để chọn lọc ra các bộ ba có độ tin cậy cao hơn và cuối cùng OMCS có tổng cộng là 62,730 bộ Nguồn tri thức thứ hai: SenticNet [91] cũng
là cơ sở tri thức chung chứa 50K các khái niệm liên quan đến cảm xúc Nguồn thứ ba:
cơ sở tri thức miền chuyên biệt được xây dựng từ các tập dữ liệu bình luận chưa gán nhãn
Ba cơ sở tri thức trên là yêu cầu cho bước 1 của Hình 2.1, xác định được các bộ ba tương
ứng với từ, cụm từ đề cập đến đối tượng hoặc khía cạnh (ký hiệu m) trong một văn bản
cảm xúc Bước thứ hai các tác giả xác định các cụm từ liên quan đến cú pháp (quan hệ
phụ thuộc) cho các từ, cụm từ m và các từ anaphor p Các cụm từ liên quan cú pháp có
thể là danh từ, động từ, hoặc tính từ Sau bước 1 và 2, các từ, cụm từ đã xác định, được chuyển đổi sang dữ liệu số thực theo ngữ cảnh bởi công cụ BERT [92] Bước thứ ba, điểm dự đoán cuối cùng (the final prediction score)𝐹̂ được tính theo công thức (2.3)
- Phải gán nhãn thủ công cho dữ liệu dùng để huấn luyện
- Bài toán chỉ đề cập đến mối liên hệ đối tượng và khía cạnh
- Không đề cập đến vấn đề xác định khía cạnh ẩn
Trang 3624
Công trình [88], Y Zhao và các cộng sự (2015) đã quan tâm đến bài toán liên kết đối tượng và khía cạnh trong phân tích cảm xúc Các tác giả đề xuất mô hình có hai bước: thứ nhất cung cấp bộ phân lớp nhị phân cho các cặp khía cạnh – đối tượng, thứ hai sử
dụng Integer linear programming (ILP) để suy luận ra kết quả cuối cùng của bài toán
Bộ phân lớp sử dụng ba tập đặc trưng:
- Cơ bản: (1) đặc trưng loại câu, dựa trên các câu có chứa đối tượng và khía cạnh,
có ba loại câu lần lượt có giá trị 1, 2, 3 là câu chỉ chứa đối tượng, câu chứa cả đối tượng và khía cạnh, câu chỉ chứa khía cạnh (2) đặc trưng câu so sánh có giá trị true nếu trong câu có sự so sánh và false là câu bình thường không so sánh (3) đặc trưng đối tượng trả về đối tượng có xuất hiện trong câu
- Quan hệ: khoảng cách giữa câu hiện thời và câu trước, giữa câu hiện thời và câu sau, sự đồng nhất giữa đối tượng trong câu trước hoặc câu sau với đối tượng dự tuyển trong cặp đối tượng – khía cạnh
- Đặc trưng đặc biệt: đối tượng xuất hiện đầu tiên và đối tượng xuất hiện nhiều trong văn bản
Sử dụng các đặc trưng ở trên, các tác giả [88] đã xây dựng bộ phân lớp khía cạnh - đối tượng để đánh giá được mỗi cặp cần phân lớp Tuy nhiên để có kết quả cuối cùng tốt nhất, ILP sẽ được áp dụng ở bước thứ hai nhằm đưa ra quyết định tốt hơn, phù hợp với các ràng buộc ngữ nghĩa, cú pháp trong cùng câu hoặc giữa các câu Kết quả thực nghiệm của công trình [88] thực hiện trên 200 văn bản về máy ảnh (camera) với hơn 9000 cặp khía cạnh - đối tượng đã đạt khá cao, trên 80% độ chính xác Tuy nhiên, để có được bộ dữ liệu hỗ trợ phân lớp nhị phân, các tác giả đã cần sự giúp đỡ của các chuyên gia gán nhãn thủ công cho các đối tượng và khía cạnh Công trình này cũng chưa gắn kết đối tượng, khía cạnh với cảm xúc mà chỉ dừng ở việc xác định các cặp tham chiếu đối tượng
và khía cạnh
Ba công trình [6,87,88] đã góp phần nâng cao hiệu quả vấn đề phân tích cảm xúc trong các văn bản bình luận về các sản phẩm, dịch vụ Tuy nhiên bài toán phân tích cảm xúc có nhiều thông tin trong văn bản cảm xúc cần quan tâm đó là đối tượng, khía cạnh, cảm xúc, phân cực trị cảm xúc và xác định khía cạnh không tường minh Các công trình trên chỉ quan tâm đến đối tượng, khía cạnh Vì vậy thông tin rút trích cho bài toán phân
Trang 37Hiện nay theo hiểu biết của tác giả luận án, bài toán phân giải đồng tham chiếu đối
tượng, khía cạnh và cảm xúc hay nói ngắn gọn phân giải đồng tham chiếu cho phân tích cảm xúc chưa có công trình nghiên cứu và chủ yếu các tác giả tập trung vào phân tích
cảm xúc ở các mức như văn bản, mức câu hay mức khía cạnh
2.4 Xác định khía cạnh ẩn
Rút trích khía cạnh là nhiệm vụ quan trọng của bài toán phân tích cảm xúc mức khía cạnh Rút trích khía cạnh được khá nhiều công trình nghiên cứu quan tâm và bằng nhiều cách tiếp cận khác nhau như kỹ thuật xử lý ngôn ngữ tự nhiên, dựa theo luật, kỹ thuật Term Frequency – Inverse Document Frequency (TF-IDF), hoặc PMI
Khía cạnh trong văn bản có cảm xúc, quan điểm thường được các công trình nghiên cứu [7] chia thành hai loại, khía cạnh tường minh (Explicit Aspect) và khía cạnh ẩn (Implicit Aspect) Explicit aspect là khía cạnh được biểu diễn bởi các danh từ, động từ hoặc cụm danh từ, cụm động từ, ví dụ: “picture”, “run” Implicit aspect là khía cạnh được biểu diễn bởi các từ, cụm từ không phải là danh từ, ví dụ: “expensive”, “nice”, v.v
Nó có thể là tính từ, trạng từ biểu thị cảm xúc về một khía cạnh nào đó mà không xuất hiện cụ thể trong văn bản
Rút trích khía cạnh tường minh và khía cạnh ẩn đã được nhiều công trình nghiên cứu [93-94] Tuy nhiên phần này luận án sẽ chỉ tập trung đến việc xác định khía cạnh ẩn vì đây là vấn đề phức tạp, hấp dẫn và cũng được khá nhiều nhà nghiên cứu quan tâm theo các cách tiếp cận khác nhau, như gom cụm, phân cấp, học máy, học sâu, dựa tri thức, v.v
Gom cụm
Trang 3826
Công trình [95], Q Su và các cộng sự (2008) đề xuất theo hướng tăng cường lẫn nhau để gom cụm các khía cạnh tường minh và các từ cảm xúc của chúng Dựa trên các cụm này, công trình xác định các khía cạnh ẩn bằng cách tìm sự liên kết giữa các khía cạnh tường minh và các từ cảm xúc
Các tác giả [96,97] sử dụng phương pháp gom cụm để xác định các khía cạnh tường minh và gom nhóm chúng vào cùng nhóm tương tự nhau Sau đó xác định các khía cạnh ẩn bằng cách ánh xạ các khía cạnh ẩn vào tập các khía cạnh tường minh
Phân cấp
Công trình [98], J Yu và các cộng sự (2011) sử dụng phân cấp khía cạnh và các từ cảm xúc để xác định khía cạnh ẩn Họ tích hợp các thông số sản phẩm và các bình luận của khách hàng để sinh ra một cấu trúc phân cấp có thể suy diễn khía cạnh ẩn trong một câu
Học máy
Công trình [99], E H Hajar và B Mohammed (2016) sử dụng Naive Bayes và cùng với WordNet huấn luyện một bộ phân lớp xác định khía cạnh ẩn Đầu tiên họ kết hợp kho ngữ liệu với bộ từ điển WordNet để xác định các từ chỉ khía cạnh ẩn Với các từ khía cạnh được rút trích này, các tác giả đã huấn luyện một mô hình sử dụng Naive Bayes để xác định các khía cạnh ẩn
Học sâu
Công trình [100], J Feng và các cộng sự (2019) sử dụng Convolutional neural network (CNN) với thuật toán tuần tự để gán nhãn các từ trong câu Họ xác định khía cạnh ẩn bằng cách xem các khía cạnh ẩn như là các chủ đề, sau đó đối sánh mức độ giữa các từ cảm xúc và mức độ của các khía cạnh
Đồ thị
Tác giả A Bagheri và các cộng sự (203) [101] đề xuất mô hình dựa trên đồ thị để rút trích khía cạnh ẩn Công trình định nghĩa một hàm dựa trên mối liên kết giữa các khía cạnh tường minh và các từ cảm xúc và trên cơ sở của hàm này, họ đã cập nhật thêm
Trang 3927
trọng số cho mỗi cạnh của đồ thị Tiếp theo, họ sử dụng ngưỡng chênh lệch mô tả ranh giới giữa mọi khía cạnh với giá trị đo được đồng xuất hiện của từ cảm xúc và trích xuất
ra danh sách các từ khía cạnh ẩn có khả năng xảy ra nhất
Công trình [102], Z Yan và các cộng sự (2015) đề xuất thuật toán NodeRank, đầu tiên xác định tất cả các cặp đồng xuất hiện của các từ cảm xúc với các từ khía cạnh Sau
đó thuật toán tính giá trị NodeRank cho mỗi khía cạnh ẩn với từ cảm xúc Khía cạnh có giá trị cao nhất được xem như khía cạnh ẩn tiềm năng
Dựa trên tri thức
Công trình [103], T A Rana và các cộng sự (2020) đề xuất giải pháp dựa trên tri thức nhiều lớp để rút trích các khía cạnh ẩn từ các bình luận, nhận xét sản phẩm online Công trình sử dụng NGD (Normalized Google Distance) để xác định khía cạnh liên quan nhất đối với những từ cảm xúc có thể đề cập đến nhiều hơn một khía cạnh Bài báo thực hiện rút trích cả khía cạnh tường minh và không tường minh (ẩn)
Nhược điểm của [103] là chưa quan tâm đến đồng tham chiếu đại từ trong trường hợp có đại từ ‘it’ (ví dụ: ‘I like the size It is small and light’), họ sử dụng IACs (Implicit Aspect Clues) để thay thế ‘It’ bởi ‘phone’ Trong ví dụ này không đúng cho việc thay thế ‘it’
Trong một văn bản mỗi từ tại vị trí khác nhau sẽ có ngữ nghĩa khác nhau, đặc biệt
từ cảm xúc, nó có thể tham chiếu đến một đối tượng hay khía cạnh khác nhau Nó không những phụ thuộc vào ý nghĩa của các từ đứng trước mà còn phụ thuộc cả từ đứng sau Hay nói cách khác, tại mỗi vị trí của từ cảm xúc xuất hiện trong câu, văn bản nó có ngữ nghĩa khác nhau và tham chiếu đến thực thể khác nhau Đây chính là hạn chế mà các công trình nghiên cứu trên chưa đề cập
2.5 Ontology cảm xúc và làm giàu ontology
Ontology cảm xúc là một cơ sở tri thức phụ thuộc miền được sử dụng cho các bài toán phân tích cảm xúc Hiện nay đã có nhiều công trình nghiên cứu về phân tích cảm xúc dựa trên ontology Một trong các công trình đưa ra định nghĩa ontology cảm xúc chi tiết nhất đó là [8]
Theo định nghĩa của [8]: Ontology cảm xúc là một cặp (C, R), trong đó:
Trang 40RN : tập quan hệ không phân loại (non-taxonomic relationships)
RT : tập quan hệ phân loại (taxonomic relationships)
RS : quan hệ cảm xúc (sentiment relationships)
- ci C: tập các đối tượng (thể hiện-instances), được ký hiệu là instance-of(ci)
- ri (cp,cq) R: mối quan hệ nhị phân giữa cp và cq,
- instance của ri là instance-of(ri),
Hình 2.2 Ví dụ ontology tổng quát [8]
Ví dụ ontology cảm xúc về smartphone, khi đó T-Box (Hình 2.3) cho thấy ngành công nghiệp smartphone (Industry) có thể có một số nhãn hàng (Brands), mỗi nhãn hàng
có nhiều sản phẩm (product) và mỗi sản phẩm lại có nhiều đặc trưng (Feature) Tất cả các khái niệm này là khái niệm con của sự việc (thing) trong ontology tổng quát Giữa các khái niệm khía cạnh có các mối quan hệ với nhau (belong-to, has, produces, …) và