Luận văn này cũng trình bày phương pháp được đề xuất dựa trên sự kết hợp của phương pháp N-Gram, phương pháp lựa chọn nét Chi-Square, phương pháp Good-Turing Discounting và phương pháp C
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : GS.TS.Phan Thị Tươi
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch hội đồng: TS.Nguyễn Văn Hiệp
2 Thư ký hội đồng: TS.Bùi Hoài Thắng
3 Cán bộ hướng dẫn: GS.TS.Phan Thị Tươi
4 Cán bộ chấm nhận xét 1 : PGS.TS.Quản Thành Thơ
5 Cán bộ chấm nhận xét 2 : TS.Huỳnh Trung Hiếu
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
I TÊN ĐỀ TÀI:
SỬ DỤNG “CONTEXTUAL VALENCE SHIFTERS” ĐỂ PHÂN LOẠI CẢM XÚC CHO CÁC VĂN BẢN ĐƠN GIẢN TRONG MỘT LĨNH VỰC
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu các phương pháp xác định cảm xúc ở các mức: từ, cụm từ, câu, văn bản
- Nghiên cứu các phương pháp phân loại cảm xúc ở các mức
- Đề xuất phương pháp thực hiện phân loại cảm xúc ở một mức trong một lĩnh vực
III NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài)
IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài)
V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): GS TS Phan Thị Tươi
Trang 4LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến GS.TS.Phan Thị Tươi Cám ơn
Cô đã tận tình chỉ bảo, hướng dẫn, định hướng cho tôi trong suốt thời gian thực hiện Luận văn Cám ơn Cô đã chia sẻ cho tôi những kinh nghiệm quý báu trong nghiên cứu khoa học Điều đó đã giúp tôi rất nhiều trong việc thực hiện Luận văn cũng như trong công việc giảng dạy, nghiên cứu của tôi sau này
Tôi cũng xin cảm ơn gia đình đã động viên và tạo mọi điều kiện tốt nhất để tôi có thể tiếp tục theo đuổi việc học tập nghiên cứu Con xin cám ơn Cha Mẹ, nhờ công lao dưỡng dục của Người mà con mới có được thành quả như ngày hôm nay Con xin hứa
sẽ tiếp tục cố gắng phấn đấu để vươn cao hơn nữa
Võ Ngọc Phú
Trang 5Luận văn này cũng trình bày phương pháp được đề xuất dựa trên sự kết hợp của phương pháp N-Gram, phương pháp lựa chọn nét Chi-Square, phương pháp Good-Turing Discounting và phương pháp Contextual Valence Shifters đã cải thiện độ chính xác của phân loại cảm xúc Phương pháp kết hợp này đạt độ chính xác 89.5% Bằng việc sử dụng mô hình Naive Bayes với sự kết hớp N-Gram, lựa chọn nét và phương pháp Good-Turing Discounting để phân loại cảm xúc cho các bài nhận xét về phim, tác giả đã đạt độ chính xác 89.1% Sau đó, tác giả sử dụng mô hình Naive Bayes để phân loại cảm xúc cho các bài nhận xét về phim với nhiều nét mà được tạo ra bởi phương pháp Contextual Valence Shifters và tác giá đạt độ chính xác 65.4% Tất cả các phương pháp được thực thi để phân loại cảm xúc các bài nhận xét về phim được dựa trên bộ từ điển mới của tác giả và tập dữ liệu về phim
Trang 6ABSTRACT
We have explored different methods for improving the accuracy of sentiment classification The sentiment orientation of a document can be positive (+), negative (-), or neutral (0) We combine five dictionaries from [2, 3, 4, 5, 6] into the new one with 21137 entries The new dictionary has many additionalverbs, adverbs, phrases and idioms, that are not in five ones before The thesis shows that our proposed method based on the combination of Term-Counting method and Enhanced Contextual Valence Shifters method, that has improved the accuracy of sentiment classification The combined method has accuracy 68.984% on the testing dataset, and 69.224% on the training dataset
The thesis also shows that our proposed method based on the combination of Gram, Chi-Square feature selection, Good-Turing Discounting,and Contextual Valence Shifters methods, that has improved the accuracy of sentiment classification The combined method has an accuracy 89.5% By using the Nạve Bayes model with combining N-Gram, Chi-Square feature selection and Good-Turing Discounting methods to classify emotions in reviews, we have achievedof 89.1% Then, we use Naive Bayes model to classsify reviews with many features which are created by Contextual Valence Shifters method and we have achievedof 65.4% All of these methods are implemented to classify the reviews based on our new dictionary and the Internet Movie data set
Trang 7N-LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi
rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện
và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Ngày 23 tháng 07 năm 2014
Võ Ngọc Phú
Trang 8MỤC LỤC
DANH MỤC HÌNH 10
DANH MỤC BẢNG 12
CHƯƠNG 1: GIỚI THIỆU 14
1.1 Lý do chọn đề tài 14
1.2 Mục đích nghiên cứu 14
c) Phạm vi nghiên cứu 15
d) Cấu trúc của đề tài 15
CHƯƠNG 2: TỔNG QUAN 17
2.1 Các công trình nghiên cứu liên quan 17
2.1.1 Công trình nghiên cứucủaLivia Polanyivà Annie Zaenen năm 2004 17
a) CVS phân tích cảm xúc ở mức câu 18
b) Phương phápCVS phân loại cảm xúc ở mức văn bản 21
2.1.2 Công trình nghiên cứucủa A Kennedy và D Inkpen năm 2006 24
2.1.3 Công trình nghiên cứucủa Vivek Narayanan, Ishan Arora và Arjun Bhatia năm 2013 25
2.2 Phương pháp đề xuất 29
CHƯƠNG 3: GIẢI PHÁP 32
3.1 Giải pháp 32
a) Tổng quan đề tài 32
b) Phương pháp TC-CVS 32
c) Giải thuật phân loại cảm xúc bằng kết hợp mô hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discounting (F1) 33
Giải thuật 3.1: Phân loại cảm xúc F1 33
Trang 9d) Giải thuật phân loại cảm xúc bằng phương pháp Contextual ValenceShifters
để tạo các nét cho mơ hình Naive Bayes (F2) 33
e) Giải thuật phân loại cảm xúc bằng mơ hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting, và Contextual Valence Shiters (F1+F2) 34
Giải thuật 3.3: Phân loại cảm xúc F1+F2 34
3.2 Xây dựng cơ sở dữ liệu 35
3.3 Viết chương trình thử nghiệm 48
CHƯƠNG 4: PHƯƠNG PHÁP ĐÁNH GIÁ 49
4.1 Độ chính xác (A) 50
4.2 Precision (P) 50
4.3 Recall (R) 51
4.4 F-Score (F) 51
CHƯƠNG 5: PHÂN LOẠI CẢM XÚC: KẾT HỢP PHƯƠNG PHÁP ĐẾM THUẬT NGỮ VỚI CONTEXTUAL VALENCE SHIFTERS 52
5.1 Phương pháp kết hợp bao gồm phương pháp đếm thuật ngữ với Contextual Valence Shifters (TC-CVS) 52
Giải thuật 5.1: Phân loại cảm xúc bằng phương pháp kết hợp TC-CVS ở mức độ câu 55
Giải thuật 5.2: Phân loại cảm xúc bằng phương pháp kết hợp TC&CVS ở mức độ văn bản 56
Giải thuật 5.3: Tạo từ điển mới từ năm từ điển 58
CHƯƠNG 6: PHÂN LOẠI CẢM XÚC: KẾT HỢP MƠ HÌNH NẠVE BAYES VỚI N-GRAM, XỬ LÝ PHỦ ĐỊNH, XỬ LÝ NHIỄU CHI-SQUARE, VÀ LÀM MỊN GOOD-TURING DISCOUNTING 60
6.1 N-GRAM (F1) 60
6.2 Xử lý phủ định 61
6.3 Xử lý nhiễu Chi-Square 61
Trang 106.4 Làm mịn Good-Turing Discounting 63
CHƯƠNG 7: PHÂN LOẠI CẢM XÚC: KẾT HỢP MƠ HÌNH NẠVE BAYES VỚI N-GRAM, XỬ LÝ PHỦ ĐỊNH, XỬ LÝ NHIỄU CHI-SQUARE, LÀM MỊN GOOD-TURING DISCOUNTING VÀ PHƯƠNG PHÁP CONTEXTUAL VALENCE SHIFTERS 65
7.1 Phân loại cảm xúc bằng phương pháp Contextual Valence Shifters để tạo các nét cho mơ hình Nạve Bayes (F2) 65
7.1.1 Chuyển đổi hĩa trị sang tần số (F2.1) 65
Giải thuật 7.1: Chuyển đổi hĩa trị sang tần số 65
7.1.2 Phủ định (F2.2) 66
Giải thuật 7.2: Chuyển phủ định 66
7.1.3 Nhấn mạnh và giảm nhẹ (F2.3) 67
Giải thuật 7.3: Nhấn mạnh và giảm nhẹ 67
7.2 Phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N_Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và Contextual Valence Shifters (F1+F2) 68
CHƯƠNG 8: THỬ NGHIỆM VÀ ĐÁNH GIÁ 69
8.1 Phân loại cảm xúc bằng phương pháp kết hợp đếm thuật ngữ với Contextual Valence Shifters 69
a) Thử nghiệm 69
b) Đánh giá 69
8.2 Phân loại cảm xúc bằng sự kết hợp mơ hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discouting (F1) 73
a) Thử nghiệm 73
b) Đánh giá 73
8.3 Phân loại cảm xúc bằng sự kết hợp mơ hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters (F1+F2) 74
Trang 118.3.1 Phân loại cảm xúc bằng phương pháp Contextual Valence Shifters để tạo
các nét cho mô hình Naive Bayes (F2) 74
a) Thử nghiệm 74
b) Đánh giá 75
8.3.2 Phân loại cảm xúc bằng sự kết hợp mô hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters (F1+F2) 75
a) Thử nghiệm 75
b) Đánh giá 76
CHƯƠNG 9: KẾT LUẬN 78
9.1 Phân loại cảm xúc bằng phương pháp kết hợp đếm thuật ngữ với phương pháp Contextual Valence Shifters 78
9.2 Phân loại cảm xúc bằng sự kết hợp mô hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discounting 79
9.3 Phân loại cảm xúc bằng sự kết hợp mô hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters 79
CÔNG TRÌNH NGHIÊN CỨU 80
TÀI LIỆU THAM KHẢO 81
Trang 12
DANH MỤC HÌNH
2.1: Giải thuật xử lý phủ định[9] 27
2.2: Độ chính xác so với số các feature 29
3.1: Mô hình phân loại cảm xúc được đề xuất 32
3.2 :Giao diện chương trình 48
5.1 : Minh hoạ bộ từ điển mới 55
6.1 : Các n_grams (F1) 61
6.2: Các n-grams sau khi áp dụng phương pháp Chi-Square 63
6.3: Các n-grams sau khi áp dụng phương pháp Good-Turing Discounting 64
7.1: Chuyển đổi hóa trị của phần tử trong bộ từ điển mới sang tần số (F2.1) 66
7.2:Xử lý phủ định (F2.2) 67
7.3:Nhấn mạnh và giảm nhẹ (F2.3) 68
Trang 13
DANH MỤC BẢNG
3.1: Bảng dữ liệu Reviews_train 35
3.2: Bảng dữ liệu Reviews_test 35
3.3: Bảng dữ liệu Reviews_train_NOT 36
3.4: Bảng dữ liệu Reviews_test_NOT 36
3.5: Bảng dữ liệu Dictionary 37
3.6: Bảng dữ liệu CVS_COUNTING_train 40
3.7: Bảng dữ liệu CVS_COUNTING_test 40
3.8: Bảng dữ liệu N_GRAM 41
3.9: Bảng dữ liệu N_GRAM_CHI_SQUARE 42
3.10: Bảng dữ liệu N_GRAM_CHI_SQUARE_GTD 43
3.11: Bảng dữ liệu NaiveBayes_F1 44
3.12: Bảng dữ liệu NaiveBayes_F2 45
3.13: Bảng dữ liệu NaiveBayes_Final 47
8.1: Các kết quả của 25000 bài nhận xét cho tập huấn luyện bằng phương pháp TC-CVS 69
8.2: Độ chính xác của phương pháp TC-CVS cho 25000 bài nhận xét cho tập huấn luyện 69
8.3 : Các kết quả của 25000 bài nhận xét cho tập kiểm tra bằng phương pháp TC-CVS 70
8.4: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra bằng phương pháp TC-CVS 70
8.5: So sánh phương pháp kết hợp TC-CVS với các phương pháp ở [7], [8] 70
Trang 148.6: Các kết quả của 25000 bài nhận xét cho tập kiểm tra (F1) 73
8.7: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra (F1) 73
8.8: So sánh kết quả với [9] (F1) 74
8.9: Các kết quả của 25000 bài nhận xét cho tập kiểm tra (F2) 75
8.10: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra (F2) 75
8.11: Các kết quả của 25000 bài nhận xét cho tập kiểm tra (F1+F2) 76
8.12: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra (F1+F2) 76
8.13: So sánh kết quả với kết quả của [9] (F1+F2) 77
Trang 15CHƯƠNG 1: GIỚI THIỆU
1.1 Lý do chọn đề tài
Trong cuộc sống hằng ngày, con người luôn khao khát khám phá ra các tri thức mới Trong quá trình khám phá đó, con người cũng luôn quan tâm đến các cảm xúc, chính kiến mà những người khác suy nghĩ Đó gọi là phân loại cảm xúc
Có nhiều loại phân loại cảm xúc Hiện nay phân loại cảm xúc là một lĩnh vực nghiên cứu mới mẻ và nóng bỏng Bởi vì ngày càng nhiều nội dung trang web, con người, và các tổ chức quan tâm đến việc tìm hiểu ý nghĩ của những người khác, vì vậy họ cần một số công cụ tự động cho việc phân tích và tóm tắt các ý nghĩ, các bài viết.Một trong các nhiệm vụ chính của phân loại cảm xúc là xác định nội dung một tài liệu như trang web, blog, tạp chí, bài nhận xét có thể giữ cảm xúc âm (negative), dương (positive) hoặc trung lập (neutral) Cảm xúc âm (negative) là loại cảm xúc mang yếu tố tiêu cực như ghét, xấu, chê, thất bại, không thích,….Cảm xúc dương (positive) là loại cảm xúc mang yếu tố tích cực như khen, đẹp, tốt, thích…Cảm xúc trung lập (neutral)
là loại cảm xúc không mang yếu tố tiêu cực (negative) và cũng không mang yếu tố tích cực (positive)
Phân loại cảm xúc có ý nghĩa quan trọng trong cuộc sống hằng ngày của con người, trong các hoạt động chính trị, cũng như trong hoạt động sản xuất sản phẩm,tiêu thụ sản phẩm…Ví dụ như : 1)Trong lĩnh vực chính trị, các ứng cử viên muốn biết ý kiến của các cử tri như thế nào, muốn biết các cử tri phản hồi như thế nào đối với các quan điểm hoặc chính sách của ứng cử viên đó… 2) Các công ty bán hàng muốn biết thời gian nào (hoặc mùa nào như mùa xuân, mùa thu ) sẽ bán được nhiều mặt hàng nào; muốn biết ý kiến phản hồi của khác hàng về một sản phẩm nào đó…3) Các rạp chiếu phim hoặc các nhà sản xuất phim muốn biết ý kiến của khán giả về một bộ phim nào
đó 4) Một diễn viên nổi tiếng muốn biết ý kiến của các người hâm mộ phản ứng như thế nào về một hành động hoặc một bài phát biểu của mình…
1.2 Mục đích nghiên cứu
Vấn đề cơ bản đối với các hệ thống phân loại cảm xúc thông thường phải đạt được độ chính xác cao và thời gian phân loại cảm xúc mang tính chất tương đối (không cần
Trang 16thiết phải thật nhanh nhưng trong một thời gian chấp nhận được Ví dụ: từ vài giây cho đến khoảng 1 giờ)
Trong đề tài này, mục tiêu chính của tác giả là xây dựng được hệ thốngđể phân loại cảm xúc cho một bài viết trong một lĩnh vực cụ thể,cĩ độ chính xác cao, cĩ thể cao hơn độ chính xác của các tác giả [8] và [9]
Đề tài này là tiền đề để xây dựng các hệ thống phân loại cám xúc cho các văn bản trong ngơn ngữ Tiếng Việt
c) Phạm vi nghiên cứu
Trong phạm vi của luận văn, tác giả tập trung nghiên cứu những cơng trình liên quan đến phân loại cảm xúc cho các văn bản Tiếng Anh và tìm hiểu các phương pháp phân loại cảm xúc hiện đại, đang được quan tâm Sau đĩ, xác định cụ thể các yếu tố đầu vào
và đầu ra mong muốn, nhằm giải quyết bài tốn đã đặt ra dựa trên những lý thuyết đã tìm hiểu
Để giải quyết vấn đề trên, hướng tiếp cận của tác giả là sẽ tìm cách kết hợp phương pháp Nạve Bayes với Contextual Valence Shifters và phương pháp đếm thuật ngữ với Contextual Valence Shifters để cĩ thể xây dựng một hệ thống phân loại cảm xúc cĩ độ chính xác cao
Phạm vi nghiên cứu chính của đề tài sẽ bao gồm:
a) Phân loại cảm xúc cho các bài nhận xét về phim của ngơn ngữ Tiếng Anh với tập dữ liệu [1]
b) Xây dựng và cải tiến phương pháp Contextual Valence Shifters [7]
c) Xây dựng kỹ thuật lựa chọn nét (Feature Selection)
d) Kết hợp phương pháp Nạve Bayes với Contextual Valence Shifters và phương pháp đếm thuật ngữ với Contextual Valence Shifters
d) Cấu trúc của đề tài
Nội dung luận văn gồm 9 chương Chương 1 trình bày lý do nghiên cứu của đề tài luận văn cũng như mục đích và phạm vi nghiên cứu Các cơng trình nghiên cứu tiêu biểu về phân loại cảm xúc và phương pháp nghiên cứu đề xuất của luận văn được trình bày
Trang 17trong chương 2 Chương 3 là chương trình bày giải pháp để thực hiện luận văn, bao gồm xây dựng cơ sở dữ liệu và các giải thuật Phương pháp đánh giá bao gồm bốn độ
đo là: độ chính xác (A), Precision (P), Recall ®, F-Score (F), được trình bày ở chương
4 Chương 5 là phân loại cảm xúc kết hợp phương pháp đếm thuật ngữ với Contextual Valenece Shifters,bao gồm phương pháp đếm thuật ngữ với Contextual Valence Shifters (TC-CVS); giải thuật phân loại cảm xúc bằng phương pháp kết hợp TC-CVS
ở mức độ câu; giải thuật phân loại cảm xúc bằng phương pháp kết hợp TC-CVS ở mức
độ văn bản; giải thuật tổng hợp bộ từ điển và các thử nghiệm của chương trình trên tập kiểm tra và tập huấn luyện Phân loại cảm xúc kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing-Discounting bao gồm phương pháp N-Gram (F1); xử lý phủ định; phương pháp xử lý nhiễu Chi-Square; phương pháp làm mịn Good-Turing Discounting và thử nghiệm chương trình, được trình bày ở chương 6.Chương 7 là phân loại cảm xúc kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters, bao gồm sử dụng Contextual Valence Shifters để tạo các nét (F2, bao gồm chuyển đổi hĩa trị sang tần số (F2.1), phủ định (F2.2), nhấn mạnh và giảm nhẹ (F2.3) ); phân loại cảm xúc kết hợp
mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và Contextual Valence Shifters; chương trình phân loại cảm xúc bằng phương pháp Contextual Valence Shifters để tạo các nét cho mơ hình Nạve Bayes (F2); và chương trình phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting, Contextual Valence Shifters (F1+F2).Chương 8 là thử nghiệm và đánh giá, bao gồm phân loại cảm xúc bằng phương pháp kết hợp đếm thuật ngữ với Contextual Valence Shifters; phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu và làm mịn Good-Turing Discounting; phân loại bằng phương pháp Contextual Valence Shifters để tạo các nét cho mơ hình Nạve Bayes; và phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters Chương 9 là kết luận của luận văn
Trang 18CHƯƠNG 2: TỔNG QUAN
2.1 Các công trình nghiên cứu liên quan
Phân loại cảm xúc sử dụng các phương pháp trong xử lý ngôn ngữ tự nhiên, như phân đoạn từ, gán nhãn từ loại, phân tíchvăn bản để xác định và trích xuất thông tin trong các nguồn tài liệu
Phân loại cảm xúc nhằm mục đích xác định thái độ của người nói hoặc người viếtvới vài chủ đề hoặc phân cực theo ngữ cảnh tổng thể của một tài liệu Thái độ có thể là đánh giá của một người hoặc sự ước lượng, trạng thái (trạng thái của người viết khi viết) hoặc sự trao đổi cảm xúc được dự kiến (cảm xúc của người viết mong muốn truyền đạt cho người đọc)
Một nhiệm vụ cơ bản trong phân tích tình cảm là phân loại phân cực (polarity) của một văn bản cho trước, câu hoặc mức độ nét (feature) – cho dù ý kiến được diễn đạt trong một văn bản, một câu hoặc toàn bộ các nét (thông thường là các từ), là tích cực
(positive), tiêu cực (negative), hoặc trung lập (neutral) Ví dụ,các trạng thái tình cảm
như“angry” (tức giận); “sad” (buồn); “happy” (hạnh phúc)
Trong các nghiên cứu về các hệ thống phân loại cảm xúc cho các văn bản tiếngAnh, có
ba công trìnhliên quan đến hệ thống phân loại cảm xúc mà tác giả sẽ thực hiện:
+ Công trình của Livia Polanyi và Annie Zaenen năm 2004 [7]
+ Công trình của A Kennedy và D Inkpen năm 2006 [8]
+ Công trình của Vivek Narayanan, Ishan Arora và Arjun Bhatia năm 2013 [9]
2.1.1 Công trình nghiên cứucủaLivia Polanyivà Annie Zaenen năm 2004
Theo tác giả Livia Polanyi và Annie Zaenen [7], việc xác định cảm xúc của một bài viết (hoặc một câu, hoặc một đoạn) được thực hiện chỉ dựa trên hóa trị (valence) của các từ hoặc thuật ngữ sẽ không chính xác 100%, có thể cho kết quả sai lệch Tuy nhiên, việc xác định cảm xúc của một bài viết (hoặc một câu, hoặc một đoạn) được thực hiện kết hợp giữa hóa trị của các từ hoặc thuật ngữ (term) với ngữ cảnh của từ hoặc thuật ngữ đó(được gọi là Contextual Valence Shifter - CVS) sẽ cho kết quả chính xác hơn
Trang 19Các quan sát đã dẫn các nhà nghiên cứu đến sự phân loại các thuật ngữ thành positive hoặc negative hoặc neutral
Tính toán đơn giản của cảm xúc được diễn đạt trong một văn bản sẽ bao gồm việc đếm các đối tượng negative và positive, sau đó quyết định cơ bản dựa trên trọng số cao nhất của negative hoặc của positive.Tác giả Livia Polanyi và Annie Zaenen thấy rằng việc đếm đơn giản sẽ không hiệu quả
Có nhiều từ hoặc thuật ngữthể hiện hóa trị là negativehoặc positive, điều này là tùy thuộc vào ngữ cảnh mà từ hoặc thuật ngữ đó thuộc về Tuy nhiên, tác giả Livia Polanyi
và Annie Zaenen không đưa ra được độ chính xác thực hiện trên một tập dữ liệu nào CVS trong nghiên cứu này bao gồm: CVS phân tích cảm xúc ở mức câu;CVS phân tích cảm xúc ở mức văn bản
a) CVS phân tích cảm xúc ở mức câu
Khi một sốthuật ngữ của một văn bản vốn đã mang hoá trị cơ sở là positive hoặc negative, tác giả Livia Polanyi và Annie Zaenen cho rằng các thuật ngữ này vẫn có thể thay đổi hoá trịcơ sởtrong một ngữ cảnh – sự ảnh hưởng của câu,lĩnh vực bài viết hoặc các mục từ vựng khác gầnnhau trong văn bản
Các tác giả [7]nghiên cứucác hiện tượng của từ vựng, trong đócó thể hoá trị của một mục từ vựngbị dịch chuyển từ cực này sang cực khác (ví dụ từ positive sang negative hoặc ngược lại) hoặc ít độ mạnh hơn (Ví dụ: valance ban đầu là +2; sau đó valence thay đổi thành +1) hoặc chỉnh sửa hóa trị hướng về trung lập (ví dụ: valence ban đầu là +1; sau đó valence thay đổi thành 0)
CVS phân loại cảm xúc ở mứccâu chocác trường hợp sau:
o Từ phủ định và nhấn mạnh (intensifier)
o Những mục phỏng đoán (Presuppositional items)
o Sự mỉa mai, châm biếm (Irony)
Phủ định và nhấn mạnh
Trang 20Phủ định chỉ áp dụng các phân cực rõ ràng, có nghĩa làpositive hoặc negative Nếu hoá trị là neutral (bằng 0) thì phủ định cũng là neutral (hoá trị bằng 0)
Ví dụ 1: câu “John is home” được diễn đạt cho một sự kiện đơn giản nhưng không tiết
lộ cảm xúc (có nghĩa là điểm cảm xúc là 0) Khi phủ định, câu trên sẽ là “John is
not home”, không có dịch chuyển cảm xúc (sự phủ định của 0 là 0)
Các từ được sử dụng để phủ định là: not, never, none, no body, nowhere, nothing,
neither…
Ví dụ 2:
Ví dụ 3 cho thấy, sự kết hợp của một phân loại cảm xúc là positive với một phủ định
sẽ cho một phân loại cảm xúc là negative Ngược lại, sự kết hợp của một phân loại cảm xúc là negative với một phủ định sẽ cho một phân loại cảm xúc là positive
Nhấn mạnh (Intensifier) là một chức năng dùng để tính toán hoá trị của một cụm từ
theo đúng ngữ cảnh, có thể làm cho hoá trị tăng lên hoặc có thể làm cho hóa trị giảm xuống Trường hợp này được minh hoạ ở ví dụ 4
Trang 21Ví dụ 4:
Từ “rather” trong “rather efficient”, trong đó“rather” làm giảm
độ mạnh của một từ hoặc cụm từ Từ “efficient” có hóa trị là +2
=> “rather efficient” có hóa trị là +1
Từ “deeply” trong “deeply suspicious”, trong đó “deeply” làm tăng độ mạnh của một từ hoặc cụm từ Từ “suspicious”có hóa trị
là -2 => “deeply suspicious” có hóa trị là -3
Các động từ tình thái (modal)
Các sự kiện realiselà các sự kiện hoặc các tình huống được khẳng định phải xảy ra,
chắc chắn xảy ra
Các sự kiện irrealise là các sự kiện hoặc các tình huống đã xảy ra hoặc sẽ xảy ra Ví
dụ, các động từ tình tháinhư là might, could, should, ought to hoặcpossibly
Các toán tử tình thái (Modal operators)thiết lập một ngữ cảnh của sự việc có thể hoặc
sự việc cần thiết và trong các văn bản khởi tạo một ngữ cảnh mà trong đó các thuật ngữ được tính hóa trị diễn đạt một cảm xúc hướng về các thực thể mà không phản chiếu một cách cần thiết cảm xúc của người viết về các thực thể kia trong một tình huống thật sự
Trong việc tính toán phân loại cảm xúc của người viết, các thuật ngữ trong một ngữ cảnh tình thái không nên được xử lý một cách chính xác như các thuật ngữ trong một
ngữ cảnh realis
Ví dụ 5, các câu realis như: “Mary is a terrible person She is mean to her dogs”
negative
o Tuy nhiên, câu “if Mary were a terrible person, she would be mean to her
dogs” xác nhận rằng không phải “Marry is a terrible person” hoặc không
Trang 22phải “She is mean to her dogs.” Các toàn tử tình thái có hóa trị trung lập của “terrible” và “mean”, cho kết quả trong một giá trị được tính lại là 0
Những mục phỏng đoán(Presuppositional items)
Các từ làm thay đổi hóa trị của các thuật ngữ được phỏng đoán thông qua các giả định
trước của chúng Đây làmẫu cho các trạng từ (adverb), như “barely” được thực hiện bằng cách so sánh câu “It is sufficient” với câu “It is barely sufficient”, với “sufficient”
có hóa trị là negative
Ví dụcụm từ “failure to succeed”, độ mạnh của failure chuyển hóa trị của succeed
từ positive thành negative
- Các động từđược sử dụng cho phần này nhưfail, omit, neglect…
Sự mỉa mai, châm biếm (Irony)
Thỉnh thoảng các phân loại cảm xúc được thực hiện bởi các mục từ vựng trong nhiều cách mà không thểgiải thích được nguyên nhân gây ra trong trường hợpđãmô tả ở trên
Ví dụ trong câu châm biếm “The very brilliant organizer failed to solve the problem”, với “brilliant” có hóa trị là +2 , “very brilliant” có hóa trị là +3, “failed” làm thay đổi hóa trị của “very brilliant” thành -3, mặc dù “failed” có hóa trị là -1, “solve the
problem” có hóa trị là +1 Hoá trị của câu trên là -4
b) Phương phápCVS phân loại cảm xúc ở mức văn bản
CVS phân loại cảm xúc ở mức văn bản, xử lý các trường hợp: các từ kết nối (Connectors), cấu trúc văn bản viết, sự ước đoán nhiều thực thể, thể loại, bài phát biểu được báo cáo lại (Reported Speech), các chủ đề con, các ràng buộc thể loại, các ràng buộc văn hóa
Các từ kết nối (Connectors)
Các từ kết nối là các từ: although; however; but; on the contrary; not with standing… Cấu trúc Adj1 but Adj2(adjective 1 but adjective 2)có thể được sử dụng để quyết định hóa trị của một tính từ (adjective) nếu hóa trị của một từ khác được biết
Trang 23Ví dụ câu “Although Boris is brilliant at math, he is a horrible teacher”
o “brilliant” có hóa trị là +2
o “horrible” có hóa trị là -2
brilliant…” có hóa trị là 0
o Hoá trị của câu là: -2
Cấu trúc văn bản viết
Điều chỉnh hóa trị ở mức văn bản liên quan đến chính cấu trúc văn bản
Có hai quan hệ cơ bản của văn bản: danh sách (lists), sự soạn thảo tỉ mỉ (elaborations) Một số thành phần của văn bản có liên quan đến các thành phần khác trong danh sách, mỗi thành phần mã hóa một quan hệ tương ứng cho các khái niệm chung và cho các thành phần khác mà cung cấp nhiều thông tin chi tiết hơn của một đoạn trong văn bản,
có thứ tự trước chúng trong tổ chức tuyến tính của văn bản
Các thành phần có cấu trúc trước đó chi phối việc soạn thảo tỉ mỉ các thành phần tiếp theo
Trong một sự soạn thảo tỉ mỉ (elaboration), một thành phần cung cấp nhiều chi tiết hơn
về một thành phần mà ở liền kề nhau
Tuesdays Wednesdays he walked another 25 miles Every weekend he hikes at least 50 miles a day”
o Mỗi thành phần bị chi phối được tính hóa trị là neutral
o Trong nội dung ví dụ trên, mỗi thành phần là một ví dụ của “terrific” của John Do đó, “terrific” có hóa trị là positive, được thừa kế từ mỗi thành
phần theo
Trang 24o Độ mạnh cho một đối tượng của thuật ngữa terrific được đánh hóa trị là
positive tuyệt đối khi áp dụng cho John, được tăng cường khi câu được xử
lý trong ngữ cảnh văn bản của nó hơn là khi một sự diễn đạt độc lập
Sự ước đoán nhiều thực thể
Tác giả Livia Polanyie và Annie Zaenen [7] đã tìm kiếm các ảnh hưởng mà ngữ cảnh
có thể có trên sự ước đoán của một thực thể đơn Nhưng trong hầu hết các tài liệu phức tạp, khó có thể thực hiện sự ước đoán của nhiều thực thể trong tài liệu đó – vài thực thể trong số đó có thể được phân loại positive và những thực thể khác có thể được phân loại negative
Thể loại
Sự xác định cảm xúc của người viết có thể có liên quan một cách phức tạp đến thể loại trao đổi thông tin trong việc các thuật ngữ được xác định hóa trị (valence)
Bài phát biểu được báo cáo lại (Reported Speech)
Ví dụ 6:
Câu “Mary was a slob”có hóa trị là -1, bởi vì “slob” là một thuật ngữ được xác
định hóa trị là negative tuyệt đối
Câu “John said that Mary was a slob”,trong trường hợp này người viết xác nhận
rằng John đã nói vài điều không tốt về Mary, chứ không phải người viết chấp nhận sự xác định của John
Câu “John said that Mary was a slob and he is right”có phân cực cảm xúc là negative được xác định cho “slob” sẽ được đếm cùng với phân cực cảm xúc là positive của “right”
remembers those miserable - rotten - nights.”, chúng ta thấy:
o cả hai từ “argue” và “remembers” là dạng Reported Speech và các hoạt
động suy nghĩ (thought operators);
Trang 25o vì vậy hóa trị của văn bản đó không được gán cho người viết Nhưng hóa trị của văn bản được gán cho sự hài lòng của người tiêu dùng (utilities) và công chúng (public) một cách theo thứ tự Văn bản này không phảineutral;
có hóa trị là positive trong quan hệ cho sự hài lòng của người tiêu dùng và
có hóa trị là negative trong quan hệ cho công chúng Người viết cần một
cách tính cho “utilities” và một cách tính cho “public”;
việc sử dụng “but”, người viết lựa chọn để cung cấp nhiều độ mạnh cho quan điểm thứ hai (“public”), cũng là quan điểm chính trong câu
Các chủ đề con
Thỉnh thoảng một văn bản dài có thể phân tích thành các chủ đề con Quan điểm của người viết có thể được xác định có liên quan đến mỗi chủ đề con Tuy nhiên, trong hầu hết các trường hợp, vấn đề này không dễ để thực hiện
Các ràng buộc thể loại
Tác giả Livia Polanyie và Annie Zaenencho rằng có thể khai thác các ràng buộc thể loại trong việc quyết định cảm xúc của các người viết hướng về các thực thể được tạo trong các tài liệu Tuy nhiên, tác giả Tác giả Livia Polanyie và Annie Zaenen chưa thực hiện được
Các ràng buộc văn hóa
Tác giả Livia Polanyie và Annie Zaenen không có phương pháp tính toán để tính sự ảnh hưởng này, nhưng tác giả Livia Polanyie và Annie Zaenen tin rằng nó đóng góp cho sự phân loại cảm xúc
2.1.2 Công trình nghiên cứucủa A Kennedy và D Inkpen năm 2006
Tác giả của A Kennedy và D Inkpensử dụng 02 phương pháp cho việc quyết định tình cảm được diễn đạt bởi một bài nhận xét về phim Tác giả của A Kennedy và D Inkpen kiểm tra ảnh hưởng của các CVS trên việc phân loại các bài nhận xét Tác giả của A Kennedy và D Inkpen kiểm tra 03 loại CVS: negations – phủ định; intensifiers – tăng cường và diminishers – giảm nhẹ
Trang 26Negations được sử dụng để đảo polarity của tình cảm của một thuật ngữ đặc biệt Intensifiers và diminishers được sử dụng để tăng và giảm bậc cho một thuật ngữa là positive và negative
Phương pháp thứ nhất là phương pháp đếm thuật ngữ,phân loại các bài nhận xét được dựa trên số các thuật ngữ cĩ positive và negative mà bài viết đĩ chứa dựng
Tác giả của A Kennedy và D Inkpen sử dụng GI [2] để xác định các thuật ngữ là positive và negative, cũng như các thuật ngữ negation, intensifier và diminisher
Tác giả của A Kennedy và D Inkpen sử dụng một tập dữ liệu các bài nhận xét về phim ở [1]
Tác giả của A Kennedy và D Inkpen cho thấy rằng việc mở rộng phương pháp đếm thuật ngữ với CVS đã cải thiện độ chính xác của phân loại
Phương pháp thứ 2 sử dụng một giải thuật Machine Learning là giải thuật SVM Tác giả bắt đầu với các feature là unigram và sau đĩ thêm vào bigram mà bao gồm một valence shifters (bộ dịch chuyển hĩa trị) và từ khác Các feature đĩng gĩp cho sự chính xác cao là các từ trong các danh sách của các thuật ngữ là positive và negative Tác giả của A Kennedy và D Inkpen cho thấy rằng việc kết hợp 02 phương pháp đạt được các kết quả tốt hơn
2.1.3 Cơng trình nghiên cứucủa Vivek Narayanan, Ishan Arora và Arjun Bhatia năm 2013
Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã nghiên cứu nhiều phương pháp khác nhau cho việc cải tiến độ chính xác của phương pháp Nạve Bayes cho phân loại cảm xúc
Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã cho thấy rằng một sự kết hợp các phương pháp, gồm xử lý phủ định, n-gram và feature selection bằng mutual information cho kết quả cĩ độ chính xác cao hơn
Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã đạt được độ chính xác 88.8% trên tập dữ liệu các bài nhận xét phim [1]
Trang 27▪Phương pháp Nạve Bayes
Nạve Bayes là một mơ hình xác suất đơn giản được dựa trên luật Bayes Mơ hình Nạve Bayes liên quan đến một giả định độc lập cĩ điều kiện đơn giản hĩa Cho trước một lớp (lớp positive hoặc lớp negative), các từ là độc lập cĩ điều kiện với nhau Giả định này khơng ảnh hưởng đến độ chính xác trong sự phân loại văn bản nhưng được
áp dụng nhanh chĩng cho các giải thuật phân loại cảm xúc.Trong trường hợp này, xác suất khả năng tối đa (maximum likelihooad probability) của một từ thuộc về một lớp
cụ thể được diễn đạt bằng cơng thức sau
Số đếm tần số của các từ được lưu trữ trong các bảng băm (hash table) trong suốt giai đoạn huấn luyện Theo luật Bayes, xác suất một tài liệu cụ thể thuộc về một lớp Ci được xác định như sau
Nếu sử dụng các giả định độc lập cĩ điều kiện đơn giản hĩa, cho trước một lớp (lớp positive hoặc lớp negative) thì các từ độc lập cĩ điều kiện với nhau Do các giả định đơn giản hĩa này, mơ hình này được gọi là “nạve”
Ở đây, xi, d là các từ của tài liệu
Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia cũng loại bỏ các từ trùng lắp (lặp lại trên 02 lần) từ tài liệu, các từ trùng lắp khơng làm tăng thêm thơng tin, kiểu giải thuật Nạve Bayes này được gọi là Bernoulli Naive Bayes
▪Laplacian Smoothing
Nếu classifier bắt gặp một từ mà khơng được tìm thấy trong tập huấn luyện, xác suất của cả2 lớp sẽ trở thành 0 và sẽ khơng thể so sánh được Vấn đề này được giải quyết bởi Laplacian smoothing
Trang 28Thông thường, k được chọn là 1 (k=1) Bằng cách này, có xác suất bằng nhau cho các
từ mới là một trong hai lớp
▪Xử lý phủ định
Một vấn đề khác phải đối mặt trong nhiệm vụ phân loại tình cảm là việc xử lý các phủ định Bởi vì Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia sử dụng mỗi từ như là một feature, từ “good” trong cụm từ “not good” sẽđóng góp vào phân loại tình cảm là positive hơn làđóng góp vào phân loại tình cảm là negative được xem như có mặt từ “not” Để giải quyết vấn đề này, Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã sử dụng một giải thuật đơn giản để xử lý các phủ định
2.1: Giải thuật xử lý phủ định[9]
Giải thuật sử dụng một biến trạng thái để lưu trữ trạng thái phủ định; biến đổi một từ ở dạng “not” hoặc “n‟t” thành dạng “not_” + từ Bất cứ khi nào các trạng thái phủ định được thiết lập, từ được đọc được xử lý như là: “not_”+ từ Biến trạng thái được khởi tạo lại khi gặp một dấu chấm câu hoặc khi có phủ định đôi
Bởi vì các dạng phủ định có thể không đầy đủ cho phân loại chính xác Có thể nhiều từ mang tình cảm mạnh mẽ xảy ra chỉ ở các dạng thông thường trong tập huấn luyện Nhưng các dạng phủ định của chúng sẽ được phân cực mạnh mẽ
Trang 29Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia giải quyết vấn đề này bằng cách thêm các dạng phủ định cho lớp đối nghịch cùng với các dạng thông thường của tất cả các feature trong suốt giai đoạn huấn luyện.Nghĩa là nếu bắt gặp từ “good” trong một tài liệu là positive trong suốt giai đoạn huấn luyện, tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia sẽ tăng số của “good” trong lớp positive và cũng tăng số
số của “not good” trong lớp negative Điều này đảm bảo rằng số lượng các dạng
“not_” đủ để phân loại Vấn đề này đã cải thiện độ chính xác của phân loại khoảng 1%
“definitely recommened” làm tăng xác suất của một tài liệu được xác định là negative hoặc positvie Bao gồm các bigram và trigram, tác giả Vivek Narayanan, Ishan Arora
và Arjun Bhatia có thể lấy được thông tin về các adjective và các adverb.Sử dụng các bigram và các trigramyêu cầu một lượng lớn dữ liệu trong tập huẩn luyện, nhưng đây không phải là vần đề khi tập dữ liệu huấn luyện của tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia có 25 000 bài nhận xét Nhưng dữ liệu không chứa đủ khi thêm các 4-gram (bao gồm 04 từ liên tiếp nhau), có thể không phù hợp với tập huấn luyện
▪Feature Selection
Feature selection là quá trình của việc loại bỏ các feature (nét) dư thừa và các feature nhiễu, trong khi vẫn giữ lại các feature mà có nhiều khả năng tạo thành nghĩa cao hơn
Mutual information
- Mutual information là một định lượng mà đo lường sự phụ thuộc lẫn nhau của
02 biến ngẫu nhiên
Trang 30- Mutual information của 02 biến ngẫu nhiên hữu hạn X và Y có thể được định nghĩa như sau:
Với:
o p(x, y) là hàm phân bố xác suấtchungcủa X và Y
o p (X)là các hàmphân bố xác suấtbiên củaX
o p(Y)là các hàmphân bố xác suấtbiên củaY
o Xlà mộ feature độc lậpcó thể lấyhaigiá trị, feature này làhiện diện (present)hoặc vắng mặt (absent)và Ylà lớp , bao gồm có postive hoặc negative Tác giả lựa chọncác feature có số lượngkđầu vào mutual information lớn nhất Bằng cách vẽmột đồ thịgiữa độ chính xácvà số lượngcác feature, giá trị tối ưu chokđược phát hiệnra là32.000
2.2: Độ chính xác so với số các feature 2.2 Phương pháp đề xuất
Như đã trình bày ở các phần trên, đề tài cần phải xây dựng và đánh giá một phương pháp tổng hợp có sử dụng CVS để phân loại cảm xúc cho các bài nhận xét về phim [1] đạt được độ chính xác cao hơn [8] và[9] Phương pháp tổng hợp đó là phương pháp kết
Trang 31hợp phương pháp đếm thuật ngữ với CVS và phương pháp NB với CVS Mỗi phương pháp phân loại cảm xúc đều có ưu điểm và nhược điểm.Việc kết hợp các phương pháp
sẽ tận dụng tất cả các ưu điểm của mỗi phương pháp và hạn chế thấp nhất các nhược điểm của mỗi phương pháp bằng cách lấy ưu điểm của phương pháp này để khắc phục
và hạn chế các nhược điểm của phương pháp kia Ví dụ trong các mẫu mà phương pháp NB không phân loại được thì phương pháp đếm thuật ngữ với CVS có thể phân loại được một phần trong số các mẫu đó
[9] sử dụng thông tin tương hỗ (mutual information) để loại các nét (feature) nhiễu và các nét dư thừa nhằm làm giảm tập các nét được sử dụng huấn luyện để tăng độ chính
N-GRAM nhằm để loại các nét nhiễu và các nét dư thừa Do đó, tác giả sẽ áp dụng chi
square để loại các nét nhiễu và các nét dư thừa trong quá trình thực hiện phương
pháp tổng hợp trên
[9] sử dụng phương pháp Làm Mịn Laplacian (Laplacian smoothing) dùng để làm mịn
các nét, loại bỏ vấn đề phân bố thưa khi sử dụng GRAM Khi sử dụng mô hình gram, sự phân bố không đều trong tập văn bản huấn luyện có thể dẫn đến các ước lượng không chính xác Khi các N-gram phân bố thưa, nhiều cụm n-gram không xuất hiện hoặc chỉ có số lần xuất hiện nhỏ, việc ước lượng các câu có chứa các cụm n-gram này sẽ có kết quả tồi Với V là kích thước bộ từ vựng, sẽ có Vn cụm N-gram có thể sinh từ bộ từ vựng Tuy nhiên, thực tế thì số cụm N-gram có nghĩa và thường gặp chỉ
N-chiếm rất ít.[16] cho thấy rằng việc sử dụng Good-Turing Discounting để làm mịn các nét sẽ hiệu quả hơn nhiều so với Laplacian smoothing Do đó, tác giả sẽ áp dụng
Good-Turing Discounting để làm mịn các nét trong quá trình thực hiện phương pháp
Trang 32o Tạo các nét bằng N-GRAM (gọi là tập F1)
o Tạo ra các nét dựa vào Contextual Valence Shifters (gọi là tập F2)
o Xử lý phủ định
o Làm mịn các nét
o Loại bỏ các nét bị thừa và các nét nhiễu
o Thực hiện phương pháp Nạve Bayes với Contextual Valence Shifters
o Thực hiện kết hợp phương pháp Navie Bayes -Contextual ValenceShifters với phương pháp đếm thuật ngữ - Contextual Valence Shifters
Trang 333.1: Mô hình phân loại cảm xúc được đề xuất
- Phương pháp TC-CVS là phương pháp phân loại cảm xúc bằng kết hợp bao gồm phương pháp đếm thuật ngữ với phương pháp Contextual Valence Shifters
- F1: phương pháp phân loại cảm xúc bằng kết hợp mô hình Naive bayes với N-Gram,
xử lý phủ định, xử lý nhiễu Chi-Square và làm mịn Good-Turing Discounting
- F2: phương pháp phân loại cảm xúc bằng phương pháp Contextual Valence Shifters
để tạo các nét cho mô hình Naive Bayes
-F1+F2: phương pháp phân loại cảm xúc bằng kết hợp bao gồm mô hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và Contextual Valence Shifters
b) Phương pháp TC-CVS
- Thực hiện tổng hợp 5 bộ từ điển [2,3,4,5,6]
- Thực hiện phương pháp TC-CVS ở mức độ câu
- Thực hiện phương pháp TC-CVS ở mức văn bản
Trang 34c) Giải thuật phân loại cảm xúc bằng kết hợp mô hình Naive Bayes với Gram, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discounting (F1)
N-Giải thuật F1 dược trình bày ở giải thuật 3.1
d) Giải thuật phân loại cảm xúc bằng phương pháp Contextual
ValenceShifters để tạo các nét cho mô hình Naive Bayes (F2)
Giải thuật F2 dược trình bày ở giải thuật 3.2
Giải thuật 3.2: Phân loại cảm xúc F2
Giải thuật 3.1: Phân loại cảm xúc F1
Nhập: tập dữ liệu huấn luyện Train-Data;
Xuất: tập kết quả phân loại cảm xúc Result;
Trang 35e) Giải thuật phân loại cảm xúc bằng mô hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting, và Contextual Valence Shiters (F1+F2)
Giải thuật F1+F2 dƣợc trình bày ở giải thuật 3.3
Giải thuật 3.3: Phân loại cảm xúc F1+F2
Nhập: tập dữ liệu huấn luyện Train-Data; bộ từ điển mới
Xuất: tập kết quả phân loại cảm xúc Result;
Trang 363.2 Xây dựng cơ sở dữ liệu
Tác giả đã xây dựng các bảng cơ sở dữ liệu của cơ sở dữ liệuCVS_DATASET trong
hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2008 R2
Tác giả xây dựng bảng dữ liệu Reviews_train trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ 25000 bài nhận xét của tập huấn luyện ở [1], với các thuộc tính như sau:
-Lưu trữ nội dung của một bài nhận xét trong
25000 bài nhận xét của tập huấn luyện ở [1]
cực cảm xúc
-Lưu phân cực cảm xúc mặc định của bài nhận xét có nội dung ở thuộc tính CONTENT
Tác giả xây dựng bảng dữ liệu Reviews_test trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ 25000 bài nhận xét của tập kiểm tra ở [1], với các thuộc tính như sau:
3.2: Bảng dữ liệu Reviews_test
Trang 37xét của tập kiểm tra ở [1]
cảm xúc
-Lưu phân cực cảm xúc mặc định của bài nhận xét có nội dung ở thuộc tính CONTENT
Tác giả xây dựng bảng dữ liệu Reviews_train_NOT trong cơ sở dữ liệu SQL SERVER
2008, được dùng để lưu trữ 25000 bài nhận xét của tập huấn luyện ở [1] mà nội dung của bài nhận xét được xử lý phủ định theo mục 6.2 của Chương 6, với các thuộc tính như sau:
3.3: Bảng dữ liệu Reviews_train_NOT
cảm xúc
-Lưu phân cực cảm xúc mặc định của bài nhận xét có nội dung ở thuộc tính CONTENT
Tác giả xây dựng bảng dữ liệu Reviews_test_NOT trong cơ sở dữ liệu SQL SERVER
2008, được dùng để lưu trữ 25000 bài nhận xét của tập kiểm tra ở [1] mà nội dung của bài nhận xét được xử lý phủ định theo mục 6.2 của Chương 6, với các thuộc tính như sau:
3.4: Bảng dữ liệu Reviews_test_NOT
Trang 38tính
bài nhận xét
-Lưu trữ nội dung của một bài nhận xét trong 25000 bài nhận xét của tập kiểm tra ở [1]
cảm xúc
-Lưu phân cực cảm xúc mặc định của bài nhận xét có nội dung ở thuộc tính CONTENT
Tác giả xây dựng bảng dữ liệu Dictionary trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ bộ từ điển mới được tổng hợp từ năm bộ từ điển [2,3,4,5,6], với các thuộc tính như sau:
cực cảm xúc
-Nếu Polarity = 0 thì trung lập (neutral)
-Nếu Polarity = 1 thì dương (positive) -Nếu Polarity = 2 thì từ là nhấn mạnh (intensifier)
-Nếu Polarity = -1 thì âm (negative) -Nếu Polarity = -2 thì giảm nhẹ (diminishers)
Trang 39Valence int Hóa trị -Nếu Polarity = 0 thì Valence = 0
-Nếu Polarity = 1 thì:
+ nếu là dương mạnh thì Valence = 2
+ nếu là dương nhẹ thì Valence
= 1 -Nếu Polarity = 2 thì Valence = % của
độ nhấn mạnh (ví dụ 20, 50, 100) -Nếu Polarity = -1 thì:
+ nếu là âm mạnh thì Valence = -2
+ nếu là âm nhẹ thì Valence =
-1 -Nếu Polarity = -2 thì Valence = - % của độ nhấn mạnh (ví dụ -20, -50, -100)
Trang 40“pharse”
-Nếu là nhấn mạnh (intensifier) thì PartOfSpeech = “intensifier”
-Nếu là giảm nhẹ thì PartOfSpeech =
có dạng tính từ thì PartOfSpeech =
“noun_verb_adjective”
Tác giả xây dựng bảng dữ liệu CVS_COUNTING_train trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ kết quả phân loại cảm xúc của 25000 bài nhận xét của tập huấn luyện bằng phương pháp đếm thuật ngữ với phương pháp Contxtual Valence Shifters của Chương 5, với các thuộc tính như sau: