Sử dụng contextual valence shifters để phân loại cảm xúc cho các văn bản đơn giản trong một lĩnh vực

Luận văn này cũng trình bày phương pháp được đề xuất dựa trên sự kết hợp của phương pháp N-Gram, phương pháp lựa chọn nét Chi-Square, phương pháp Good-Turing Discounting và phương pháp C

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : GS.TS.Phan Thị Tươi

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 Chủ tịch hội đồng: TS.Nguyễn Văn Hiệp

2 Thư ký hội đồng: TS.Bùi Hoài Thắng

3 Cán bộ hướng dẫn: GS.TS.Phan Thị Tươi

4 Cán bộ chấm nhận xét 1 : PGS.TS.Quản Thành Thơ

5 Cán bộ chấm nhận xét 2 : TS.Huỳnh Trung Hiếu

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

I TÊN ĐỀ TÀI:

SỬ DỤNG “CONTEXTUAL VALENCE SHIFTERS” ĐỂ PHÂN LOẠI CẢM XÚC CHO CÁC VĂN BẢN ĐƠN GIẢN TRONG MỘT LĨNH VỰC

II NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu các phương pháp xác định cảm xúc ở các mức: từ, cụm từ, câu, văn bản

- Nghiên cứu các phương pháp phân loại cảm xúc ở các mức

- Đề xuất phương pháp thực hiện phân loại cảm xúc ở một mức trong một lĩnh vực

III NGÀY GIAO NHIỆM VỤ : (Ghi theo trong QĐ giao đề tài)

IV NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài)

V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): GS TS Phan Thị Tươi

Trang 4

LỜI CẢM ƠN

Tôi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến GS.TS.Phan Thị Tươi Cám ơn

Cô đã tận tình chỉ bảo, hướng dẫn, định hướng cho tôi trong suốt thời gian thực hiện Luận văn Cám ơn Cô đã chia sẻ cho tôi những kinh nghiệm quý báu trong nghiên cứu khoa học Điều đó đã giúp tôi rất nhiều trong việc thực hiện Luận văn cũng như trong công việc giảng dạy, nghiên cứu của tôi sau này

Tôi cũng xin cảm ơn gia đình đã động viên và tạo mọi điều kiện tốt nhất để tôi có thể tiếp tục theo đuổi việc học tập nghiên cứu Con xin cám ơn Cha Mẹ, nhờ công lao dưỡng dục của Người mà con mới có được thành quả như ngày hôm nay Con xin hứa

sẽ tiếp tục cố gắng phấn đấu để vươn cao hơn nữa

Võ Ngọc Phú

Trang 5

Luận văn này cũng trình bày phương pháp được đề xuất dựa trên sự kết hợp của phương pháp N-Gram, phương pháp lựa chọn nét Chi-Square, phương pháp Good-Turing Discounting và phương pháp Contextual Valence Shifters đã cải thiện độ chính xác của phân loại cảm xúc Phương pháp kết hợp này đạt độ chính xác 89.5% Bằng việc sử dụng mô hình Naive Bayes với sự kết hớp N-Gram, lựa chọn nét và phương pháp Good-Turing Discounting để phân loại cảm xúc cho các bài nhận xét về phim, tác giả đã đạt độ chính xác 89.1% Sau đó, tác giả sử dụng mô hình Naive Bayes để phân loại cảm xúc cho các bài nhận xét về phim với nhiều nét mà được tạo ra bởi phương pháp Contextual Valence Shifters và tác giá đạt độ chính xác 65.4% Tất cả các phương pháp được thực thi để phân loại cảm xúc các bài nhận xét về phim được dựa trên bộ từ điển mới của tác giả và tập dữ liệu về phim

Trang 6

ABSTRACT

We have explored different methods for improving the accuracy of sentiment classification The sentiment orientation of a document can be positive (+), negative (-), or neutral (0) We combine five dictionaries from [2, 3, 4, 5, 6] into the new one with 21137 entries The new dictionary has many additionalverbs, adverbs, phrases and idioms, that are not in five ones before The thesis shows that our proposed method based on the combination of Term-Counting method and Enhanced Contextual Valence Shifters method, that has improved the accuracy of sentiment classification The combined method has accuracy 68.984% on the testing dataset, and 69.224% on the training dataset

The thesis also shows that our proposed method based on the combination of Gram, Chi-Square feature selection, Good-Turing Discounting,and Contextual Valence Shifters methods, that has improved the accuracy of sentiment classification The combined method has an accuracy 89.5% By using the Nạve Bayes model with combining N-Gram, Chi-Square feature selection and Good-Turing Discounting methods to classify emotions in reviews, we have achievedof 89.1% Then, we use Naive Bayes model to classsify reviews with many features which are created by Contextual Valence Shifters method and we have achievedof 65.4% All of these methods are implemented to classify the reviews based on our new dictionary and the Internet Movie data set

Trang 7

N-LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi

rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện

và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác

Ngày 23 tháng 07 năm 2014

Võ Ngọc Phú

Trang 8

MỤC LỤC

DANH MỤC HÌNH 10

DANH MỤC BẢNG 12

CHƯƠNG 1: GIỚI THIỆU 14

1.1 Lý do chọn đề tài 14

1.2 Mục đích nghiên cứu 14

c) Phạm vi nghiên cứu 15

d) Cấu trúc của đề tài 15

CHƯƠNG 2: TỔNG QUAN 17

2.1 Các công trình nghiên cứu liên quan 17

2.1.1 Công trình nghiên cứucủaLivia Polanyivà Annie Zaenen năm 2004 17

a) CVS phân tích cảm xúc ở mức câu 18

b) Phương phápCVS phân loại cảm xúc ở mức văn bản 21

2.1.2 Công trình nghiên cứucủa A Kennedy và D Inkpen năm 2006 24

2.1.3 Công trình nghiên cứucủa Vivek Narayanan, Ishan Arora và Arjun Bhatia năm 2013 25

2.2 Phương pháp đề xuất 29

CHƯƠNG 3: GIẢI PHÁP 32

3.1 Giải pháp 32

a) Tổng quan đề tài 32

b) Phương pháp TC-CVS 32

c) Giải thuật phân loại cảm xúc bằng kết hợp mô hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discounting (F1) 33

Giải thuật 3.1: Phân loại cảm xúc F1 33

Trang 9

d) Giải thuật phân loại cảm xúc bằng phương pháp Contextual ValenceShifters

để tạo các nét cho mơ hình Naive Bayes (F2) 33

e) Giải thuật phân loại cảm xúc bằng mơ hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting, và Contextual Valence Shiters (F1+F2) 34

Giải thuật 3.3: Phân loại cảm xúc F1+F2 34

3.2 Xây dựng cơ sở dữ liệu 35

3.3 Viết chương trình thử nghiệm 48

CHƯƠNG 4: PHƯƠNG PHÁP ĐÁNH GIÁ 49

4.1 Độ chính xác (A) 50

4.2 Precision (P) 50

4.3 Recall (R) 51

4.4 F-Score (F) 51

CHƯƠNG 5: PHÂN LOẠI CẢM XÚC: KẾT HỢP PHƯƠNG PHÁP ĐẾM THUẬT NGỮ VỚI CONTEXTUAL VALENCE SHIFTERS 52

5.1 Phương pháp kết hợp bao gồm phương pháp đếm thuật ngữ với Contextual Valence Shifters (TC-CVS) 52

Giải thuật 5.1: Phân loại cảm xúc bằng phương pháp kết hợp TC-CVS ở mức độ câu 55

Giải thuật 5.2: Phân loại cảm xúc bằng phương pháp kết hợp TC&CVS ở mức độ văn bản 56

Giải thuật 5.3: Tạo từ điển mới từ năm từ điển 58

CHƯƠNG 6: PHÂN LOẠI CẢM XÚC: KẾT HỢP MƠ HÌNH NẠVE BAYES VỚI N-GRAM, XỬ LÝ PHỦ ĐỊNH, XỬ LÝ NHIỄU CHI-SQUARE, VÀ LÀM MỊN GOOD-TURING DISCOUNTING 60

6.1 N-GRAM (F1) 60

6.2 Xử lý phủ định 61

6.3 Xử lý nhiễu Chi-Square 61

Trang 10

6.4 Làm mịn Good-Turing Discounting 63

CHƯƠNG 7: PHÂN LOẠI CẢM XÚC: KẾT HỢP MƠ HÌNH NẠVE BAYES VỚI N-GRAM, XỬ LÝ PHỦ ĐỊNH, XỬ LÝ NHIỄU CHI-SQUARE, LÀM MỊN GOOD-TURING DISCOUNTING VÀ PHƯƠNG PHÁP CONTEXTUAL VALENCE SHIFTERS 65

7.1 Phân loại cảm xúc bằng phương pháp Contextual Valence Shifters để tạo các nét cho mơ hình Nạve Bayes (F2) 65

7.1.1 Chuyển đổi hĩa trị sang tần số (F2.1) 65

Giải thuật 7.1: Chuyển đổi hĩa trị sang tần số 65

7.1.2 Phủ định (F2.2) 66

Giải thuật 7.2: Chuyển phủ định 66

7.1.3 Nhấn mạnh và giảm nhẹ (F2.3) 67

Giải thuật 7.3: Nhấn mạnh và giảm nhẹ 67

7.2 Phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N_Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và Contextual Valence Shifters (F1+F2) 68

CHƯƠNG 8: THỬ NGHIỆM VÀ ĐÁNH GIÁ 69

8.1 Phân loại cảm xúc bằng phương pháp kết hợp đếm thuật ngữ với Contextual Valence Shifters 69

a) Thử nghiệm 69

b) Đánh giá 69

8.2 Phân loại cảm xúc bằng sự kết hợp mơ hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discouting (F1) 73

b) Đánh giá 73

8.3 Phân loại cảm xúc bằng sự kết hợp mơ hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters (F1+F2) 74

Trang 11

8.3.1 Phân loại cảm xúc bằng phương pháp Contextual Valence Shifters để tạo

các nét cho mô hình Naive Bayes (F2) 74

b) Đánh giá 75

8.3.2 Phân loại cảm xúc bằng sự kết hợp mô hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters (F1+F2) 75

b) Đánh giá 76

CHƯƠNG 9: KẾT LUẬN 78

9.1 Phân loại cảm xúc bằng phương pháp kết hợp đếm thuật ngữ với phương pháp Contextual Valence Shifters 78

9.2 Phân loại cảm xúc bằng sự kết hợp mô hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discounting 79

9.3 Phân loại cảm xúc bằng sự kết hợp mô hình Naive Bayes với N-GRAM, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters 79

CÔNG TRÌNH NGHIÊN CỨU 80

TÀI LIỆU THAM KHẢO 81

Trang 12

DANH MỤC HÌNH

2.1: Giải thuật xử lý phủ định[9] 27

2.2: Độ chính xác so với số các feature 29

3.1: Mô hình phân loại cảm xúc được đề xuất 32

3.2 :Giao diện chương trình 48

5.1 : Minh hoạ bộ từ điển mới 55

6.1 : Các n_grams (F1) 61

6.2: Các n-grams sau khi áp dụng phương pháp Chi-Square 63

6.3: Các n-grams sau khi áp dụng phương pháp Good-Turing Discounting 64

7.1: Chuyển đổi hóa trị của phần tử trong bộ từ điển mới sang tần số (F2.1) 66

7.2:Xử lý phủ định (F2.2) 67

7.3:Nhấn mạnh và giảm nhẹ (F2.3) 68

Trang 13

DANH MỤC BẢNG

3.1: Bảng dữ liệu Reviews_train 35

3.2: Bảng dữ liệu Reviews_test 35

3.3: Bảng dữ liệu Reviews_train_NOT 36

3.4: Bảng dữ liệu Reviews_test_NOT 36

3.5: Bảng dữ liệu Dictionary 37

3.6: Bảng dữ liệu CVS_COUNTING_train 40

3.7: Bảng dữ liệu CVS_COUNTING_test 40

3.8: Bảng dữ liệu N_GRAM 41

3.9: Bảng dữ liệu N_GRAM_CHI_SQUARE 42

3.10: Bảng dữ liệu N_GRAM_CHI_SQUARE_GTD 43

3.11: Bảng dữ liệu NaiveBayes_F1 44

3.12: Bảng dữ liệu NaiveBayes_F2 45

3.13: Bảng dữ liệu NaiveBayes_Final 47

8.1: Các kết quả của 25000 bài nhận xét cho tập huấn luyện bằng phương pháp TC-CVS 69

8.2: Độ chính xác của phương pháp TC-CVS cho 25000 bài nhận xét cho tập huấn luyện 69

8.3 : Các kết quả của 25000 bài nhận xét cho tập kiểm tra bằng phương pháp TC-CVS 70

8.4: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra bằng phương pháp TC-CVS 70

8.5: So sánh phương pháp kết hợp TC-CVS với các phương pháp ở [7], [8] 70

Trang 14

8.6: Các kết quả của 25000 bài nhận xét cho tập kiểm tra (F1) 73

8.7: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra (F1) 73

8.8: So sánh kết quả với [9] (F1) 74

8.9: Các kết quả của 25000 bài nhận xét cho tập kiểm tra (F2) 75

8.10: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra (F2) 75

8.11: Các kết quả của 25000 bài nhận xét cho tập kiểm tra (F1+F2) 76

8.12: Độ chính xác của 25000 bài nhận xét cho tập kiểm tra (F1+F2) 76

8.13: So sánh kết quả với kết quả của [9] (F1+F2) 77

Trang 15

CHƯƠNG 1: GIỚI THIỆU

1.1 Lý do chọn đề tài

Trong cuộc sống hằng ngày, con người luôn khao khát khám phá ra các tri thức mới Trong quá trình khám phá đó, con người cũng luôn quan tâm đến các cảm xúc, chính kiến mà những người khác suy nghĩ Đó gọi là phân loại cảm xúc

Có nhiều loại phân loại cảm xúc Hiện nay phân loại cảm xúc là một lĩnh vực nghiên cứu mới mẻ và nóng bỏng Bởi vì ngày càng nhiều nội dung trang web, con người, và các tổ chức quan tâm đến việc tìm hiểu ý nghĩ của những người khác, vì vậy họ cần một số công cụ tự động cho việc phân tích và tóm tắt các ý nghĩ, các bài viết.Một trong các nhiệm vụ chính của phân loại cảm xúc là xác định nội dung một tài liệu như trang web, blog, tạp chí, bài nhận xét có thể giữ cảm xúc âm (negative), dương (positive) hoặc trung lập (neutral) Cảm xúc âm (negative) là loại cảm xúc mang yếu tố tiêu cực như ghét, xấu, chê, thất bại, không thích,….Cảm xúc dương (positive) là loại cảm xúc mang yếu tố tích cực như khen, đẹp, tốt, thích…Cảm xúc trung lập (neutral)

là loại cảm xúc không mang yếu tố tiêu cực (negative) và cũng không mang yếu tố tích cực (positive)

Phân loại cảm xúc có ý nghĩa quan trọng trong cuộc sống hằng ngày của con người, trong các hoạt động chính trị, cũng như trong hoạt động sản xuất sản phẩm,tiêu thụ sản phẩm…Ví dụ như : 1)Trong lĩnh vực chính trị, các ứng cử viên muốn biết ý kiến của các cử tri như thế nào, muốn biết các cử tri phản hồi như thế nào đối với các quan điểm hoặc chính sách của ứng cử viên đó… 2) Các công ty bán hàng muốn biết thời gian nào (hoặc mùa nào như mùa xuân, mùa thu ) sẽ bán được nhiều mặt hàng nào; muốn biết ý kiến phản hồi của khác hàng về một sản phẩm nào đó…3) Các rạp chiếu phim hoặc các nhà sản xuất phim muốn biết ý kiến của khán giả về một bộ phim nào

đó 4) Một diễn viên nổi tiếng muốn biết ý kiến của các người hâm mộ phản ứng như thế nào về một hành động hoặc một bài phát biểu của mình…

1.2 Mục đích nghiên cứu

Vấn đề cơ bản đối với các hệ thống phân loại cảm xúc thông thường phải đạt được độ chính xác cao và thời gian phân loại cảm xúc mang tính chất tương đối (không cần

Trang 16

thiết phải thật nhanh nhưng trong một thời gian chấp nhận được Ví dụ: từ vài giây cho đến khoảng 1 giờ)

Trong đề tài này, mục tiêu chính của tác giả là xây dựng được hệ thốngđể phân loại cảm xúc cho một bài viết trong một lĩnh vực cụ thể,cĩ độ chính xác cao, cĩ thể cao hơn độ chính xác của các tác giả [8] và [9]

Đề tài này là tiền đề để xây dựng các hệ thống phân loại cám xúc cho các văn bản trong ngơn ngữ Tiếng Việt

c) Phạm vi nghiên cứu

Trong phạm vi của luận văn, tác giả tập trung nghiên cứu những cơng trình liên quan đến phân loại cảm xúc cho các văn bản Tiếng Anh và tìm hiểu các phương pháp phân loại cảm xúc hiện đại, đang được quan tâm Sau đĩ, xác định cụ thể các yếu tố đầu vào

và đầu ra mong muốn, nhằm giải quyết bài tốn đã đặt ra dựa trên những lý thuyết đã tìm hiểu

Để giải quyết vấn đề trên, hướng tiếp cận của tác giả là sẽ tìm cách kết hợp phương pháp Nạve Bayes với Contextual Valence Shifters và phương pháp đếm thuật ngữ với Contextual Valence Shifters để cĩ thể xây dựng một hệ thống phân loại cảm xúc cĩ độ chính xác cao

Phạm vi nghiên cứu chính của đề tài sẽ bao gồm:

a) Phân loại cảm xúc cho các bài nhận xét về phim của ngơn ngữ Tiếng Anh với tập dữ liệu [1]

b) Xây dựng và cải tiến phương pháp Contextual Valence Shifters [7]

c) Xây dựng kỹ thuật lựa chọn nét (Feature Selection)

d) Kết hợp phương pháp Nạve Bayes với Contextual Valence Shifters và phương pháp đếm thuật ngữ với Contextual Valence Shifters

d) Cấu trúc của đề tài

Nội dung luận văn gồm 9 chương Chương 1 trình bày lý do nghiên cứu của đề tài luận văn cũng như mục đích và phạm vi nghiên cứu Các cơng trình nghiên cứu tiêu biểu về phân loại cảm xúc và phương pháp nghiên cứu đề xuất của luận văn được trình bày

Trang 17

trong chương 2 Chương 3 là chương trình bày giải pháp để thực hiện luận văn, bao gồm xây dựng cơ sở dữ liệu và các giải thuật Phương pháp đánh giá bao gồm bốn độ

đo là: độ chính xác (A), Precision (P), Recall ®, F-Score (F), được trình bày ở chương

4 Chương 5 là phân loại cảm xúc kết hợp phương pháp đếm thuật ngữ với Contextual Valenece Shifters,bao gồm phương pháp đếm thuật ngữ với Contextual Valence Shifters (TC-CVS); giải thuật phân loại cảm xúc bằng phương pháp kết hợp TC-CVS

ở mức độ câu; giải thuật phân loại cảm xúc bằng phương pháp kết hợp TC-CVS ở mức

độ văn bản; giải thuật tổng hợp bộ từ điển và các thử nghiệm của chương trình trên tập kiểm tra và tập huấn luyện Phân loại cảm xúc kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing-Discounting bao gồm phương pháp N-Gram (F1); xử lý phủ định; phương pháp xử lý nhiễu Chi-Square; phương pháp làm mịn Good-Turing Discounting và thử nghiệm chương trình, được trình bày ở chương 6.Chương 7 là phân loại cảm xúc kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters, bao gồm sử dụng Contextual Valence Shifters để tạo các nét (F2, bao gồm chuyển đổi hĩa trị sang tần số (F2.1), phủ định (F2.2), nhấn mạnh và giảm nhẹ (F2.3) ); phân loại cảm xúc kết hợp

mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và Contextual Valence Shifters; chương trình phân loại cảm xúc bằng phương pháp Contextual Valence Shifters để tạo các nét cho mơ hình Nạve Bayes (F2); và chương trình phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting, Contextual Valence Shifters (F1+F2).Chương 8 là thử nghiệm và đánh giá, bao gồm phân loại cảm xúc bằng phương pháp kết hợp đếm thuật ngữ với Contextual Valence Shifters; phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu và làm mịn Good-Turing Discounting; phân loại bằng phương pháp Contextual Valence Shifters để tạo các nét cho mơ hình Nạve Bayes; và phân loại cảm xúc bằng sự kết hợp mơ hình Nạve Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và phương pháp Contextual Valence Shifters Chương 9 là kết luận của luận văn

Trang 18

CHƯƠNG 2: TỔNG QUAN

2.1 Các công trình nghiên cứu liên quan

Phân loại cảm xúc sử dụng các phương pháp trong xử lý ngôn ngữ tự nhiên, như phân đoạn từ, gán nhãn từ loại, phân tíchvăn bản để xác định và trích xuất thông tin trong các nguồn tài liệu

Phân loại cảm xúc nhằm mục đích xác định thái độ của người nói hoặc người viếtvới vài chủ đề hoặc phân cực theo ngữ cảnh tổng thể của một tài liệu Thái độ có thể là đánh giá của một người hoặc sự ước lượng, trạng thái (trạng thái của người viết khi viết) hoặc sự trao đổi cảm xúc được dự kiến (cảm xúc của người viết mong muốn truyền đạt cho người đọc)

Một nhiệm vụ cơ bản trong phân tích tình cảm là phân loại phân cực (polarity) của một văn bản cho trước, câu hoặc mức độ nét (feature) – cho dù ý kiến được diễn đạt trong một văn bản, một câu hoặc toàn bộ các nét (thông thường là các từ), là tích cực

(positive), tiêu cực (negative), hoặc trung lập (neutral) Ví dụ,các trạng thái tình cảm

như“angry” (tức giận); “sad” (buồn); “happy” (hạnh phúc)

Trong các nghiên cứu về các hệ thống phân loại cảm xúc cho các văn bản tiếngAnh, có

ba công trìnhliên quan đến hệ thống phân loại cảm xúc mà tác giả sẽ thực hiện:

+ Công trình của Livia Polanyi và Annie Zaenen năm 2004 [7]

+ Công trình của A Kennedy và D Inkpen năm 2006 [8]

+ Công trình của Vivek Narayanan, Ishan Arora và Arjun Bhatia năm 2013 [9]

2.1.1 Công trình nghiên cứucủaLivia Polanyivà Annie Zaenen năm 2004

Theo tác giả Livia Polanyi và Annie Zaenen [7], việc xác định cảm xúc của một bài viết (hoặc một câu, hoặc một đoạn) được thực hiện chỉ dựa trên hóa trị (valence) của các từ hoặc thuật ngữ sẽ không chính xác 100%, có thể cho kết quả sai lệch Tuy nhiên, việc xác định cảm xúc của một bài viết (hoặc một câu, hoặc một đoạn) được thực hiện kết hợp giữa hóa trị của các từ hoặc thuật ngữ (term) với ngữ cảnh của từ hoặc thuật ngữ đó(được gọi là Contextual Valence Shifter - CVS) sẽ cho kết quả chính xác hơn

Trang 19

Các quan sát đã dẫn các nhà nghiên cứu đến sự phân loại các thuật ngữ thành positive hoặc negative hoặc neutral

Tính toán đơn giản của cảm xúc được diễn đạt trong một văn bản sẽ bao gồm việc đếm các đối tượng negative và positive, sau đó quyết định cơ bản dựa trên trọng số cao nhất của negative hoặc của positive.Tác giả Livia Polanyi và Annie Zaenen thấy rằng việc đếm đơn giản sẽ không hiệu quả

Có nhiều từ hoặc thuật ngữthể hiện hóa trị là negativehoặc positive, điều này là tùy thuộc vào ngữ cảnh mà từ hoặc thuật ngữ đó thuộc về Tuy nhiên, tác giả Livia Polanyi

và Annie Zaenen không đưa ra được độ chính xác thực hiện trên một tập dữ liệu nào CVS trong nghiên cứu này bao gồm: CVS phân tích cảm xúc ở mức câu;CVS phân tích cảm xúc ở mức văn bản

a) CVS phân tích cảm xúc ở mức câu

Khi một sốthuật ngữ của một văn bản vốn đã mang hoá trị cơ sở là positive hoặc negative, tác giả Livia Polanyi và Annie Zaenen cho rằng các thuật ngữ này vẫn có thể thay đổi hoá trịcơ sởtrong một ngữ cảnh – sự ảnh hưởng của câu,lĩnh vực bài viết hoặc các mục từ vựng khác gầnnhau trong văn bản

Các tác giả [7]nghiên cứucác hiện tượng của từ vựng, trong đócó thể hoá trị của một mục từ vựngbị dịch chuyển từ cực này sang cực khác (ví dụ từ positive sang negative hoặc ngược lại) hoặc ít độ mạnh hơn (Ví dụ: valance ban đầu là +2; sau đó valence thay đổi thành +1) hoặc chỉnh sửa hóa trị hướng về trung lập (ví dụ: valence ban đầu là +1; sau đó valence thay đổi thành 0)

CVS phân loại cảm xúc ở mứccâu chocác trường hợp sau:

o Từ phủ định và nhấn mạnh (intensifier)

o Những mục phỏng đoán (Presuppositional items)

o Sự mỉa mai, châm biếm (Irony)

Phủ định và nhấn mạnh

Trang 20

Phủ định chỉ áp dụng các phân cực rõ ràng, có nghĩa làpositive hoặc negative Nếu hoá trị là neutral (bằng 0) thì phủ định cũng là neutral (hoá trị bằng 0)

Ví dụ 1: câu “John is home” được diễn đạt cho một sự kiện đơn giản nhưng không tiết

lộ cảm xúc (có nghĩa là điểm cảm xúc là 0) Khi phủ định, câu trên sẽ là “John is

not home”, không có dịch chuyển cảm xúc (sự phủ định của 0 là 0)

Các từ được sử dụng để phủ định là: not, never, none, no body, nowhere, nothing,

neither…

Ví dụ 2:

Ví dụ 3 cho thấy, sự kết hợp của một phân loại cảm xúc là positive với một phủ định

sẽ cho một phân loại cảm xúc là negative Ngược lại, sự kết hợp của một phân loại cảm xúc là negative với một phủ định sẽ cho một phân loại cảm xúc là positive

Nhấn mạnh (Intensifier) là một chức năng dùng để tính toán hoá trị của một cụm từ

theo đúng ngữ cảnh, có thể làm cho hoá trị tăng lên hoặc có thể làm cho hóa trị giảm xuống Trường hợp này được minh hoạ ở ví dụ 4

Trang 21

Ví dụ 4:

 Từ “rather” trong “rather efficient”, trong đó“rather” làm giảm

độ mạnh của một từ hoặc cụm từ Từ “efficient” có hóa trị là +2

=> “rather efficient” có hóa trị là +1

 Từ “deeply” trong “deeply suspicious”, trong đó “deeply” làm tăng độ mạnh của một từ hoặc cụm từ Từ “suspicious”có hóa trị

là -2 => “deeply suspicious” có hóa trị là -3

Các động từ tình thái (modal)

Các sự kiện realiselà các sự kiện hoặc các tình huống được khẳng định phải xảy ra,

chắc chắn xảy ra

Các sự kiện irrealise là các sự kiện hoặc các tình huống đã xảy ra hoặc sẽ xảy ra Ví

dụ, các động từ tình tháinhư là might, could, should, ought to hoặcpossibly

Các toán tử tình thái (Modal operators)thiết lập một ngữ cảnh của sự việc có thể hoặc

sự việc cần thiết và trong các văn bản khởi tạo một ngữ cảnh mà trong đó các thuật ngữ được tính hóa trị diễn đạt một cảm xúc hướng về các thực thể mà không phản chiếu một cách cần thiết cảm xúc của người viết về các thực thể kia trong một tình huống thật sự

Trong việc tính toán phân loại cảm xúc của người viết, các thuật ngữ trong một ngữ cảnh tình thái không nên được xử lý một cách chính xác như các thuật ngữ trong một

ngữ cảnh realis

Ví dụ 5, các câu realis như: “Mary is a terrible person She is mean to her dogs”

negative

o Tuy nhiên, câu “if Mary were a terrible person, she would be mean to her

dogs” xác nhận rằng không phải “Marry is a terrible person” hoặc không

Trang 22

phải “She is mean to her dogs.” Các toàn tử tình thái có hóa trị trung lập của “terrible” và “mean”, cho kết quả trong một giá trị được tính lại là 0

Những mục phỏng đoán(Presuppositional items)

Các từ làm thay đổi hóa trị của các thuật ngữ được phỏng đoán thông qua các giả định

trước của chúng Đây làmẫu cho các trạng từ (adverb), như “barely” được thực hiện bằng cách so sánh câu “It is sufficient” với câu “It is barely sufficient”, với “sufficient”

có hóa trị là negative

Ví dụcụm từ “failure to succeed”, độ mạnh của failure chuyển hóa trị của succeed

từ positive thành negative

- Các động từđược sử dụng cho phần này nhưfail, omit, neglect…

Sự mỉa mai, châm biếm (Irony)

Thỉnh thoảng các phân loại cảm xúc được thực hiện bởi các mục từ vựng trong nhiều cách mà không thểgiải thích được nguyên nhân gây ra trong trường hợpđãmô tả ở trên

Ví dụ trong câu châm biếm “The very brilliant organizer failed to solve the problem”, với “brilliant” có hóa trị là +2 , “very brilliant” có hóa trị là +3, “failed” làm thay đổi hóa trị của “very brilliant” thành -3, mặc dù “failed” có hóa trị là -1, “solve the

problem” có hóa trị là +1 Hoá trị của câu trên là -4

b) Phương phápCVS phân loại cảm xúc ở mức văn bản

CVS phân loại cảm xúc ở mức văn bản, xử lý các trường hợp: các từ kết nối (Connectors), cấu trúc văn bản viết, sự ước đoán nhiều thực thể, thể loại, bài phát biểu được báo cáo lại (Reported Speech), các chủ đề con, các ràng buộc thể loại, các ràng buộc văn hóa

Các từ kết nối (Connectors)

Các từ kết nối là các từ: although; however; but; on the contrary; not with standing… Cấu trúc Adj1 but Adj2(adjective 1 but adjective 2)có thể được sử dụng để quyết định hóa trị của một tính từ (adjective) nếu hóa trị của một từ khác được biết

Trang 23

Ví dụ câu “Although Boris is brilliant at math, he is a horrible teacher”

o “brilliant” có hóa trị là +2

o “horrible” có hóa trị là -2

brilliant…” có hóa trị là 0

o Hoá trị của câu là: -2

Cấu trúc văn bản viết

Điều chỉnh hóa trị ở mức văn bản liên quan đến chính cấu trúc văn bản

Có hai quan hệ cơ bản của văn bản: danh sách (lists), sự soạn thảo tỉ mỉ (elaborations) Một số thành phần của văn bản có liên quan đến các thành phần khác trong danh sách, mỗi thành phần mã hóa một quan hệ tương ứng cho các khái niệm chung và cho các thành phần khác mà cung cấp nhiều thông tin chi tiết hơn của một đoạn trong văn bản,

có thứ tự trước chúng trong tổ chức tuyến tính của văn bản

Các thành phần có cấu trúc trước đó chi phối việc soạn thảo tỉ mỉ các thành phần tiếp theo

Trong một sự soạn thảo tỉ mỉ (elaboration), một thành phần cung cấp nhiều chi tiết hơn

về một thành phần mà ở liền kề nhau

Tuesdays Wednesdays he walked another 25 miles Every weekend he hikes at least 50 miles a day”

o Mỗi thành phần bị chi phối được tính hóa trị là neutral

o Trong nội dung ví dụ trên, mỗi thành phần là một ví dụ của “terrific” của John Do đó, “terrific” có hóa trị là positive, được thừa kế từ mỗi thành

phần theo

Trang 24

o Độ mạnh cho một đối tượng của thuật ngữa terrific được đánh hóa trị là

positive tuyệt đối khi áp dụng cho John, được tăng cường khi câu được xử

lý trong ngữ cảnh văn bản của nó hơn là khi một sự diễn đạt độc lập

Sự ước đoán nhiều thực thể

Tác giả Livia Polanyie và Annie Zaenen [7] đã tìm kiếm các ảnh hưởng mà ngữ cảnh

có thể có trên sự ước đoán của một thực thể đơn Nhưng trong hầu hết các tài liệu phức tạp, khó có thể thực hiện sự ước đoán của nhiều thực thể trong tài liệu đó – vài thực thể trong số đó có thể được phân loại positive và những thực thể khác có thể được phân loại negative

Thể loại

Sự xác định cảm xúc của người viết có thể có liên quan một cách phức tạp đến thể loại trao đổi thông tin trong việc các thuật ngữ được xác định hóa trị (valence)

Bài phát biểu được báo cáo lại (Reported Speech)

Ví dụ 6:

Câu “Mary was a slob”có hóa trị là -1, bởi vì “slob” là một thuật ngữ được xác

định hóa trị là negative tuyệt đối

Câu “John said that Mary was a slob”,trong trường hợp này người viết xác nhận

rằng John đã nói vài điều không tốt về Mary, chứ không phải người viết chấp nhận sự xác định của John

Câu “John said that Mary was a slob and he is right”có phân cực cảm xúc là negative được xác định cho “slob” sẽ được đếm cùng với phân cực cảm xúc là positive của “right”

remembers those miserable - rotten - nights.”, chúng ta thấy:

o cả hai từ “argue” và “remembers” là dạng Reported Speech và các hoạt

động suy nghĩ (thought operators);

Trang 25

o vì vậy hóa trị của văn bản đó không được gán cho người viết Nhưng hóa trị của văn bản được gán cho sự hài lòng của người tiêu dùng (utilities) và công chúng (public) một cách theo thứ tự Văn bản này không phảineutral;

có hóa trị là positive trong quan hệ cho sự hài lòng của người tiêu dùng và

có hóa trị là negative trong quan hệ cho công chúng Người viết cần một

cách tính cho “utilities” và một cách tính cho “public”;

việc sử dụng “but”, người viết lựa chọn để cung cấp nhiều độ mạnh cho quan điểm thứ hai (“public”), cũng là quan điểm chính trong câu

Các chủ đề con

Thỉnh thoảng một văn bản dài có thể phân tích thành các chủ đề con Quan điểm của người viết có thể được xác định có liên quan đến mỗi chủ đề con Tuy nhiên, trong hầu hết các trường hợp, vấn đề này không dễ để thực hiện

Các ràng buộc thể loại

Tác giả Livia Polanyie và Annie Zaenencho rằng có thể khai thác các ràng buộc thể loại trong việc quyết định cảm xúc của các người viết hướng về các thực thể được tạo trong các tài liệu Tuy nhiên, tác giả Tác giả Livia Polanyie và Annie Zaenen chưa thực hiện được

Các ràng buộc văn hóa

Tác giả Livia Polanyie và Annie Zaenen không có phương pháp tính toán để tính sự ảnh hưởng này, nhưng tác giả Livia Polanyie và Annie Zaenen tin rằng nó đóng góp cho sự phân loại cảm xúc

2.1.2 Công trình nghiên cứucủa A Kennedy và D Inkpen năm 2006

Tác giả của A Kennedy và D Inkpensử dụng 02 phương pháp cho việc quyết định tình cảm được diễn đạt bởi một bài nhận xét về phim Tác giả của A Kennedy và D Inkpen kiểm tra ảnh hưởng của các CVS trên việc phân loại các bài nhận xét Tác giả của A Kennedy và D Inkpen kiểm tra 03 loại CVS: negations – phủ định; intensifiers – tăng cường và diminishers – giảm nhẹ

Trang 26

Negations được sử dụng để đảo polarity của tình cảm của một thuật ngữ đặc biệt Intensifiers và diminishers được sử dụng để tăng và giảm bậc cho một thuật ngữa là positive và negative

Phương pháp thứ nhất là phương pháp đếm thuật ngữ,phân loại các bài nhận xét được dựa trên số các thuật ngữ cĩ positive và negative mà bài viết đĩ chứa dựng

Tác giả của A Kennedy và D Inkpen sử dụng GI [2] để xác định các thuật ngữ là positive và negative, cũng như các thuật ngữ negation, intensifier và diminisher

Tác giả của A Kennedy và D Inkpen sử dụng một tập dữ liệu các bài nhận xét về phim ở [1]

Tác giả của A Kennedy và D Inkpen cho thấy rằng việc mở rộng phương pháp đếm thuật ngữ với CVS đã cải thiện độ chính xác của phân loại

Phương pháp thứ 2 sử dụng một giải thuật Machine Learning là giải thuật SVM Tác giả bắt đầu với các feature là unigram và sau đĩ thêm vào bigram mà bao gồm một valence shifters (bộ dịch chuyển hĩa trị) và từ khác Các feature đĩng gĩp cho sự chính xác cao là các từ trong các danh sách của các thuật ngữ là positive và negative Tác giả của A Kennedy và D Inkpen cho thấy rằng việc kết hợp 02 phương pháp đạt được các kết quả tốt hơn

2.1.3 Cơng trình nghiên cứucủa Vivek Narayanan, Ishan Arora và Arjun Bhatia năm 2013

Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã nghiên cứu nhiều phương pháp khác nhau cho việc cải tiến độ chính xác của phương pháp Nạve Bayes cho phân loại cảm xúc

Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã cho thấy rằng một sự kết hợp các phương pháp, gồm xử lý phủ định, n-gram và feature selection bằng mutual information cho kết quả cĩ độ chính xác cao hơn

Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã đạt được độ chính xác 88.8% trên tập dữ liệu các bài nhận xét phim [1]

Trang 27

▪Phương pháp Nạve Bayes

Nạve Bayes là một mơ hình xác suất đơn giản được dựa trên luật Bayes Mơ hình Nạve Bayes liên quan đến một giả định độc lập cĩ điều kiện đơn giản hĩa Cho trước một lớp (lớp positive hoặc lớp negative), các từ là độc lập cĩ điều kiện với nhau Giả định này khơng ảnh hưởng đến độ chính xác trong sự phân loại văn bản nhưng được

áp dụng nhanh chĩng cho các giải thuật phân loại cảm xúc.Trong trường hợp này, xác suất khả năng tối đa (maximum likelihooad probability) của một từ thuộc về một lớp

cụ thể được diễn đạt bằng cơng thức sau

Số đếm tần số của các từ được lưu trữ trong các bảng băm (hash table) trong suốt giai đoạn huấn luyện Theo luật Bayes, xác suất một tài liệu cụ thể thuộc về một lớp Ci được xác định như sau

Nếu sử dụng các giả định độc lập cĩ điều kiện đơn giản hĩa, cho trước một lớp (lớp positive hoặc lớp negative) thì các từ độc lập cĩ điều kiện với nhau Do các giả định đơn giản hĩa này, mơ hình này được gọi là “nạve”

Ở đây, xi, d là các từ của tài liệu

Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia cũng loại bỏ các từ trùng lắp (lặp lại trên 02 lần) từ tài liệu, các từ trùng lắp khơng làm tăng thêm thơng tin, kiểu giải thuật Nạve Bayes này được gọi là Bernoulli Naive Bayes

▪Laplacian Smoothing

Nếu classifier bắt gặp một từ mà khơng được tìm thấy trong tập huấn luyện, xác suất của cả2 lớp sẽ trở thành 0 và sẽ khơng thể so sánh được Vấn đề này được giải quyết bởi Laplacian smoothing

Trang 28

Thông thường, k được chọn là 1 (k=1) Bằng cách này, có xác suất bằng nhau cho các

từ mới là một trong hai lớp

▪Xử lý phủ định

Một vấn đề khác phải đối mặt trong nhiệm vụ phân loại tình cảm là việc xử lý các phủ định Bởi vì Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia sử dụng mỗi từ như là một feature, từ “good” trong cụm từ “not good” sẽđóng góp vào phân loại tình cảm là positive hơn làđóng góp vào phân loại tình cảm là negative được xem như có mặt từ “not” Để giải quyết vấn đề này, Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia đã sử dụng một giải thuật đơn giản để xử lý các phủ định

2.1: Giải thuật xử lý phủ định[9]

Giải thuật sử dụng một biến trạng thái để lưu trữ trạng thái phủ định; biến đổi một từ ở dạng “not” hoặc “n‟t” thành dạng “not_” + từ Bất cứ khi nào các trạng thái phủ định được thiết lập, từ được đọc được xử lý như là: “not_”+ từ Biến trạng thái được khởi tạo lại khi gặp một dấu chấm câu hoặc khi có phủ định đôi

Bởi vì các dạng phủ định có thể không đầy đủ cho phân loại chính xác Có thể nhiều từ mang tình cảm mạnh mẽ xảy ra chỉ ở các dạng thông thường trong tập huấn luyện Nhưng các dạng phủ định của chúng sẽ được phân cực mạnh mẽ

Trang 29

Tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia giải quyết vấn đề này bằng cách thêm các dạng phủ định cho lớp đối nghịch cùng với các dạng thông thường của tất cả các feature trong suốt giai đoạn huấn luyện.Nghĩa là nếu bắt gặp từ “good” trong một tài liệu là positive trong suốt giai đoạn huấn luyện, tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia sẽ tăng số của “good” trong lớp positive và cũng tăng số

số của “not good” trong lớp negative Điều này đảm bảo rằng số lượng các dạng

“not_” đủ để phân loại Vấn đề này đã cải thiện độ chính xác của phân loại khoảng 1%

“definitely recommened” làm tăng xác suất của một tài liệu được xác định là negative hoặc positvie Bao gồm các bigram và trigram, tác giả Vivek Narayanan, Ishan Arora

và Arjun Bhatia có thể lấy được thông tin về các adjective và các adverb.Sử dụng các bigram và các trigramyêu cầu một lượng lớn dữ liệu trong tập huẩn luyện, nhưng đây không phải là vần đề khi tập dữ liệu huấn luyện của tác giả Vivek Narayanan, Ishan Arora và Arjun Bhatia có 25 000 bài nhận xét Nhưng dữ liệu không chứa đủ khi thêm các 4-gram (bao gồm 04 từ liên tiếp nhau), có thể không phù hợp với tập huấn luyện

▪Feature Selection

Feature selection là quá trình của việc loại bỏ các feature (nét) dư thừa và các feature nhiễu, trong khi vẫn giữ lại các feature mà có nhiều khả năng tạo thành nghĩa cao hơn

Mutual information

- Mutual information là một định lượng mà đo lường sự phụ thuộc lẫn nhau của

02 biến ngẫu nhiên

Trang 30

- Mutual information của 02 biến ngẫu nhiên hữu hạn X và Y có thể được định nghĩa như sau:

Với:

o p(x, y) là hàm phân bố xác suấtchungcủa X và Y

o p (X)là các hàmphân bố xác suấtbiên củaX

o p(Y)là các hàmphân bố xác suấtbiên củaY

o Xlà mộ feature độc lậpcó thể lấyhaigiá trị, feature này làhiện diện (present)hoặc vắng mặt (absent)và Ylà lớp , bao gồm có postive hoặc negative Tác giả lựa chọncác feature có số lượngkđầu vào mutual information lớn nhất Bằng cách vẽmột đồ thịgiữa độ chính xácvà số lượngcác feature, giá trị tối ưu chokđược phát hiệnra là32.000

2.2: Độ chính xác so với số các feature 2.2 Phương pháp đề xuất

Như đã trình bày ở các phần trên, đề tài cần phải xây dựng và đánh giá một phương pháp tổng hợp có sử dụng CVS để phân loại cảm xúc cho các bài nhận xét về phim [1] đạt được độ chính xác cao hơn [8] và[9] Phương pháp tổng hợp đó là phương pháp kết

Trang 31

hợp phương pháp đếm thuật ngữ với CVS và phương pháp NB với CVS Mỗi phương pháp phân loại cảm xúc đều có ưu điểm và nhược điểm.Việc kết hợp các phương pháp

sẽ tận dụng tất cả các ưu điểm của mỗi phương pháp và hạn chế thấp nhất các nhược điểm của mỗi phương pháp bằng cách lấy ưu điểm của phương pháp này để khắc phục

và hạn chế các nhược điểm của phương pháp kia Ví dụ trong các mẫu mà phương pháp NB không phân loại được thì phương pháp đếm thuật ngữ với CVS có thể phân loại được một phần trong số các mẫu đó

[9] sử dụng thông tin tương hỗ (mutual information) để loại các nét (feature) nhiễu và các nét dư thừa nhằm làm giảm tập các nét được sử dụng huấn luyện để tăng độ chính

N-GRAM nhằm để loại các nét nhiễu và các nét dư thừa Do đó, tác giả sẽ áp dụng chi

square để loại các nét nhiễu và các nét dư thừa trong quá trình thực hiện phương

pháp tổng hợp trên

[9] sử dụng phương pháp Làm Mịn Laplacian (Laplacian smoothing) dùng để làm mịn

các nét, loại bỏ vấn đề phân bố thưa khi sử dụng GRAM Khi sử dụng mô hình gram, sự phân bố không đều trong tập văn bản huấn luyện có thể dẫn đến các ước lượng không chính xác Khi các N-gram phân bố thưa, nhiều cụm n-gram không xuất hiện hoặc chỉ có số lần xuất hiện nhỏ, việc ước lượng các câu có chứa các cụm n-gram này sẽ có kết quả tồi Với V là kích thước bộ từ vựng, sẽ có Vn cụm N-gram có thể sinh từ bộ từ vựng Tuy nhiên, thực tế thì số cụm N-gram có nghĩa và thường gặp chỉ

N-chiếm rất ít.[16] cho thấy rằng việc sử dụng Good-Turing Discounting để làm mịn các nét sẽ hiệu quả hơn nhiều so với Laplacian smoothing Do đó, tác giả sẽ áp dụng

Good-Turing Discounting để làm mịn các nét trong quá trình thực hiện phương pháp

Trang 32

o Tạo các nét bằng N-GRAM (gọi là tập F1)

o Tạo ra các nét dựa vào Contextual Valence Shifters (gọi là tập F2)

o Xử lý phủ định

o Làm mịn các nét

o Loại bỏ các nét bị thừa và các nét nhiễu

o Thực hiện phương pháp Nạve Bayes với Contextual Valence Shifters

o Thực hiện kết hợp phương pháp Navie Bayes -Contextual ValenceShifters với phương pháp đếm thuật ngữ - Contextual Valence Shifters

Trang 33

3.1: Mô hình phân loại cảm xúc được đề xuất

- Phương pháp TC-CVS là phương pháp phân loại cảm xúc bằng kết hợp bao gồm phương pháp đếm thuật ngữ với phương pháp Contextual Valence Shifters

- F1: phương pháp phân loại cảm xúc bằng kết hợp mô hình Naive bayes với N-Gram,

xử lý phủ định, xử lý nhiễu Chi-Square và làm mịn Good-Turing Discounting

- F2: phương pháp phân loại cảm xúc bằng phương pháp Contextual Valence Shifters

để tạo các nét cho mô hình Naive Bayes

-F1+F2: phương pháp phân loại cảm xúc bằng kết hợp bao gồm mô hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting và Contextual Valence Shifters

b) Phương pháp TC-CVS

- Thực hiện tổng hợp 5 bộ từ điển [2,3,4,5,6]

- Thực hiện phương pháp TC-CVS ở mức độ câu

- Thực hiện phương pháp TC-CVS ở mức văn bản

Trang 34

c) Giải thuật phân loại cảm xúc bằng kết hợp mô hình Naive Bayes với Gram, xử lý phủ định, xử lý nhiễu Chi-Square, và làm mịn Good-Turing Discounting (F1)

N-Giải thuật F1 dược trình bày ở giải thuật 3.1

d) Giải thuật phân loại cảm xúc bằng phương pháp Contextual

ValenceShifters để tạo các nét cho mô hình Naive Bayes (F2)

Giải thuật F2 dược trình bày ở giải thuật 3.2

Giải thuật 3.2: Phân loại cảm xúc F2

Giải thuật 3.1: Phân loại cảm xúc F1

Nhập: tập dữ liệu huấn luyện Train-Data;

Xuất: tập kết quả phân loại cảm xúc Result;

Trang 35

e) Giải thuật phân loại cảm xúc bằng mô hình Naive Bayes với N-Gram, xử lý phủ định, xử lý nhiễu Chi-Square, làm mịn Good-Turing Discounting, và Contextual Valence Shiters (F1+F2)

Giải thuật F1+F2 dƣợc trình bày ở giải thuật 3.3

Giải thuật 3.3: Phân loại cảm xúc F1+F2

Nhập: tập dữ liệu huấn luyện Train-Data; bộ từ điển mới

Xuất: tập kết quả phân loại cảm xúc Result;

Trang 36

3.2 Xây dựng cơ sở dữ liệu

Tác giả đã xây dựng các bảng cơ sở dữ liệu của cơ sở dữ liệuCVS_DATASET trong

hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2008 R2

Tác giả xây dựng bảng dữ liệu Reviews_train trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ 25000 bài nhận xét của tập huấn luyện ở [1], với các thuộc tính như sau:

-Lưu trữ nội dung của một bài nhận xét trong

25000 bài nhận xét của tập huấn luyện ở [1]

cực cảm xúc

-Lưu phân cực cảm xúc mặc định của bài nhận xét có nội dung ở thuộc tính CONTENT

Tác giả xây dựng bảng dữ liệu Reviews_test trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ 25000 bài nhận xét của tập kiểm tra ở [1], với các thuộc tính như sau:

3.2: Bảng dữ liệu Reviews_test

Trang 37

xét của tập kiểm tra ở [1]

cảm xúc

Tác giả xây dựng bảng dữ liệu Reviews_train_NOT trong cơ sở dữ liệu SQL SERVER

2008, được dùng để lưu trữ 25000 bài nhận xét của tập huấn luyện ở [1] mà nội dung của bài nhận xét được xử lý phủ định theo mục 6.2 của Chương 6, với các thuộc tính như sau:

3.3: Bảng dữ liệu Reviews_train_NOT

cảm xúc

Tác giả xây dựng bảng dữ liệu Reviews_test_NOT trong cơ sở dữ liệu SQL SERVER

2008, được dùng để lưu trữ 25000 bài nhận xét của tập kiểm tra ở [1] mà nội dung của bài nhận xét được xử lý phủ định theo mục 6.2 của Chương 6, với các thuộc tính như sau:

3.4: Bảng dữ liệu Reviews_test_NOT

Trang 38

tính

bài nhận xét

-Lưu trữ nội dung của một bài nhận xét trong 25000 bài nhận xét của tập kiểm tra ở [1]

cảm xúc

Tác giả xây dựng bảng dữ liệu Dictionary trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ bộ từ điển mới được tổng hợp từ năm bộ từ điển [2,3,4,5,6], với các thuộc tính như sau:

cực cảm xúc

-Nếu Polarity = 0 thì trung lập (neutral)

-Nếu Polarity = 1 thì dương (positive) -Nếu Polarity = 2 thì từ là nhấn mạnh (intensifier)

-Nếu Polarity = -1 thì âm (negative) -Nếu Polarity = -2 thì giảm nhẹ (diminishers)

Trang 39

Valence int Hóa trị -Nếu Polarity = 0 thì Valence = 0

-Nếu Polarity = 1 thì:

+ nếu là dương mạnh thì Valence = 2

+ nếu là dương nhẹ thì Valence

= 1 -Nếu Polarity = 2 thì Valence = % của

độ nhấn mạnh (ví dụ 20, 50, 100) -Nếu Polarity = -1 thì:

+ nếu là âm mạnh thì Valence = -2

+ nếu là âm nhẹ thì Valence =

-1 -Nếu Polarity = -2 thì Valence = - % của độ nhấn mạnh (ví dụ -20, -50, -100)

Trang 40

“pharse”

-Nếu là nhấn mạnh (intensifier) thì PartOfSpeech = “intensifier”

-Nếu là giảm nhẹ thì PartOfSpeech =

có dạng tính từ thì PartOfSpeech =

“noun_verb_adjective”

Tác giả xây dựng bảng dữ liệu CVS_COUNTING_train trong cơ sở dữ liệu SQL SERVER 2008, được dùng để lưu trữ kết quả phân loại cảm xúc của 25000 bài nhận xét của tập huấn luyện bằng phương pháp đếm thuật ngữ với phương pháp Contxtual Valence Shifters của Chương 5, với các thuộc tính như sau:

Định dạng
Số trang	84
Dung lượng	1,21 MB