1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích ý kiến về sản phẩm của doanh nghiệp qua thông tin trên internet

88 85 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 1,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

 Thực hiện phân tích trọng số cảm xúc dựa trên bộ từ điển cảm xúc tiếng Việt... Để giải quyết yêu cầu đặt ra, chúng tôi đã thừa kế và phát triển công cụ lấy dữ liệu tự động trên Interne

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM

-

LÊ HỒ NGẠN

PHÂN TÍCH Ý KIẾN VỀ SẢN PHẨM CỦA

DOANH NGHIỆP QUA THÔNG TIN TRÊN INTERNET

(**Từ khóa: Opinion Analysics, Sentiment Analysis, sentiment analysis social network, Phân tích cảm xúc mạng xã hội, Sentiment Classification)

Trang 2

Cán bộ hướng dẫn khoa học : PGS.TS ĐỖ PHÚC

(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP HCM ngày 31 tháng 03 năm 2017

Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

I- Tên đề tài:

PHÂN TÍCH Ý KIẾN VỀ SẢN PHẨM CỦA DOANH NGHIỆP

QUA THÔNG TIN TRÊN INTERNET

II- Nhiệm vụ và nội dung:

Đề tài luận văn bao gồm 3 nhiệm vụ chính với các nội dung như sau:

Xây dựng công cụ lấy dữ liệu từ Internet theo các từ khóa tìm kiếm tiếng Việt

Làm sạch dữ liệu, xây dựng mô hình phân lớp dữ liệu dựa trên cảm xúc tập bình luận của độc giả

Thực hiện phân tích trọng số cảm xúc dựa trên bộ từ điển cảm xúc tiếng Việt

III- Ngày giao nhiệm vụ: 10/11/2016

IV- Ngày hoàn thành nhiệm vụ: 31/03/2017

V- Cán bộ hướng dẫn: PGS.TS ĐỖ PHÚC

CÁN BỘ HƯỚNG DẪN KHOA QUẢN LÝ CHUYÊN NGÀNH

(Họ tên và chữ ký) (Họ tên và chữ ký)

PGS.TS ĐỖ PHÚC

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này

đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được chỉ rõ nguồn gốc

Học viên thực hiện luận văn

(Ký và ghi rõ họ tên)

LÊ HỒ NGẠN

Trang 5

LỜI CÁM ƠN

Đầu tiên cho tôi xin phép được gửi lời cám ơn vô cùng sâu sắc đến với PGS.TS

Đỗ Phúc, người thầy đã trước tiếp hướng dẫn, chỉ bảo cũng như tạo mọi điều kiện tốt nhất cho tôi trong suốt quá trình thực hiện luận văn này

Ngoài ra tôi cũng xin được gửi lời cám ơn chân thành đến PGS.TS Võ Đình Bảy cùng toàn thể đội ngũ cán bộ, thầy cô đang công tác tại ĐH Công Nghệ TP HCM, những người đã trực tiếp giảng dạy, các bạn đồng học trong lớp 15SCT11 đã hỗ trợ tôi trong quá trình học tập và thực hiện các nghiên cứu tại trường

Cuối cùng tôi cũng xin được gửi lời cám ơn đến gia đình và người thân đã có những ủng hộ về mặt tinh thần cũng như giúp đỡ đáng kể cho tôi trong quá trình nghiên cứu và hoàn thành luận văn này

LÊ HỒ NGẠN

Trang 6

TÓM TẮT

Trong thực tế hiện nay cùng với sự phát triển mạnh mẽ của Internet, việc quảng bá sản phẩm, thương hiệu doanh nghiệp và sự lan truyền thông tin trên báo điện tử, mạng xã hội, website…vô cùng nhanh chóng Đó là một kênh tiếp thị của doanh nghiệp đến với các khách hàng mang tính hiệu quả cao và tiết kiệm chi phí

Ngoài những mạng xã hội nổi tiếng như Facebook, Instagram, Twitter,…tại Việt Nam một số báo điện tử uy tín như VnExpress, Thanh niên, Tuổi trẻ, Dân trí, các trang website bán hàng trực tuyến thu hút lượng người xem rất lớn Vì vậy, sản phẩm và thương hiệu của các doanh nghiệp sẽ được người dùng biết đến qua các kênh này ngày một nhiều hơn so với các cách quảng bá và tiếp thị theo truyền thống Do đó, câu hỏi đặt ra là làm thế nào có thể xử lý lượng thông tin phản hồi rất lớn từ các bình luận của độc giả diễn ra hàng phút, hàng giây Đây là bài toán liên quan về cảm xúc Yêu cầu

cụ thể cần giải quyết 3 vấn đề chính như sau:

 Xây dựng công cụ lấy dữ liệu từ Internet theo các từ khóa tìm kiếm tiếng Việt

 Làm sạch dữ liệu, xây dựng mô hình phân lớp dữ liệu dựa trên cảm xúc tập bình luận của độc giả

 Thực hiện phân tích trọng số cảm xúc dựa trên bộ từ điển cảm xúc tiếng Việt

Để giải quyết yêu cầu đặt ra, chúng tôi đã thừa kế và phát triển công cụ lấy dữ liệu tự động trên Internet (crawler), thông dịch bộ từ điển cảm xúc tiếng Anh (SO-CAL) sang tiếng Việt, sử dụng mô hình SVM để phân lớp cảm xúc và một số các giải thuật để phân tích cảm xúc đạt hiệu suất chính xác một cách tối ưu

Luận văn bao gồm 5 chương, trong đó chúng tôi sẽ trình bày các ý tưởng, cơ sở lý thuyết, phương pháp thực hiện, mô hình thực nghiệm để đánh giá và kết luận về kết quả đã đạt được cũng như hướng phát triển trong tương lai

Trang 7

ABSTRACT

In current time, the fast development of the Internet as well as the increases in the product’s promotions, marketing… from famous brands had been expanded on electronic newspapers, social-network, websites much more faster There is no doubt that these are the information channels of the business which can help them to connect to the potential customers with high efficiency and cost savings

Beside the popular social networks such as Facebook, Instagram, Twitter, in Vietnam some prestigious newspapers such as VnExpress, TuoiTre, Dan Tre… go along with online e-commercial websites which attracted a lot of clients to access Therefore, the marketing products had been more and more be known by users through these channels than previous traditional advertising ways In fact, the question

is how we can handle the huge amount of feedback from the reader's comments There are three main issues:

 Building tools to gather data from the Internet (web’s crawler) based on the Vietnamese search keywords

 Cleaning, structuring the crawled data and classifying the data to identify the subjective and objective comments

 Performing the sentimental analysis based on custom build-up emotional Vietnamese dictionaries

To come up with the solutions, by inheriting from previous works as well as developing the custom crawler’s tools In order to build the dictionary, we translate the English-based social emotional dictionary (SO-CAL) into Vietnamese For classifying problem, we use the SVM algorithm and some related algorithms

self-There are five chapters in this thesis, in which we will present ideas, theoretical basis, methodology, experimental models for evaluating the achieved results as well as next developmental directions for the future

Trang 8

DANH MỤC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH

CHƯƠNG 1 GIỚI THIỆU VÀ TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU 1

1.1 Lý do và động lực thực hiện đề tài 1

1.2 Mục đích và phạm vi nghiên cứu của đề tài 2

1.3 Các công trình nghiên cứu liên quan 2

1.4 Các điểm mới và đóng góp trong luận văn 4

1.5 Tính khả thi của đề tài 5

1.6 Thống kê và nhu cầu sử dụng Internet tại Việt Nam 6

1.7 Mô hình hệ thống 7

1.8 Các phương pháp luận và phương pháp nghiên cứu được áp dụng 8

1.9 Kết luận chương 9

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 10

2.1 Đặc trưng về dữ liệu từ các trang tin tức và mạng xã hội tiếng Việt 10

2.2 Phân loại cảm xúc là gì? 12

2.3 Bộ từ điển cảm xúc SO-CAL tiếng Việt 14

2.3.1 Bộ từ điển cảm xúc SO-CAL tiếng Anh 14

2.3.2 Bộ từ điển SO-CAL tiếng Việt 17

2.4 Phương pháp phân loại chủ quan 21

2.4.1 Câu có từ hàm chứa cảm xúc 21

2.4.2 Các trường hợp khác 22

2.5 Phương pháp phân loại cảm xúc 23

2.5.1 Giá trị cảm xúc của câu phụ thuộc vào từ hàm chứa cảm xúc 23

2.5.2 Giá trị cảm xúc của câu phụ thuộc vào từ tăng cường 24

2.5.3 Giá trị cảm xúc của câu phụ thuộc vào từ phủ định 25

2.5.4 Giá trị cảm xúc của câu phụ thuộc vào từ khiếm khuyết 26

2.5.5 Giá trị cảm xúc của câu có xu hướng tích cực 26

2.6 Phương pháp phân lớp Support Vector Machine 27

2.6.1 Giới thiệu 27

2.6.2 Các bước chính của phương pháp SVM 28

2.6.3 Bài toán phân hai lớp với SVM 29

2.6.4 Bài toán phân nhiều lớp SVM 30

Trang 9

2.7 Phân tích cảm xúc dựa vào bình luận 31

2.8 Phương pháp tách từ, gán nhãn từ loại 31

2.9 Kết luận chương 32

CHƯƠNG 3 CÁC BƯỚC XÂY DỰNG NỀN TẢNG HỆ THỐNG VÀ CÀI ĐẶT 33

3.1 Xây dựng mô hình 33

3.2 Thu thập dữ liệu 34

3.2.1 Cách thức thực hiện 36

3.2.2 Chi tiết thực hiện lấy dữ liệu 39

3.3 Tiền xử lý, định dạng dữ liệu có cấu trúc 40

3.4 Dữ liệu huấn luyện 43

3.4.1 Mô hình phân lớp SVM 44

3.4.2 Kỹ thuật phân lớp SVM 45

3.4.3 Phân loại chủ quan 46

3.4.4 Phân loại cảm xúc 47

3.5 Kết luận chương 52

CHƯƠNG 4 THỰC NGHIỆM VÀ CÁC KẾT QUẢ ĐÁNH GIÁ 53

4.1 Bộ dữ liệu thực nghiệm 53

4.2 Bộ dữ liệu huấn luyện 53

4.3 Bộ từ điển cảm xúc 54

4.4 Phương pháp thử nghiệm 55

4.4.1 Mô hình phân lớp SVM trên tập dữ liệu huấn luyện 55

4.4.2 Phương pháp phân tích cảm xúc trên một số lĩnh vực 62

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 64

TÀI LIỆU THAM KHẢO 66

PHỤ LỤC 68

Trang 10

DANH MỤC TỪ VIẾT TẮT

CNTT Information Technology(IT) Công nghệ thông tin

Pos(s) Positive Score Điểm tích cực

Neg(s) Negative Score Điểm tiêu cực

HTTP HyperText Transfer Protocol Giao thức truyền tải siêu văn bản

Trang 11

DANH MỤC CÁC BẢNG

Bảng 2.1: Một số từ tăng cường 15

Bảng 2.2: Bảng so sánh hiệu suất của các bộ từ điển khác nhau với từ điển SO-CAL 17 Bảng 2.3: Một số từ trong bộ từ điển danh từ 19

Bảng 2.4: Một số từ trong bộ từ điển động từ 19

Bảng 2.5: Một số từ trong bộ từ điển tính từ 20

Bảng 2.6: Một số từ trong bộ từ điển trạng từ 20

Bảng 2.7: Một số từ trong bộ từ điển từ tăng cường 21

Bảng 3.1: Dữ liệu thu thập liên quan từ khóa 38

Bảng 3.2: Vị trí và trọng số của các từ trong câu tích cực 50

Bảng 3.3: Vị trí và trọng số của các từ trong câu tiêu cực 51

Bảng 3.4: Vị trí và trọng số các từ trong câu không cảm xúc 51

Bảng 4.1: Bộ dữ liệu thử nghiệm 53

Bảng 4.2: Dữ liệu huấn luyện 54

Bảng 4.3: Số lượng từ loại trong bộ từ điển SO-CAL tiếng Việt 55

Bảng 4.4: Nội dung bài báo 58

Bảng 4.5: Định dạng bài viết theo cấu trúc XML 60

Bảng 4.6: Kết quả thực nghiệm SVM (phần 1) 60

Bảng 4.7: Kết quả nghiệm SVM (phần 2) 61

Bảng 4.8: Một số bài báo trong các lĩnh vực 62

Trang 12

DANH MỤC CÁC HÌNH

Hình 1.1: Mô hình tổng quan hệ thống phân tích cảm xúc dựa vào bình luận trên các

trang tin tức và mạng xã hội Tiếng Việt 7

Hình 2.1: Mô hình Support Vectormachine 29

Hình 2.2: Mô hình phân hai lớp SVM 30

Hình 3.1: Mô hình hệ thống thực nghiệm tổng quát 33

Hình 3.2: Cơ chế thực hiện thu thập dữ liệu từ Internet 35

Hình 3.3: Nội dung bài báo và bình luận trên VnExpress 37

Hình 3.4: Crawler lấy dữ liệu theo từ khóa tiếng Việt 39

Hình 3.5: Hệ thống lấy dữ liệu từ các trang tin tức 39

Hình 3.6: Lấy dữ liệu thô và lưu trữ theo định dạng XML 40

Hình 3.7: Giai đoạn tiền xử lý và định dạng văn bản có cấu trúc 41

Hình 3.8: Định dạng nội dung bài báo sang XML 42

Hình 3.9: Dữ liệu qua giai đoạn tiền xử lý và định dạng XML 43

Hình 3.10: Mô hình huấn luyện SVM 46

Hình 3.11: Mô hình phân loại chủ quan 46

Hình 3.12: Mô hình phân loại cảm xúc 47

Hình 4.1: Minh họa Pseudocode cho xác định tỷ lệ bình luận tích cực và tiêu cực 57

Hình 4.2: Biểu đồ thống kê kết quả thực nghiệm SVM 61

Hình 4.3: Kết quả thực nghiệm phân tích cảm xúc 63

Trang 13

CHƯƠNG 1 GIỚI THIỆU VÀ TỔNG QUAN VỀ CÁC VẤN ĐỀ NGHIÊN CỨU

1.1 Lý do và động lực thực hiện đề tài

Trong bối cảnh của thế giới nói chung và Việt Nam nói riêng, đặc biệt trong thời điểm Việt Nam đã gia nhập WTO thì vấn đề cạnh tranh và thử thách giữa các doanh nghiệp để tìm kiếm thị phần trên thị trường là vô cùng khốc liệt

Nhu cầu giao thương giữa doanh nghiệp và người tiêu dùng là một nhu cầu tất yếu hằng ngày Câu hỏi đặt ra ở đây là làm sao người tiêu dùng có thể mua một sản phẩm mang lại hiệu quả về mặt chất lượng và chi phí? Cơ sở, công cụ nào để có thể hỗ trợ giúp người tiêu dùng đánh giá một cách tương đối về một sản phẩm hay một thương hiệu?

Việc đánh giá từ những phản hồi, bình luận của độc giả từ những các trang tin tức và mạng xã hội tiếng Việt nổi tiếng tại Việt Nam về sản phẩm, thương hiệu là một kênh thông tin hiệu quả để người tiêu dùng có thêm những quyết định trong việc mua những sản phẩm nào, thương hiệu nào

Về phía doanh nghiệp, việc đón nhận và xử lý tốt các thông tin phản hồi này sẽ là một trong những kênh sẽ góp phần giúp doanh nghiệp cải tiến mẫu mã, chất lượng, giá thành sản phẩm…đáp ứng được nhu cầu ngày càng cao của người tiêu dùng Quan trọng hơn là nâng cao hình ảnh, thương hiệu và sức cạnh tranh thị trường của doanh nghiệp Tuy nhiên, với lượng thông tin bình luận rất lớn và diễn ra từng phút, từng giây và đa chiều thì không thể phân tích bằng thủ công mà đòi hỏi phải có một công cụ chuyên dụng

Để xây dựng thành công hệ thống như vậy cần có quá trình nghiên cứu và thử nghiệm lâu dài với lượng dữ liệu đủ lớn kết hợp với quá trình phân tích, xây dựng, thử nghiệm, điều

Trang 14

chỉnh giải pháp trong thực tế Hiện tại, trên thế giới có rất nhiều sản phẩm và công trình nghiên cứu về vấn đề này nhưng phân tích bằng những ngôn ngữ khác Vì vậy, việc thực hiện ở đây là phân tích cảm xúc trên thông tin tiếng Việt và áp dụng vào một doanh nghiệp Việt Nam sẽ có ý nghĩa thực tiễn

Ở Việt Nam, các công trình nghiên cứu lĩnh vực này chưa được nhiều, không tập trung vào bài toán cảnh báo doanh nghiệp và cũng có nhiều hạn chế vì tính phức tạp liên quan như: xây dựng bộ từ điển cảm xúc tiếng Việt, xử lý ngôn ngữ tự nhiên…

1.2 Mục đích và phạm vi nghiên cứu của đề tài

Thực hiện việc xây dựng mô hình phân tích ý kiến về sản phẩm của doanh nghiệp qua thông tin trên các trang tin tức và mạng xã hội tiếng Việt Để thực hiện được các mục tiêu

và yêu cầu của đề tài đặt ra, các bước sẽ thực hiện như sau:

- Nghiên cứu các lý thuyết, phương pháp, giải thuật liên quan đến phân tích cảm xúc

- Nghiên cứu các đặc trưng cơ bản trong tiếng Việt

- Xây dựng mô hình phân tích ý kiến dựa trên cơ sở phân loại cảm xúc tiếng Việt

- Áp dụng mô hình phân tích ý kiến dựa trên cơ sở phân loại cảm xúc tiếng Việt cho các trang tin tức, mạng xã hội tiếng Việt cho một sản phẩm cụ thể

1.3 Các công trình nghiên cứu liên quan

Trong nước: Ở Việt Nam, cũng có một số nghiên cứu về lĩnh vực này Tuy nhiên, kết

quả vẫn mới ở bước đầu Một số công trình nghiên cứu nổi bật

Sentiment classification using Enhanced Contextual Valence Shifters[4]

Nhóm tác giả Võ Ngọc Phú và Phan Thị Tươi trình bày phương pháp phân loại cảm xúc tiếng Việt dựa vào giá trị cảm xúc và ngữ cảnh của văn bản với kỹ thuật xử lý ngôn ngữ tự nhiên phức tạp Nhóm tác giả này đã xây dựng bộ từ điển cảm xúc tiếng Việt và liệt kê các ngữ cảnh ảnh hưởng đến giá trị cảm xúc của các từ và câu văn trong văn bản[16] Với độ chính xác

Trang 15

gần 70% trên dữ liệu thử nghiệm và huấn luyện về phim ảnh là một kết quả rất khả quan

Tóm tắt ý kiến trên cơ sở phân loại cảm xúc[1] Tác giả Nguyễn Ngọc Duy

đã xây dựng mô hình tóm tắt các ý kiến trên cơ sở phân loại cảm xúc từ ý kiến của bạn đọc trên các trang mạng xã hội tiếng Việt Với kho ngữ liệu gồm hơn 200 ý kiến từ hai chủ đề là xã hội và kinh doanh kết hợp với bộ từ điển cảm xúc tiếng Việt gồm 2000 từ đã cho kết quả chính xác đến hơn 60%

Ngoài nước: Công trình nghiên cứu, phân tích cảm xúc bằng tiếng Anh được bắt đầu vào

những năm 2001 và đã cho những kết quả cụ thể như sau:

Large-Scale Sentiment Analysis for News and Blogs[8]

Những nhận xét, ý kiến… thông qua những bài viết trên các phương tiện như các trang tin tức, blog Bài báo trình bày cơ chế gán điểm số để thấy quan điểm tích cực hay tiêu cực cho từng đối tượng thực thể liên quan với nội dung Hệ thống được xây dựng bao gồm giai đoạn xác định cảm xúc với việc bày tỏ ý kiến với từng đối tượng có liên quan Tập hợp những cảm xúc được ghi lại cụ thể qua từng giai đoạn, trong đó điểm số mỗi thực thể liên quan đến những người dùng khác nhau trong cùng một chủ đề được đề cập

Kỹ thuật này đã được nhóm tác giả đánh giá tầm quan trọng của nó lên một

bộ ngữ liệu lớn các tin tức và bài viết được công khai trên Internet

than Adjectives Alone[9]

Các nghiên cứu trước đây về thể hiện cảm xúc chủ yếu được xác định qua các từ loại: danh từ, động từ và tính từ Trong bài báo này đã đề xuất một

kỹ thuật phân tích cảm xúc AAC (sử dụng kết hợp trạng từ, tính từ) dựa

Trang 16

trên phương pháp tuyến tính Thực nghiệm trên thực tế trên 200 bài viết đã cho kết quả với độ chính xác cao

A Sentimental Education: Sentiment Analysis Using Subjective Summarization Based on Minimum Cuts[6]

Đây là phương pháp giải quyết bài toán phân tích cảm xúc, tâm lý Cách giải quyết là tìm cách xác định những quan điểm nằm bên dưới một chuỗi ký tự

Để xác định được tình cảm này, nhóm tác giả để xuất một phương pháp học máy nhằm phân loại văn bản để xác định phần chủ quan trong văn bản Điều này sẽ giảm thiểu được sự phức tạp trong việc tìm kiếm trên đồ thị

Phương pháp này tạo thuận lợi lớn cho việc phân tích dữ liệu sử dụng câu trong từng ngữ cảnh cụ thể, xác định

Ngoài ra, còn có rất nhiều công trình và nghiên cứu được thực hiện trên nhiều lĩnh vực khác nhau như thương mại (đánh giá sản phẩm), xã hội (tình trạng thất nghiệp), giải trí (bình luận phim ảnh), …

1.4 Các điểm mới và đóng góp trong luận văn

Từ ý tưởng ban đầu đến các bước triển khai ra thực tế, một số đóng góp và cải tiến đã được đề xuất và mô tả trong trong luận văn và được gói gọn trong 5 thành phần chính sau:

a) Kế thừa từ những nghiên cứu và công bố của tác giả [1][2] Trong quá trình thực hiện đề tài, luận văn chúng tôi có đề ra một số hình thức cải tiến nhằm nâng cao sự chính xác trong việc việc đánh giá cảm xúc qua bình luận

b) Kế thừa và phát triển máy tìm kiếm theo từ khóa tiếng Việt

Trang 17

c) Xây dựng bộ từ điển cảm xúc tiếng Việt dựa trên nền tảng bộ cảm xúc tiếng Anh (SO-CAL) và điều chỉnh trọng số phù hợp sau những thử nghiệm nhằm nâng cao hiệu quả chính xác trong việc đánh giá cảm xúc bằng tiếng Việt d) Xây dựng mô hình đánh giá cảm xúc dựa trên giải thuật phân lớp SVM đạt hiệu suất tương đối cao

e) Xây dựng hệ thống hỗ trợ cho doanh nghiệp Việt Nam trong việc phân tích phản hồi thông tin từ người dùng qua các trang tin tức và mạng xã hội tiếng Việt Đây cũng được xem như một kênh để giúp doanh nghiệp tự đánh giá được mình nhằm đưa ra các chiến lược trong việc cải tiến sản phẩm, nâng cao thương hiệu…để đáp ứng tốt hơn cho nhu cầu ngày càng cao của người dùng

1.5 Tính khả thi của đề tài

Trọng tâm của đề tài: Đề tài được xây dựng trên trọng tâm chính là xây dựng một hệ

thống hỗ trợ doanh nghiệp qua phân tích ý kiến phản hồi của người dùng từ các trang tin tức và mạng xã hội tiếng Việt Thông tin phản hồi của người dùng phải được cập nhật liên tục nhằm tổng hợp và thống kê thông tin phản hồi của người dùng đến với doanh nghiệp một cách nhanh & chính xác nhất

Tính khả thi: Vấn đề cốt lõi là làm thế nào để xây dựng công cụ tìm kiếm tối ưu theo từ

khóa, phương pháp phân tích cảm xúc, bộ từ điển cảm xúc tiếng Việt

Công trình liên quan: Hiện tại có một số công trình liên quan phân tích cảm xúc bằng

Tiếng Anh đã được công bố của Bing Liu[3], nhóm Bo Pang and Lillian Lee[6] và nhóm Thanh Ho, Duy Doan and Phuc Do[8] Bên cạnh đó cũng có một số công trình Việt như Nguyễn Ngọc Duy[1], Thái Sơn[2], cũng có những kết quả đáng khích lệ và là nguồn tham khảo cho những nghiên cứu sau này

Trang 18

1.6 Thống kê và nhu cầu sử dụng Internet tại Việt Nam

Trong những năm gần đây, cùng với sự phát triển của lĩnh vực công nghệ thông tin toàn cầu, Việt Nam cùng đang hòa nhập và từng bước áp dụng thành tựu của công nghệ thông tin vào đời sống hằng ngày khá hiệu quả Cụ thể, đó là số lượng người sử dụng Internet ngày càng nhiều Theo thống kê đến tháng 6/2016, số lượng người Việt Nam sử dụng Internet là 52 triệu người(chiếm 54% dân số) Đã có 43% người tiêu dùng Việt Nam chia

sẻ rằng, họ lần đầu biết đến sản phẩm họ mua là thông qua quảng cáo trực tuyến

Internet cũng làm thay đổi, tác động đến xã hội và cá nhân Sự ra đời và phát triển của Internet cũng làm nền móng để phát triển mạng xã hội, báo điện tử, giao dịch trực tuyến, quảng cáo online…Người tiêu dùng ngày càng có nhiều thông tin và lựa chọn về sản phẩm, thương hiệu…

Các doanh nghiệp tại Việt Nam đã và đang áp dụng công cụ Internet để quảng bá cho sản phẩm, thương hiệu của họ Có rất nhiều tờ báo điện tử tiếng Việt nổi tiếng như VnExpress, Thanh niên, Tuổi trẻ,…có số lượt truy cập lớn và nhận được nhiều thông tin phản hồi của độc giả và sản phẩm, thương hiệu của các doanh nghiệp

Tuy nhiên, với số lượng lớn về dữ liệu trên nhiều nguồn và tính đa chiều phức tạp thì việc phân tích, xử lý bằng thủ công là điều không khả thi Vì vậy, các doanh nghiệp cần một công cụ phân tích, đánh giá tự động để có thể giúp họ có thể xử lý các thông tin trên một cách khoa học và nhanh chóng là một điều rất cần thiết và thực tế

Trang 19

Phân loại chủ quan

Phân loại cảm xúc

Tập bình luận đã phân tích cảm xúc Đầu ra

Hình 1.1: Mô hình tổng quan hệ thống phân tích cảm xúc dựa vào bình luận trên

các trang tin tức và mạng xã hội Tiếng Việt

Mô hình trên bao gồm các khối xử lý chính như sau:

Đầu tiên dữ liệu đầu vào sẽ là tập các bình luận tiếng Việt “thô” trên các trang tin tức và mạng xã hội Tiếng Việt Những bình luận này gọi là “thô” bởi vì trước khi có thể sử dụng

Trang 20

được, chúng ta cần phải giải quyết nhiều vấn đề như xử lý tiếng Việt không dấu, xử lý biểu tượng cảm xúc, xử lý “stop words”,… Giai đoạn này gọi là tiền xử lý

Việc phân tích cảm xúc dựa trên những thực thể chứa cảm xúc và được đánh giá bằng một trọng số cụ thể với mức độ cảm xúc của nó được thể hiện trong một câu hay trong văn bản Dựa vào các đặc trưng cảm xúc đã được rút trích, sử dụng một số thuật toán sẽ phân lớp, phân cụm cho các bình luận Các nhãn thông thường bao gồm: tích cực (positive), tiêu cực (negative) và trung hòa (neutral)

Dựa vào các đặc trưng thu được, tiến hành phân loại chủ quan và phân loại cảm xúc tập bình luận để cuối cùng xuất ra tập gồm các câu bình luận được phân thành hai loại: có cảm xúc tích cực và có cảm xúc tiêu cực

1.8 Các phương pháp luận và phương pháp nghiên cứu được áp dụng

Đối với đề tài nghiên cứu trên cần áp dụng các phương pháp luận cũng như các phương pháp nghiên cứu cụ thể như sau Bao gồm 5 vấn đề cần giải quyết trong bài toán:

 Đặc trưng về dữ liệu từ mạng xã hội

 Bộ từ điển cảm xúc tiếng Việt

 Phương pháp phân loại chủ quan

 Phương pháp phân loại cảm xúc

 Phương pháp phân lớp Support Vector Machine(SVM)

Hệ thống dựa vào đặc trưng được rút trích sẽ sử dụng phương pháp phân lớp SVM để phân lớp cho từng câu: lớp chủ quan (subjective) và lớp khách quan (objective)

Trang 21

1.9 Kết luận chương

Chương 1 đã trình bày một cách đầy đủ và có hệ thống về toàn bộ các lý do, mục đích thực hiện đề tài đi kèm theo sơ lược về tình hình nghiên cứu cũng như các công trình đã được công bố liên quan đến đề tài - nêu bật được các phạm vi cũng như các đối tượng liên quan đến đề tài – để từ đó vạch ra được chính xác yếu tố quyết định cũng như phương hướng để thực hiện đề tài đi kèm với các phương pháp luận, nghiên cứu và đánh giá kết quả đạt được cho từng thành phần

Trang 22

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Chương này, chúng tôi sẽ trình bày cơ sở lý thuyết làm nền tảng để xây dựng hệ thống nhằm phân tích ý kiến sản phẩm của doanh nghiệp từ những thông tin trên các trang tin tức và mạng xã hội tiếng Việt Hai bước cần thực hiện như sau:

- Giai đoạn thứ nhất: Dựa vào tập bình luận theo tiêu chí từ khóa tìm kiếm nội dung, các đặc trưng thể hiện trong nội dung, từ khóa tiêu đề bản tin để phân tích cảm xúc

- Giai đoạn thứ hai: Thực hiện phân lớp cảm xúc theo hai lớp chủ quan (subjective) và khách quan (objective)

Các vấn đề sẽ được áp dụng để giải quyết bài toán trên bao gồm:

 Đặc trưng về dữ liệu từ các trang tin tức và mạng xã hội tiếng Việt

 Phân loại cảm xúc là gì?

 Bộ từ điển cảm xúc tiếng Việt

 Phương pháp phân loại chủ quan

 Phương pháp phân loại cảm xúc

 Phương pháp phân lớp Support Vector Machine

2.1 Đặc trưng về dữ liệu từ các trang tin tức và mạng xã hội tiếng Việt

Các trang tin tức và mạng xã hội là nguồn dữ liệu rất lớn và cập nhật các thông tin mới nhất Chúng ta có thể dễ dàng nắm bắt được mọi thông tin mới nhất ngoài đặc tính của Internet và sự chia sẻ của người dùng Lượng người dùng Internet trên thế giới nói chung

và Việt Nam nói riêng ngày càng phát triển một cách nhanh chóng Việc bày tỏ cảm xúc,

ý kiến cá nhân, chia sẻ và sự đánh giá của người dùng các trang tin tức, mạng xã hội đối với các sản phẩm được xem như là một vấn đề tất yếu trong thế giới số Những lời bình luận đó thường có một số đặc trưng sau:

 Câu bình luận trên các trang tin tức và mạng xã hội thường ngắn gọn, súc tích Đây là đặc trưng, dễ dàng thấy trong những bình luận Người dùng trên các trang tin tức và mạng xã hội thường bày tỏ ý kiến của mình vào

Trang 23

trực tiếp vào vấn đề Do đó, câu chữ trong bình luận thường ngắn ngọn, đơn nghĩa và dễ hiểu Ví dụ:

o Bài viết với tiêu đề “40.000 thùng nước C2, Rồng Đỏ nhiễm chì

đã bán hết” tại link khoe/40-000-thung-nuoc-c2-rong-do-nhiem-chi-da-ban-het-

http://suckhoe.vnexpress.net/tin-tuc/suc-3412715.html có một số bình luận ngắn như sau: “Ngành y tế phải

có lời giải thích thoả đáng”, “Phát hiện độc tố, cấm, đúng rồi Nhưng có điều lạ là hôm qua xem tv vẫn thấy quảng cáo cho sp này?!!!”, “Không uống nữa là xong”…

 Tuy nhiên, vẫn có những bình luận của người dùng vẫn còn mang nét văn hóa ngôn ngữ tiếng Việt từ trước đến nay vào những lời bình luận này Đó

là cách bày tỏ ý kiến của mình đa nghĩa, bóng gió, viết tắt … Do đó, bài toán cũng đặt ra thêm tình huống giải quyết những câu bình luận mang nhiều nghĩa khác nhau Ví dụ:

o Bài viết với tiêu đề “Các loại cá biển miền Trung an toàn để ăn” tại link http://vnexpress.net/infographics/suc-khoe/cac-loai-ca-bien-mien-trung-an-toan-de-an-3473208.html với các bình luận như sau:

“Cuộc sống này đôi khi nó phải linh hoạt để hoà nhập, không phải khi nào nó cũng phẳng lặng cả, vì thế muốn hoà nhập tốt các bạn phải học cách phân biệt đi nhé”, “Hãy tập ăn chay đi Không ăn bất

cứ con cá nào, dù ở sông hay biển”, “Bạn in cái danh sách này ra, rồi mang theo khi đi chợ Hỏi người ta cá đó là cá gì, rồi xem có trong danh sách này không”

 Người dùng có độ tuổi còn trẻ chiếm đa số và ngôn ngữ nước ngoài ngày càng được sử dụng, lồng ghép trong các bình luận Ngoài ra, một đặc thù nữa đối với người dùng ở tuổi vị thành niên đó là việc kết hợp những câu chữ viết tắt, và biểu tượng cảm xúc được sử dụng hết sức phổ biến Các trang tin tức, mạng xã hội, smartphone, ứng dụng…đã xây dựng hệ thống

Trang 24

viết tắt bằng các biểu tượng (emoticon) để tiết kiệm thời gian viết và thể hiện cảm xúc cũng như cá tính của bản thân Việc giải quyết và tiền xử lý

dữ liệu từ bộ phận người dùng này cũng là một vấn đề rất quan trọng của bài toán Ví dụ:

o Một số từ viết tắt: comment (cmt), status (stt), goodnight (g9)…

o Một số biểu tượng cảm xúc: vui, buồn, ngạc nhiên…

 Tính vùng miền, địa phương của bình luận trên mạng xã hội cũng là một trong những vấn đề nan giải của bài toán này Vì cũng một nghĩa với nhau nhưng người dùng ở ba miền khác nhau có thể dùng những ngôn ngữ địa phương hoàn toàn khác nhau về mặt câu chữ Ví dụ:

o Tiếng địa phương miền Trung: mi (mày), tao (tao), rứa (thế), hói (sông)…

o Tiếng địa phương miền Nam: mần (làm), từa lưa (không ra gì), quởn (rảnh)…

o Tiếng địa phương miền Bắc: cốc (ly), lạc (đậu phộng), bố (ba, cha), thổi cơm (nấu cơm), trái ngô (trái bắp)…

2.2 Phân loại cảm xúc là gì?

Bắt đầu từ năm 2000, với sự lớn mạnh của truyền thông xã hội trên mạng Internet như forum (diễn đàn), blog và đặc biệt là mạng xã hội (Facebook, Google plus, Twitter, Instagram,…) thì bài toán phân tích cảm xúc (Sentiment Analysis) đã phát triển nhanh chóng và trở thành lĩnh vực nghiên cứu sôi động nhất trong chuyên ngành xử lý ngôn ngữ

tự nhiên Mạng xã hội ngày càng có tầm ảnh hưởng không chỉ với doanh nghiệp mà còn với toàn cá nhân, xã hội

Ý kiến là trung tâm của hầu hết các hoạt động và có ảnh hưởng lớn đến hành vi của con người Thông thường khi cần phải đưa ra quyết định, chúng ta thường có trước những

Trang 25

thông tin, thống kê, tham khảo Đối với cá nhân, họ thường tham khảo người thân, bạn

bè hay mọi người xung quanh Còn với doanh nghiệp, tổ chức, họ thường tham khảo ý kiến của những người quản lý, phản hồi từ khách hàng, nghiên cứu thị trường…

Một ví dụ, đứng dưới góc độ chúng ta là một người khách mua hàng Khi có một thông tin quảng cáo sản phẩm từ một doanh nghiệp trên Internet kèm theo mẫu mã, hình ảnh, tính năng, giá cả…hết sức hấp dẫn Tuy nhiên, trước khi quyết định mua sản phẩm này,

chúng ta sẽ tự đặt ra hàng loại câu hỏi: “Sản phẩm này có tốt như quảng cáo hay không?”, “Doanh nghiệp này có uy tín không?”, “Có những doanh nghiệp nào đang sản xuất sản phẩm cùng loại hay không?”,…Để trả lời những thắc mắc đó thì việc đầu tiên,

người mua hàng sẽ tham khảo các thông tin chia sẻ của những khách hàng đã từng sử dụng sản phẩm này và những phản hồi liên quan của những người mua hàng khác Tuy nhiên, nếu số lượng phản hồi ít thì có thể đọc theo cách thủ công Nhưng nếu số lượng phản hồi lớn thì chúng ta không thể đọc và tổng hợp một cách tương đối chính xác được

Một ví dụ khác, dưới góc độ chúng ta là một chủ doanh nghiệp cần khảo sát ý kiến của khách hàng cho sản phẩm của doanh nghiệp Ngoài những công cụ khảo sát truyền thống trước đây thì việc khảo sát thông qua môi trường Internet, cụ thể là các mạng xã hội, báo điện tử sẽ là một kênh giúp doanh nghiệp sẽ tổng hợp được thêm nhiều thông tin hơn, tiết kiệm được thời gian, chi phí và hiệu quả hơn

Phân loại cảm xúc được thực hiện qua phân tích bình luận, đánh giá của người dùng trên các mạng xã hội, báo điện tử…để đánh giá mức độ theo những thang điểm đã được xây dựng trong bộ từ điển cảm xúc tiếng Việt Từ đó, sẽ có những tổng hợp và phân loại cụ thể

Trang 26

2.3 Bộ từ điển cảm xúc SO-CAL tiếng Việt

2.3.1 Bộ từ điển cảm xúc SO-CAL tiếng Anh

Bộ từ điển Sentiment[18] bao gồm 5 bộ từ điển nhỏ là: từ điển động từ, từ điển danh

từ, từ điển trạng từ, từ điển tính từ, và từ điển từ tăng cường (intensifier) Số lượng

từ của các bộ từ điển danh từ, động từ, tính từ và trạng từ lần lượt 1546 từ, 1108 từ,

2257 từ, 749 từ và kèm theo mỗi từ là một giá trị SO tương ứng trong phạm vi từ -5 cho hết sức tiêu cực đến +5 cho hết sức tích cực và không có từ nào có giá trị SO là

0 Các từ trong bộ từ điển này được lấy từ nhiều nguồn khác nhau và 3 nguồn lớn nhất là:

- Epinions 1: bộ sưu tập gồm 400 văn bản về 8 chủ đề khác nhau: phim ảnh,

âm nhạc và điện thoại, sách, xe hơi, máy vi tính, đồ nấu nướng, khách sạn, ,

và được chia đều một nửa tiêu cực và một nửa tích cực[21]

- Một tập hợp con 100 văn bản chứa 2000 bình luận phim trong tập dữ liệu Polarity (Pang, Lee, and Vaithyanathan 2002; Pang and Lee 2004, 2005)[22]

- Từ tích cực và tiêu cực từ từ điển General Inquirer (Stone et al 1966; Stone 1997)

Từ điển từ tăng cường gồm 185 từ được chia làm thành 2 loại là những từ làm tăng mức độ ngữ nghĩa (amplifiers) và những từ làm giảm mức độ ngữ nghĩa (downtoners)

Trang 27

5 thì “most excellent” (xuất sắc nhất) có giá trị SO là 5*(1 + 1) = 10

1 Từ phủ định được chia làm 2 loại:

- Switch negation (từ phủ định chuyển đổi)

 Các từ Switch negation như not (không), never (không bao giờ), nobody (không ai),… chỉ đơn giản là đảo ngược cực của một từ hay dễ hiểu hơn là đổi dấu giá trị SO của từ

Ví dụ: “Hay” có giá trị SO là +2 thì “không hay” có giá trị SO là -2

- Shift negation (từ phủ định thay đổi)

 Nếu sử dụng switch negation thì “xuất sắc” sẽ có giá trị SO là 5, “không xuất sắc” sẽ có giá trị SO là -5 Tương tự “không hay” sẽ có giá trị SO là -2 Tuy nhiên, “không xuất sắc” sẽ có cảm xúc tích cực hơn “không hay” Để tránh trường hợp đó, shift negation sẽ thay đổi giá trị SO của từ phủ định cho phù hợp với thực tế

Trang 28

Ví dụ: Ông ta không tốt (giá trị cảm xúc: 4 - 4 = 0), nhưng phải thừa nhận ông không phải xấu tính (giá trị cảm xúc: -3 + 4 = 1)

2 Đánh giá từ điển SO-CAL so với các từ điển khác

 Movie: 1,900 văn bản từ kho dữ liệu phân cực (Pang and Lee 2004)

 Camera: 2,400 văn bản về máy ảnh, máy in, đánh giá xe của Bloom, Garg, and Argamon (2007)

 Từ điển General Inquirer

 Từ điển Subjective được Wilson, Wiebe, and Hoffmann công bố năm 2005

 Từ điển SentiWordNet (Esuli and Sebastiani 2006; Baccianella, Esuli, and Sebastiani 2010)

(SO-CAL-Full)

1 Từ điển SO-CAL cơ bản bao gồm 4 bộ từ điển cơ bản là từ điển danh từ,

động từ, tính từ và trạng từ

2 Từ điển SO-CAL đầy đủ bao gồm cả 4 bộ từ điển cơ bản cộng thêm từ điển

Intensifier, từ điển từ phủ định và các tính năng đặc biệt của SO-CAL như Irrealis Blocking (ngăn chặn phi thực tế), negative weighting (tăng 50% giá

Trang 29

trị SO của từ tiêu cực), repetition weighting (sự xuất hiện lần thứ n của một

từ trong văn bản có giá trị SO là (giá trị SO của từ đó) / n)

So sánh hiệu suất của các bộ từ điển khác nhau với từ điển SO-CAL được trình bày trong bảng 2.2:

Bảng 2.2: Bảng so sánh hiệu suất của các bộ từ điển khác nhau với từ điển SO-CAL

Qua số liệu đánh giá trên và một số thử nghiệm trong thực tế, chúng tôi nhận thấy

bộ từ điển SO-CAL thích hợp với bài toán phân tích cảm xúc tiếng Việt

2.3.2 Bộ từ điển SO-CAL tiếng Việt

Để thông dịch bộ từ điển SO-CAL tiếng Anh chúng tôi đã sử dụng kết hợp hai bộ từ điển Google Translate và Viettien Dictionary [19]

- Viettien Dictionary được Tiến sỹ Nguyễn Việt Khoa – Viện ngoại ngữ, Đại học Bách khoa Hà Nội với bản cập nhật gần đây nhất là phiên bản v4.0b công bố

Trang 30

vào tháng 7/2014 trên nền tảng Mac OS là phiên bản mà chúng tôi sử dụng Tính đến thời điểm 7/2014, bộ từ điển Anh-Việt của Viettien đã có hơn 390,000

từ Cơ sở dữ liệu của Viettien được bổ sung, biên tập và chỉnh sửa từ nhiều nguồn khác nhau như:

 Dự án Từ điển tiếng Việt mở của Trần Bình An

 Phần mềm từ điển Super Power Dict của Bùi Đức Tiến

 Dự án Từ điển tiếng Việt miễn phí của Hồ Ngọc Đức

 Dữ liệu từ điển dành cho phần mềm Babylon của Đào Công Tiến

- Google Translate: Dịch vụ này tính đến thời điểm tháng 2 năm 2016 đã hỗ trợ

103 ngôn ngữ trong đó có tiếng Việt Chất lượng dịch thuật của Google Translate ngày càng được nâng cấp và cải thiện đáng kể Cộng với được trang

bị tính năng tương tác giúp mọi người có thế thay đổi nghĩa của từ cho phù hợp nhất nên việc dịch thuật có độ chính xác khá cao Tốc độ dịch thuật của Google Translate là một ưu thế mạnh so với các dịch vụ trực tuyến tương tự khác dành cho người Việt

Sau khi dựa vào hai từ điển trên để thông dịch bộ từ điển SO-CAL tiếng Anh, chúng tôi đã thu được bộ từ điển SO-CAL tiếng Việt bao gồm 5 bộ từ điển nhỏ: Từ điển danh từ (1546 từ), từ điển động từ (1108 từ), từ điển tính từ (2257 từ), từ điển trạng

từ (749 từ) và từ điển từ tăng cường (intensifier) (185 từ) Tổng cộng bộ từ điển CAL tiếng Việt gần 6000 từ Một số loại từ trong bộ tử điển SO-CAL tiếng Việt được thể hiện trong bảng 2.3, 2.4, 2.5, 2.6, 2.7:

Trang 31

SO-Bảng 2.3: Một số từ trong bộ từ điển danh từ

Trang 33

Bảng 2.7: Một số từ trong bộ từ điển từ tăng cường

2.4 Phương pháp phân loại chủ quan

Phân loại chủ quan là bước đầu tiên cần thiết để phân tích cảm xúc Trong phần này, công việc cần thực hiện là đánh giá và phân lớp dữ liệu sau khi tiền xử lý dữ liệu thành

02 lớp: lớp chủ quan và lớp khách quan

2.4.1 Câu có từ hàm chứa cảm xúc

Hiện nay trên thế giới cũng như trong nước[5], việc phân tích chủ quan chủ yếu dựa vào phương pháp so khớp với bộ từ điển cảm xúc để xác định trọng số cho các từ hàm chứa cảm xúc Do đó, chúng tôi lựa chọn phương pháp so khớp từ với bộ từ điển cảm xúc tiếng Việt đã thông dịch

Trang 34

2.4.2 Các trường hợp khác

Phương pháp phân tích câu có từ hàm chứa cảm xúc là phương pháp chủ đạo để phân tích câu chủ quan Tuy nhiên, mức độ chính xác chưa cao bởi vì có những trường hợp ngoại lệ là những trường hợp có từ hàm chứa cảm xúc nhưng không thể hiện cảm xúc Cụ thể, đó là câu nghi vấn và câu điều kiện

Câu nghi vấn:

Đặc trưng cơ bản của câu nghi vấn là thường có những từ “gì”, “như thế nào”, “thế nào”, “vì sao”, “tại sao”, “là sao” Những câu này dù có từ hàm chứa cảm xúc nhưng nó vẫn là câu không có cảm xúc

Ví dụ:

o “Loại nước giải khát này có tốt không?” là một câu nghi vấn và không có

cảm xúc Mặc dù trong câu có từ hàm chứa cảm xúc “tốt” nhưng thực tế câu này không hề có cảm xúc Đó chỉ là một nghi vấn mà người nói yêu cầu

người nghe trả lời

Câu điều kiện:

Đặc trưng của câu điều kiện là thường có những từ: “nếu…thì…”, “giá như… thì

…”,… Ở cả hai trường hợp thì câu đều không chứa cảm xúc mặc dù chúng chứa từ cảm xúc

Ví dụ:

o “Nếu pin của Zenphone được cải tiến thì sẽ rất tốt.” Trong câu có

từ “rất tốt” có giá trị SO là (3)*(1+0.2) = (+3.6) nhưng câu trên chưa chắc diễn ra trong thực tế mà chỉ là suy đoán của người nói Có thể pin của Zenphone là được cải tiến nhưng điều đó chưa chắc chắn Nên câu sẽ không có cảm xúc

o “Nếu sản phẩm này tốt thì sẽ được người dùng ủng hộ.” Trong câu

có từ “tốt” có giá trị SO là (+3) nhưng sự việc trên chưa chắc diễn

ra Vì vậy câu trên sẽ không có cảm xúc

Trang 35

Ngoài những trường hợp bên trên, chúng tôi nhận thấy một câu có chứa cảm xúc nếu đó là một câu dài Thông thường, những câu ngắn chỉ là những danh từ (người, vật, địa điểm,…), động từ hoặc trạng từ và các câu này thường không hàm chứa cảm xúc Khi người nói đã có ý thể hiện một câu dài thì hầu hết sẽ đặt yếu tố cảm xúc trong đó Tuy nhiên, việc đánh giá một câu như thế nào là đủ dài và mang yếu

tố cảm xúc thì cần nhiều thời gian thực nghiệm hơn và có các nghiên cứu riêng về vấn đề này

2.5 Phương pháp phân loại cảm xúc

Sau khi xác định được câu có cảm xúc, chúng tôi tiếp tục dựa vào bộ từ điển cảm xúc tiếng Việt và các đặc trưng được rút trích dựa vào những đặc điểm câu văn của tiếng Việt

để tính toán giá trị cảm xúc của câu Dựa vào giá trị này để phân loại câu có cảm xúc thành câu có cảm xúc tích cực và câu có cảm xúc tiêu cực

2.5.1 Giá trị cảm xúc của câu phụ thuộc vào từ hàm chứa cảm xúc

Từ hàm chứa cảm xúc (sentiment word) là thành phần có ảnh hưởng lớn nhất đến giá trị cảm xúc của câu Hiểu đơn giản, từ hàm chứa cảm xúc là từ chứa cảm xúc và thường được sử dụng để thể hiện cảm xúc tiêu cực hoặc tích cực Chẳng hạn các từ

“tuyệt vời”, “đẹp” , “tốt”… là những từ chứa cảm xúc tích cực và “kinh khủng”, “tệ hại” , “xấu xí”… là những từ chứa cảm xúc tiêu cực Ngoài những từ riêng lẻ, còn

có cụm từ chứa cảm xúc như “thật là tuyệt vời”, “trên cả mong đợi”,… Một danh sách các từ và cụm từ như vậy được gọi là từ điển cảm xúc

Cách đơn giản nhất để tính giá trị cảm xúc của một câu là tính tổng giá trị cảm xúc của các từ hàm chứa cảm xúc trong câu đó

Ví dụ:

“Sản phẩm này thông minh và hoàn hảo” Từ “thông minh” có giá trị SO là (+4)

và “hoàn hảo” có giá trị SO là (+5) nên tổng giá trị SO của câu là (+9)

Trang 36

“Điện thoại này hợp thời trang cho giới trẻ” Câu trên chỉ có một cụm từ mang

cảm xúc là “hợp thời trang” nên tổng giá trị SO của câu cũng bằng giá trị SO của

từ này là (+2)

Mặc dù từ điển cảm xúc là thành phần quan trọng trong quá trình tính toán giá trị cảm xúc của câu nhưng chỉ sử dụng nó thôi là chưa đủ Cảm xúc con người rất phức tạp Có nhiều trường hợp mà chỉ sử dụng từ điển cảm xúc không thể đánh giá chính xác giá trị cảm xúc trong câu Một số trường hợp cụ thể:

 Từ mang giá trị cảm xúc chịu ảnh hưởng của từ tăng cường Ví dụ như,

“đẹp”, “hơi đẹp”, “rất đẹp” và “đẹp nhất” nếu chỉ dựa vào từ điển cảm xúc thì những từ, cụm từ trên sẽ có giá trị SO như nhau Nhưng trên thực tế lại không như vậy Tất cả chúng đều mang cảm xúc tích cực nhưng được xếp theo giá trị cảm xúc tăng dần lần lượt là “hơi đẹp”,

“đẹp”, “rất đẹp”, “đẹp nhất”

 Dễ nhầm lẫn giữa tích cực và tiêu cực Một số từ có khả năng làm đổi cực của từ hay cụm từ cảm xúc như “không”, “không được”, “không phải”, “không bao giờ”,… Ví dụ: từ “tốt” mang cảm xúc tích cực thì

“không tốt” mang cảm xúc tiêu cực

Để giải quyết những vấn đề nêu trên cần đi sâu phân tích tiếp tục các đặc điểm khác của câu Mỗi đặc điểm sẽ dần dần giải quyết từng vấn đề cụ thể

2.5.2 Giá trị cảm xúc của câu phụ thuộc vào từ tăng cường

Quirk et al (1985) đã chia từ tăng cường (intensifier) thành hai loại là làm tăng mức

độ ngữ nghĩa (amplifiers) và làm giảm mức độ ngữ nghĩa (downtoners) Năm 2006, một số nhà nghiên cứu xử lý ngôn ngữ tự nhiên (Kennedy và Inkpen; Polanyi và Zaenen) đã sử dụng từ tăng cường để đơn giản sự tăng và giảm giá trị cảm xúc

Trang 37

Trong SO-CAL cũng bổ sung từ điển từ tăng cường Những từ chịu ảnh hưởng bởi các từ tăng cường sẽ có giá trị cảm xúc thay đổi tuỳ thuộc vào giá trị tăng hay giảm mức độ ngữ nghĩa của từ tăng cường đó

Ví dụ:

Từ “tốt” mang giá trị SO (+3) Nhưng nếu phía trước nó có từ tăng cường

“hơi” (-0.5) thì giá trị SO của “hơi tốt” là: (+3)*(1-0.5) = (+1.5)

Từ “mạnh mẽ” mang giá trị SO là (+3) thì “rất mạnh mẽ” có giá trị SO là:

(+3)*(1+0.2) = (+3.6)

Từ “giỏi” mang giá trị SO là (+3) thì “giỏi nhất” có giá trị SO là:

(+3)*(1+1) = (+6)

2.5.3 Giá trị cảm xúc của câu phụ thuộc vào từ phủ định

Tương tự như việc tăng cường giá trị cảm xúc khi từ hàm chứa cảm xúc chịu ảnh hưởng của từ nằm trong từ điển từ tăng cường thì việc từ cảm xúc chịu ảnh hưởng của những từ phủ định cũng làm thay đổi giá trị cảm xúc của từ hàm chứa cảm xúc

đó Lúc nói hoặc viết, chúng ta thường dùng các từ phủ định bao gồm: “không”,

“không được”, “không phải”,… để thể hiện một mức độ cảm xúc đối nghịch so với

từ hàm chứa cảm xúc theo sau từ phủ định đó

Do đó, đối với các từ cảm xúc mà đằng trước có từ phủ định thì chúng tôi thay đổi giá trị cảm xúc của từ đó bằng cách đảo ngược giá trị cảm xúc của nó hay dễ hiểu hơn là đổi dấu giá trị SO của từ

Ví dụ:

Từ “tốt” có giá trị SO là (+3) thì “không tốt” có giá trị SO là (-3)

Từ “giỏi” có giá trị SO là (+3) thì “không giỏi” có giá trị SO là (-3)

Trang 38

2.5.4 Giá trị cảm xúc của câu phụ thuộc vào từ khiếm khuyết

Những từ khiếm khuyết bao gồm: “phải”, “nên”, “có thể” Những câu có chứa từ khiếm khuyết thường thể hiện mức độ cảm xúc giảm nhẹ hơn so với những câu tương tự nhưng không chứa từ khiếm khuyết

Rõ ràng ta có thể dễ dàng nhận thấy câu: “Sản phẩm này có thể tốt hơn” thì đối

tượng được nói đến ở đây thực sự chưa làm tốt nhất khả năng của mình, và ý nghĩa

cảm xúc sẽ giảm hơn so với câu: “Sản phẩm này tốt” Dó đó, việc lựa chọn một

mức độ giảm nhẹ cảm xúc trong câu có từ khiếm khuyết là thực tế cần quan tâm, tuy nhiên giá trị giảm nhẹ đó là bao nhiêu là thích hợp thì cần thời gian để khảo sát

và nghiên cứu thêm Trong đề tài này, giá trị giảm nhẹ mà chúng tôi lựa chọn là 50% Theo đó, những câu có chứa từ khiếm khuyết thì giá trị cảm xúc của câu giảm 50% so với giá trị cảm xúc của tất cả các từ mang ý nghĩa cảm xúc trong câu Dưới đây là một số ví dụ cụ thể về việc tính toán giá trị cảm xúc trong câu có từ khiếm khuyết:

Câu “Sản phẩm này có thể tốt hơn.” Cụm từ “tốt hơn” có giá trị SO là

(+2) nhưng trong câu có từ khiếm khuyết “có thể” nên giá trị SO của “tốt hơn” giảm xuống còn (+1)

Câu “Tính năng của sản phẩm này phải thật linh hoạt.” Cụm từ “thật

linh hoạt” có giá trị SO là (+3)*(1 + 0.3) = (+3.9) nhưng trong câu có từ khiếm khuyết “phải” nên giá trị SO của “thật linh hoạt” sẽ còn (+1.5)

2.5.5 Giá trị cảm xúc của câu có xu hướng tích cực

Phân loại cảm xúc dựa vào từ điển cảm xúc thường cho thấy một xu hướng tích cực (Kennedy and Inkpen [9], 2006) Trên thực tế thì con người có xu hướng sử dụng từ ngữ tích cực nhiều hơn Để cân bằng giữa tích cực và tiêu cực có rất nhiều cách Trong đó, việc tăng giá trị cảm xúc của từ mang hàm ý tiêu cực được cho là có hiệu quả hơn cả Chúng tôi đã thử nghiệm nhiều mức độ gia tăng giá trị cảm xúc của từ

Trang 39

mang hàm ý tiêu cực và kết quả trả về khi tăng 50% giá trị cảm xúc của từ tiêu cực

là tốt nhất

Ví dụ: Câu “Hôm nay giá thịt heo tăng và giá thịt bò giảm” Từ “giảm” có giá trị

SO là (-2) sẽ được tăng 50% giá trị thành (-2)*(1+0.5) = (-3)

Vì vậy, trong phạm vi đề tài chúng tôi lựa chọn phương pháp tăng 50% giá trị cảm xúc của từ tiêu cực để xây dựng trong chương trình thử nghiệm

2.6 Phương pháp phân lớp Support Vector Machine

2.6.1 Giới thiệu

Support Vector Machines (SVM) là một phương pháp học có giám sát để phân lớp

dữ liệu[13][14] SVM là một công cụ mạnh mẽ cho các bài toán phân lớp phi tuyến tính được Corters và Vapnik giới thiệu vào năm 1995[10][11] để giải quyết vấn đề nhận dạng mẫu hai lớp sử Support Vector Machines (SVM) là một phương pháp học có giám sát để phân lớp dữ liệu dụng nguyên lý cực tiểu hoá rủi ro cấu trúc

SVM được nghiên cứu từ những năm của thập niên 1960 với những công trình của Vapnik và Lerner (1963), Vapnik và Chervonenkis (1964) Cơ sở của SVM dựa trên nền tảng của lý thuyết học thống kê và lý thuyết chiều Vapnik Chervonenkis (VC) đã được phát triển qua 3 thập kỷ bởi Vapnik và Chervonenkis [10][11] Lý thuyết học này bắt đầu có những bước phát triển mạnh mẽ về mặt ứng dụng kể từ những năm cuối của thập niên 1990 (Burges, 1996[12]; Osuma, 1997 [13]; Platt,

1998 [14]) và từ đó đến nay nó đã trở thành một công cụ khá mạnh trong nhiều lĩnh vực như: nhận dạng chữ viết, nhận dạng mặt người, …

Trang 40

Trong những năm gần đây, SVM được biết đến như một hướng tiếp cận phân lớp hiệu quả và đang được áp dụng rộng rãi trong nhiều ứng dụng thực tế Ưu điểm của SVM là khả năng phân lớp với độ chính xác cao, điều này được đảm bảo bởi các tính chất của siêu phẳng tối ưu và cách sử dụng hàm hạt nhân Tuy nhiên, tốc

độ phân lớp của SVM bị đánh giá là chậm hơn so với các phương pháp phân lớp khác Trong quá trình phân lớp, SVM phải duyệt qua tất cả các véc tơ để so sánh với mẫu cần nhận dạng, khi số véc tơ tăng thì tốc độ phân lớp cũng giảm xuống tương ứng Trong phần sau sẽ nói rõ chi tiết những vấn đề của SVM

2.6.2 Các bước chính của phương pháp SVM

 Tiền xử lý dữ liệu: thực hiện biến đổi dữ liệu phù hợp cho quá trình tính toán, tránh các số quá lớn mô tả thuộc tính

 Chọn hàm hạt nhân: lựa chọn hàm hạt nhân phù hợp tương ứng cho từng bài toán

cụ thể để đạt được độ chính xác cao trong quá trình phân lớp

 Thực hiện kiểm tra để xác định các tham số cho ứng dụng Điều này cũng quyết định đến tính chính xác của phương pháp này trong quá trình phân lớp

 Sử dụng các tham số cho việc huấn luyện các tập mẫu: trong quá trình huấn luyện

sẽ sử dụng thuật toán tối ưu hóa khoảng cách giữa các siêu phẳng trong quá trình phân lớp, xác định hàm phân lớp bằng cách ánh xạ chúng vào không gian đặc trưng bằng các hàm hạt nhân để giải quyết cho cả hai trường hợp dữ liệu là phân tách và không phân tách tuyến tính trong không gian đặc trưng

 Kiểm thử dữ liệu test

Ngày đăng: 31/12/2018, 16:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w