ỨNG DỤNG VÀ ĐÁNH GIÁ HIỆU QUẢ GIẢI PHÁP PHÂN TÍCH CẢM XÚC VĂN BẢN TIẾNG VIỆT TRONG THƯƠNG MẠI ĐIỆN TỬ

Do đó, nghiên cứu này tiếp cận việc đề xuất và xây dựng một ứng dụng đánh giá sản phẩm một cách chi tiết sử dụng công nghệ phân tích cảm xúc văn bản trong tiếng Việt với 5 mức cảm xúc..

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐÀO LÊ TRINH

ỨNG DỤNG VÀ ĐÁNH GIÁ HIỆU QUẢ GIẢI PHÁP PHÂN TÍCH CẢM XÚC VĂN BẢN TIẾNG VIỆT TRONG THƯƠNG MẠI ĐIỆN TỬ

Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ

LUẬN VĂN THẠC SĨ

TP.HỒ CHÍ MINH, tháng 8 năm 2019

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI

TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM

2 TS LÊ LAM SƠN

3 PGS.TS HUỲNH TRUNG HIẾU

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT TRƯỜNG ĐẠI HỌC BÁCH NAM Độc lập - Tự do - Hạnh phúc

KHOA

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Ngày tháng năm sinh : 24/12/1989 Nơi sinh : Bình Định Chuyên ngành : Hệ thống thông tin quản lý Mã số : 60340405

I TÊN ĐỀ TÀI: ỨNG DỤNG VÀ ĐÁNH GIÁ HIỆU QUẢ GIẢI PHÁP PHÂN TÍCH CẢM XÚC VĂN BẢN TIẾNG VIỆT TRONG THƯƠNG MẠI ĐIỆN TỬ

II NHIỆM VỤ VÀ NỘI DUNG :

- Nghiên cứu giải pháp phân tích cảm xúc văn bản tiếng Việt

- Xây dựng ứng dụng đánh giá sản phẩm bằng phương pháp phân tích cảm xúc văn bản tiếng Việt

- Đánh giá hiệu quả của giải pháp

III NGÀY GIAO NHIỆM VỤ :

IV NGÀY HOÀN THÀNH NHIỆM vụ :

Trang 4

LỜI CÁM ƠN

Trong suốt quá trình theo học chưcmg trình đào tạo Thạc sĩ tại trường Đại học Bách Khoa TP.HCM, tôi xin chân thành cảm cm sự chỉ dạy tận tình của quý Thầy Cô giảng dạy tại trường cùng các bạn, các anh chị đã cùng tôi gắn bó trong các buổi học, buổi thảo luận và các kỳ thi

Đặc biệt, tôi xin dành tình cảm sâu sắc và lòng biết cm chân thành đến Thầy PGS TS Phạm Trần Vũ, người đã dành nhiều thời gian để giúp đỡ tôi, cung cấp phưomg pháp, kiến thức cần thiết cho tôi trong suốt quá trình thực hiện luận văn Thạc sĩ này

Tôi cũng xin chân thành gửi lời cảm om đến anh Lê An Pha và anh Đặng Văn Thìn đã giúp đỡ tôi rất nhiều với những kiến thức cần thiết về học thuật cho nghiên cứu

Tôi xin chân thành cảm om đến bạn bè, đồng nghiệp, các anh chị đã giúp tôi hoàn thành khảo sát và thu thập dữ liệu thực tế cho luận văn

Chân thành cảm om!

Người thực hiện luận văn

Đào Lê Trinh

Trang 5

TÓM TẮT LUẬN VĂN

• Các doanh nghiệp cần phải chăm chú lắng nghe những gì khách hàng mong muốn và cảm thấy thế nào, bởi vì họ có thể từ bỏ bạn để đến với đối thủ cạnh tranh của bạn một cách nhanh chóng

Phân tích cảm xúc (Sentiment Analysis) giống như một giải pháp mới để đảm bảo rằng doanh nghiệp đang thực sự lắng nghe những gì khách hàng nghĩ, muốn và cần Hầu hết các chuyên gia tiếp thị nghĩ rằng phưcmg tiện truyền thông mạng xã hội có tác động sâu sắc đến doanh nghiệp của họ Có nghĩa là các doanh nghiệp đang tồn tại trong một môi trường có tính cạnh tranh cao với mạng xã hội để thu hút sự chú ý của khách hàng tiềm năng của doanh nghiệp Và một giải pháp phân tích cảm xúc tối ưu có thể giúp doanh nghiệp có bước tiến xa horn

Vói nhu cầu đó, việc phân tích cảm xúc trong những năm gần đây ngày càng đóng vai trò quan trọng trong việc khai thác lượng dữ liệu cảm nhận của người dùng khổng lồ, cung cấp một cái nhìn cụ thể về hiện trạng cộng đồng khách hàng của doanh nghiệp Tiếp đó là sự phát triển về các công nghệ để xử lý, phân tích cảm xúc người dùng phát triển và được ứng dụng vào thực tế Tuy nhiên, tại thị trường Việt Nam hiện nay, việc ứng dụng các công nghệ trên để khai thác dữ liệu cảm nhận của khách hàng vẫn còn khá mới mẻ

Do đó, nghiên cứu này tiếp cận việc đề xuất và xây dựng một ứng dụng đánh giá sản phẩm một cách chi tiết sử dụng công nghệ phân tích cảm xúc văn bản trong tiếng Việt với 5 mức cảm xúc Đồng thời đề cập cụ thể đến từng khía cạnh của sản phẩm Sau đó, thông qua thực nghiệm, nghiên cứu sẽ đánh giá hiệu quả của ứng dụng đối với người dùng bằng các phưorng pháp thống kê

Trang 6

In recent years, emotional has increasingly played an important role in mining the huge user experience data, providing a detailed view of the status of the customer community Followed by the development of technologies for processing and sentiment analyzing and applications to reality However, in the current market in Vietnam, the application of these technologies to exploit customer data is still relatively new

Therefore, this study approached the proposition and developed a detailed appraisal application using text-based analytical technology in Vietnamese with five levels of emotion Also mention each aspect of the product Then, through experimentation, the study will evaluate the effectiveness of the application to users by means of statistical methods

Trang 7

LỜI CAM ĐOAN

Tôi tên Đào Lê Trinh, là học viên cao học ngành Hệ thống thông tin quản lý, Đại học Bách Khoa TPHCM, xin cam đoan những kết quả nghiên cứu trong luận văn này là đúng sự thật, dưới sự hướng dẫn tận tâm của PGS TS Phạm Trần Vũ

Người thực hiện luận văn

Đào Lê Trinh

Trang 8

MUC LUC

• •

NHIỆM yụ LUẬN VĂN THẠC sĩ ii

LỜI CẢM ƠN iii

TÓM TẮT LUẬN VĂN iv

ABSTRACT V LỜI CAM ĐOAN vi

MỤC LỤC vii

DANH MỤC VIẾT TẮT X DANH MỤC HÌNH VÀ BẢNG X CHƯƠNG 1: GIỚI THIỆU 1

1.1 Tính cấp thiết của đề tài 1

1.2 Mục tiêu nghiên cứu 1

1.3 Đối tượng và phạm vi nghiên cứu 1

1.4

Ý nghĩa khoa học và thực tiễn của đề tài 2

1.5 Cấu trúc của luận văn 2

CHƯƠNG 2: TỔNG QUAN 4

2.1 Phân tích cảm xúc 4

2.2 Phân tích cảm xúc dựa theo khía cạnh 4

2.3 Các công trình nghiên cứu nước ngoài 5

2.4 Các công trình nghiên cứu trong nước 7

2.5 Những vấn đề tồn tại và hướng giải quyết 7

CHƯƠNG 3: Cơ SỞ LÝ THUYẾT 9

3.1 Học máy - Học sâu (Machine Learning - Deep Learning) 9

3.1.1 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) 9

3.1.2 Long Short Term Memory (LSTM) 10

3.2

Cơ sở lý thuyết về đánh giá hiệu quả của giải pháp 1

0 3.2.1

Mô hình đánh giá hành vi chấp nhận sử dụng của khách hàng 1

1

vii

Trang 9

4.1.1 Mục tiêu xây dựng ứng dụng 14

4.1.2 Giai đoạn 1 - Xây dựng các mô hình học sâu 15

4.1.3 Giai đoạn 2 - Ket nối các mô hình “học sâu” vào ứng dụng 15

4.1.4 Giai đoạn 3 - Đánh giá hiệu quả ứng dụng 15

4.2 Hệ thống phân tích cảm xúc dựa trên khía cạnh vói bộ dữ liệu tiếng Việt 15 4.2.1 Mô tả bài toán 15

4.2.2 Phương pháp tiếp cận bài toán 16

4.2.3 Dữ liệu 17

4.2.4 Mô hình hệ thống 17

4.3 Thiết kế ứng dụng 19

4.3.1 Kiến trúc tổng quát 19

4.3.2 Use case 21

4.4 Phương pháp đánh giá hiệu quả của giải pháp trong thực tiễn 22

4.4.1 Phương pháp chuyên gia 22

4.4.1.1 Quy trình nghiên cứu 22

4.4.1.2 Bảng câu hỏi 23

4.4.2 Phương pháp đánh giá hành vi chấp nhận sử dụng của khách hàng .25

4.4.2.1 Quy trình nghiên cứu 25

4.4.2.2 Thiết kế bảng câu hỏi và lựa chọn thang đo 26

4.4.2.3 Phưong pháp phân tích dữ liệu 28

4.4.2.4 Thảo luận kết quả 30

CHƯƠNG 5: KẾT QUẢ NGHIÊN cứu 31

5.1 Xây dựng các mô hình học sâu 31

5.1.1 Mô hình 31

5.1.2 Độ đo 31

5.1.3 Kết quả 32

5.2 ứng dụng 32

5.2.1 Trang Review 32

5.2.2 Trang Admin 34

Trang 10

5.3 Đánh giá hiệu quả của ứng dụng 34

5.3.1 Khảo sát ý kiến chuyên gia 35

5.3.1 Đánh giá chấp nhận sử dụng của khách hàng 36

5.2.2.1 Thống kê mô tả 36

5.2.2.2 Đánh giá độ tin cậy thang đo 38

5.2.2.3

Phân tích nhân tố khám phá EFA 40

5.2.2.4

Phân tích tuông quan p earson và hồi quy 41

5.2.2.5 Thảo luận kết quả 45

CHƯƠNG 6: KẾT LUẬN 47

6.1 Kết quả đạt được 47

6.2 Tồn tại và hạn chế 47

6.3 Hướng nghiên cứu tiếp theo 48

TÀI LIỆU THAM KHẢO 49

PHỤ LỤC 52

PHỤ LỤC 1 ĐÁNH GIÁ MÔ HÌNH HỌC SÂU 52

PHỤ LỤC 2 GÁN NHÃN DỮ LIỆU 53

PHỤ LỤC 3 Kết quả khảo sát chuyên gia 57

Trang 11

DANH MỤC VIẾT TẮT

Từ viết tắt Tên đầy đủ

ML Machine Learning

ANN Artificial Neural Network

CNN Convolutional Neural Network

RNN Recurrent Neural Network

LSTM Long Short-Term Memory

TAM Technology Acceptance Model

EFA Exploratory Factor Analysis

SEM Structural Equation Analysis

CFA Confirmatory Factor Analysis

DANH MỤC HÌNH VÀ BẢNG

Hình 3 1 - Mạng nơ-ron hồi quy cơ bản 10

Hình 3 2 - Mô hình chấp nhận công nghệ - Mô hình nghiên cứu 12

Hình 4 1 - Quy trình thực hiện 14

Hình 4 2 - Mô hình tổng quan của hệ thống phân tích cảm xúc trên khía cạnh Error! Bookmark not defined Hình 4 3 - Kiến trúc tổng quát hệ thống 19

Hình 4 4 - Các Use case đối vói khách hàng 21

Hình 4 5 - Các Use case đối vói nhà quản lý 21

Hình 4 6 - Các Use case đối vói quản trị viên 21

Hình 4 7 - Các buớc phuơng pháp chuyên gia 23

Hình 4 8 - Quy trình đánh giá hành vi sử dụng ứng dụng 25

Hình 5 l - S ơ đ ồ F l phát hiện khía cạnh Error! Bookmark not defined Hình 5 2 - S ơ đ ồ F l phát hiện cảm xúc Error! Bookmark not defined Hình 5 3 - Trang review của khách hàng 33

Hình 5 4 - Sơ đồ hoạt động trang Review 33

Bảng 3 1 - Các hàm truyền thuờng sử dụng trong mạng nơ-ron 10

Bảng 4 1 - Thống kê tập dữ liệu Error! Bookmark not defined

Trang 12

Bảng 4 2 - Thống kê chi tiết từng khía cạnh và cảm xúc trong các bộ dữ liệuError! Bookmark not defined

Bảng 4 3 - Bảng câu hỏi khảo sát ý kiến chuyên gia 23

Bảng 4 4 - Các biến quan sát trong mô hình 26

Bảng 5 1 - Kết quả của phưong pháp 32

Bảng 5 2 - Thống kê mô tả theo giói tính 36

Bảng 5 3 - Thống kê mô tả về độ tuổi 36

Bảng 5 4 - Thống kê mô tả về nghề nghiệp 37

Bảng 5 5 - Thống kê mô tả các biến định lượng 37

Bảng 5 6 - Phân tích Cronbach’s Alpha “Tính dễ sử dụng cảm nhận” 38

Bảng 5 7 - Phân tích Cronbach’s Alpha “Tính hữu ích cảm nhận” 38

Bảng 5 8 - Phân tích Cronbach’s Alpha cho nhân tố “Quan điểm sử dụng” 39

Bảng 5 9 - Phân tích Cronbach’s Alpha cho nhân tố “Dự định sử dụng” 39

Bảng 5 10 - Phân tích Cronbach’s Alpha cho nhân tố “Hành vi sử dụng” 40

Bảng 5 1 1 - Thống kê mô tả các nhân tố rút trích 40

Bảng 5 12 - Tuông quan biến SD -ỳ HI 41

Trang 13

CHƯƠNG 1: GIỚI THIỆU

1.1 Tính cấp thiết của đề tài

Hiện nay, trên thị trường thương mại điện tử Việt Nam tồn tại rất nhiều dòng sản phẩm, nhà cung cấp Và ngưòi mua hàng sẽ gặp khó khăn khi đưa ra quyết định mua một sản phẩm trực tuyến mà không thực sự nắm rõ các tính năng hay dịch vụ của sản phẩm Với nghiên cứu này, chúng ta hỗ trợ người tiêu dùng có cái nhìn cụ thể hơn cho từng tính năng, dịch vụ của sản phẩm thông qua việc đánh giá những ý kiến nhận xét nhận xét của khách hàng

Ngoài ra, ứng dụng này được kỳ vọng sẽ mang lại lợi ích cho các nhà quản lý dịch vụ Tổng họp được các ý kiến, cảm nhận của khách hàng đối với sản phẩm của mình sẽ mang lại lợi thế cạnh tranh đáng để của các doanh nghiệp

Đặc biệt, tại thị trường Việt Nam chúng ta chưa có những ứng dụng cụ thể về việc đánh giá chất lượng của sản phẩm thông qua phân tích ý kiến đánh giá của khách hàng Do đó, việc trích xuất và đánh giá các khía của sản phẩm dựa trên ý kiến đánh giá của khách hàng bằng cách áp dụng công cụ “Phân tích cảm xúc” vẫn đang là một hướng nghiên cứu mói

1.2 Mục tiêu nghiên cứu

Nhằm ứng dụng và đánh giá các tính năng của sản phẩm thông qua phân tích những dữ liệu cảm nhận của khách hàng, chúng tôi áp dụng những kỹ thuật phân loại, trích xuất các đặc tính và sử dụng công cụ “Phân tích cảm xúc” Ket quả thu được từ nghiên cứu kỳ vọng sẽ hoàn thành những mục tiêu sau:

> Nghiên cứu và xây dựng giải pháp phân tích cảm xúc dựa theo các ý kiến của khách hàng bằng tiếng Việt

> Triển khai ứng dụng giải pháp trên vào việc đánh giá cảm xúc từng khía cạnh trong văn bản tiếng Việt

> Đánh giá hiệu quả của giải pháp phân tích cảm xúc trong thực tiễn

1.3 Đối tượng và phạm vi nghiên cửu

Phạm vi và đối tượng nghiên cứu là bộ dữ liệu về sản phấm và các ý kiến đánh giá của khách hàng trên các website thương mại điện tử phố biến hiện nay

Trang 14

1.4 Ý nghĩa khoa học và thực tiễn của đề tài

Với những kết quả thu được sẽ góp phần nào bổ sung thêm những luận điểm, kiến thức mới và là nguồn dữ liệu tham khảo phục vụ cho những nghiên cứu tiếp theo trong lĩnh vực này

Trong thực tiễn, những nghiên cứu trước đây, chúng ta thấy rằng, vấn đề phân tích các đánh giá của khách hàng là rất quan trọng Nếu chúng ta xử lý đủ tốt, hệ thống

sẽ góp phần bổ sung một cơ sở để hỗ trợ các chiến dịch cải tiến sản phẩm, chăm sóc khách hàng Ngoài ra, hiện nay, các chiến dịch nghiên cứu thị trường, khảo sát và thu thập phản hồi từ khách hàng đang được phổ biến rộng rãi Nếu chúng ta áp dụng hệ thống này vào thực tiến, chúng ta có thể tiết kiệm được thời gian và chi phí đáng kể cho doanh nghiệp

Bên cạnh đó, đối vói một website thương mại điện tử, tính năng này sẽ góp phần tăng tính chuyên nghiệp cho ứng dụng Đối với khách hàng, đây sẽ là công cụ cần thiết,

hỗ trợ việc đưa ra quyết định mua hàng một cách đúng đắn

Ngoài ra, khi áp dụng thành công ứng dụng đánh giá phân loại sản phẩm vào thực tế, chúng ta kỳ vọng sẽ đạt được các lợi ích dưới đây:

- Hỗ trợ quyết định mua hàng, khách hàng có cái nhìn chi tiết hơn về chất

lượng từng tính năng của sản phẩm thông qua các ý kiến đánh giá

- Doanh nghiệp có cái nhìn cụ thể hơn về đánh giá của khách hàng, kịp thời hỗ trợ và chăm sóc khách hàng

- ứng dụng và tăng tính tiện ích vào các trang thương mại điện tử

1.5 Cấu trúc của luận văn

Cấu trúc luận văn được chia thành 6 chương như sau:

Chương 1: Giới thiệu

Chương này nêu một số nội dung chính sau:

Lý do chọn đề tài

Mục tiêu, đối tượng và phạm vi nghiên cứu

Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

Chương 2: Tổng quan

Phân tích, đánh giá các công trình nghiên cứu đã có của các tác giả trong và ngoài nước liên quan mật thiết đến đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà đề tài cần tập trung nghiên cứu, giải quyết

Chương 3: Cơ sở lý thuyết

Trang 15

Trình bày các cơ sở lý thuyết, lý luận, giả thuyết khoa học sử dụng trong luận văn

Chương 4: Thiết kế nghiên cứu

Trình bày mô hĩnh và các phương pháp nghiên cứu được sử dụng trong luận văn

Chương 5: Kết quả nghiên cứu

Mô tả quá trình tiến hành nghiên cứu khoa học Trình bày thảo luận các kết quả thu thập được trong quá trình nghiên cứu của đề tài

Chương 6: Kết luận và hưởng nghiên cứu tiếp theo Trình bày các kết quả

mói và những hạn chế của luận văn Nêu hướng nghiên cứu tiếp theo của đề tài

Trang 16

CHƯƠNG 2: TỎNG QUAN

2.1 Phân tích cảm xúc

Phân tích cảm xúc (sentiment analysis) được nghiên cứu chủ yếu với 3 mức : mức câu (sentence level), mức tài liệu (document level), mức khía cạnh (aspect level)

- Phân loại cảm xúc mức tài liệu là xem xét toàn bộ tài liệu như đơn vị thông tin

và giả định rằng tài liệu có chứa ý kiến về một thực thể duy nhất, thể hiện một cách tổng quan ý kiến tích cực hoặc tiêu cực Ví dụ: một bình luận tích cực về khách sạn của khách hàng sau kỳ nghỉ dưỡng: “Tôi cảm thấy hài lòng khi ở khách sạn Tuy phòng hơi bé nhưng nhân viên rất nhiệt tình và tạo cho tôi cảm giác thoải mái.”

- Mức câu là phân loại cảm xúc từng câu riêng lẻ trong một tài liệu Có thể có câu không mang cảm xúc Thông thường, ta phân loại một câu là có ý kiến và không

có ý kiến Sau đó, kết quả câu có ý kiến được phân tích cảm xúc tích cực, tiêu cực hay trung tính

- So với mức tài liệu và mức câu, phân loại cảm xúc dựa trên khía cạnh là sự kết hợp tốt hơn Nó trích xuất và tóm tắt ý kiến về các thực thể và các khía cạnh (hay tính năng) của các thực thể Trong một đánh giá của sản phẩm, phân tích cảm xúc dựa trên khía cạnh nhằm mục đích tóm tắt các ý kiến tích cực và tiêu cực về các khía cạnh khác nhau của sản phẩm Trong ví dụ trên, “Khách sạn” là thực thể, “phòng” và “dịch vụ” là hai khía cạnh của thực thể Khía cạnh “phòng” được phân loại cảm xúc tiêu cực và “dịch vụ” được phân tích cảm xúc dựa theo khía cạnh là tích cực

Trong phần tiếp theo, nghiên cứu này tiếp cận các ứng dụng học sâu (deep learning) trong bài toán phân tích cảm xúc dựa theo khía cạnh

2.2 Phân tích cảm xúc dựa theo khía cạnh

So với phân loại cảm xúc mức tài liệu (document level) và mức câu (sentence level), việc phân loại cảm xúc dựa theo khía cạnh xem xét cả vấn đề cảm xúc lẫn khía cạnh cụ thể, và cảm xúc phải được đề cập đến một mục tiêu nào đó Mục tiêu ở đây chính là một thực thể hay là khía cạnh của thực thể đó

Tuy nhiên, việc phân loại cảm xúc dựa theo từng khía cạnh đang gặp nhiều thách thức vì rất khó để mô hình hóa các quan hệ ngữ nghĩa của một khía cạnh và

Trang 17

các từ xung quanh nó Do đó, mạng nơ-ron được sử dụng để nắm bắt các mối liên kết ngữ nghĩa giữa chúng bằng cách xây dựng các mô hình học máy

Khi ứng dụng mạng nơ-ron vào bài toán phân loại cảm xúc theo khía cạnh, các nhà nghiên cứu giải quyết 3 nhiệm vụ chính:

- Nhiệm vụ thứ nhất, biểu diễn các từ ngữ cảnh trong câu hoặc trong tài liệu của một khía cạnh nào đó

- Nhiệm vụ thứ 2 là tìm ra một khía cạnh hoặc thực thể có thể tương tác đúng với ngữ cảnh trên Giải pháp đó là dùng tập nhúng mục tiêu (target embedding), tương tự như tập nhúng từ (word embedding)

- Nhiệm vụ thứ 3 là xác định các từ cảm xúc quan trọng cho khía cạnh được chỉ định Ví dụ như câu bĩnh luận: “Tuy phòng hơi bé nhưng nhân viên rất nhiệt tình và tạo cho tôi cảm giác thoải mái.” Từ “hơi bé” là từ ngữ cảnh quan trọng đối với “phòng”

Mặc dù, có rất nhiều nghiên cứu được đề xuất để giải quyết các bài toán phân loại cảm xúc theo khía cạnh, nhưng vẫn chưa có đề xuất nào mang lại hiệu quả tuyệt đối Các nghiên cứu liên quan được đề cập dưới đây

2.3 Các công trình nghiên cứu nước ngoài

Các nghiên cứu trước đây đã cố gắng thực hiện khai thác ý kiến ở các cấp độ khác nhau, cấp độ tài liệu (document level), cấp độ câu (sentence level) và cấp độ tính

năng (feature level) (B Liu, 2010) Ở cấp độ tài liệu, toàn bộ tài liệu được phân loại

thành các mức như “positive” hoặc “negative” theo cảm xúc chung được thể hiện trong văn bản Để dự đoán sự khác nhau của ý kiến được thể hiện trong tài liệu, các từ cảm xúc như “excellent”, “poor”, “enjoy” và “dislike” được dùng trong thuật toán phân loại

học máy (Sven Rill và cộng sự, 2012), hoặc các giá trị được gán thủ công để phân loại (Xiaowen Ding, Bing Liu, Philip S.Yu, 2008) Tuy nhiên, không phải lúc nào tất cả các

câu trong tài liệu đều thể hiện một ý kiến chủ quan Đe giải quyết vấn đề đó, phân loại cảm xúc cấp câu hay mệnh đề được thực hiện, bao gồm 2 nhiệm vụ: phân biệt câu chủ quan với câu khách quan và xác định sự phân cực (positive hoặc negative) của mỗi câu chủ quan

Ý kiến đánh giá một sản phẩm thường bình luận về nhiều khía cạnh khác nhau của một sản phẩm, ví dụ chất lượng của một clip và khả năng sử dụng pin của camera, hay là về chất lượng dịch vụ giao hàng Phân tích cảm xúc cấp tài liệu (document level) và cấp độ câu (sentence level) có thể xác định cảm xúc chung của tài liệu hay của một câu, nhưng nó không thế đánh giá được một tính năng riêng

Trang 18

biệt được phân cực (positive hay negative) như thế nào Khi đó, một kỹ thuật khai thác

ý kiến (opinion mining technique) khác được đưa ra để xử lý những tính năng cụ thể Vấn đề này gồm 2 nhiệm vụ con, trích xuất tính năng của một sản phẩm và liên kết từng tính năng với một ý kiến cảm xúc vấn đề thứ nhất được M Hu và B Liu (2004) chỉ ra làm thế nào để trích xuất các danh từ (nouns) và cụm danh từ (noun phrases), xác định các thuật ngữ tính năng dựa vào các mấu được gắn thẻ (part-of-speech tags) và các thuật ngữ được chọn bằng cách kiểm tra tỉ số khả dĩ (likelihood-ratio test)

Tuy nhiên, các phương pháp dựa trên thống kê đơn giản không đủ trong một số trường hợp, ví dụ có nhiều hơn một đối tượng hoặc chủ đề được đề cập trong một câu

Duy Tin Vo và Zhang nghiên cứu phân loại cảm xúc trên Twitter dựa theo khía cạnh bằng cách sử dụng các tính năng tự động phong phú Đó là các tính năng bổ sung bằng phương pháp học không giám sát (unsupervised learning) Nghiên cứu chứng minh rằng việc sử dụng các tập nhúng (multiple embeddings), chức năng gộp và từ điển cảm xúc có thể cung cấp nguồn thông tin về các khía cạnh phong phú, giúp cải thiện

hiệu suất (Vo D-T, Zhang Y, 2015)

Từ khi LSTM (Long short -term memory) có thể thể hiện được mối quan hệ ngữ nghĩa giữa các khía cạnh và các từ ngữ cảnh theo nhiều cách linh hoạt hơn Tang và cộng sự đã đề xuất LSTM phụ thuộc mục tiêu (Target-Dependent LSTM, viết tắt là TD-LSTM) và LSTM kết nối mục tiêu (Target-Connection LSTM, viết tắt là TC-LSTM) nhằm mở rộng LSTM bằng cách xem xét mục tiêu trong quá trình xử lý Nghiên cứu xem xét các mục tiêu và một tính năng và kết hợp nó với các tính năng ngữ cảnh để

phân loại cảm xúc theo khía cạnh (Tang D, Qin B, Feng X, and Lỉu T, 2016)

Một giải pháp LSTM dựa trên sự “chú ý” (attention -based) với kỹ thuật nhúng mục tiêu (target embedding) được đề xuất bởi Wang và cộng sự, cải thiện hiệu quả bằng cách thực thi mô hĩnh nơ-ron và chú ý đến các thành phần liên quan của một câu Cơ chế chú ý (attention mechanism) thực thi mô hĩnh và chú ý đến các thành phần quan

trọng trong một câu, để trả lời các khía cạnh xác định (Wang Y, Huang M, Zhu X, and Zhao L, 2016)

Yang và cộng sự cũng đề xuất một mô hình LSTM dựa trên sự “chú ý” hai chiều

nhằm cải thiện hiệu suất phân loại (Yang và cộng sự, 2017) Liu và Zhang đã mở rộng

mô hình dựa trên sự “chú ý” bằng cách phân biệt bối cảnh bên trái và bối cảnh bên phải

của khía cạnh xác định (Liu và Zhang, 2017)

Trang 19

2.4 Các công trình nghiên cứu trong nước

Gần đây, một nghiên cứu về việc kết họp phương pháp phân tích cảm xúc dựa trên bộ từ điển và học máy cho các đánh giá của khách hàng trong tiếng Việt được Son

Trinh triển khai nghiên cứu (Son Trinh, Luu Nguyen and Minh Vo, 2018) Tác giả sử

dụng những dấu hiệu cảm xúc và giá trị của cảm xúc là những thông tin được trích xuất

từ tập dữ liệu gốc Chúng còn được gọi là các tính năng, được sử dụng để phân loại cảm xúc Để huấn luyện (train) cho quá trình phân loại, các tập dữ liệu huấn luyện cần được chuyển thành một vector chứa các tính năng đó, gọi là vector đặc trưng Đối với phân loại cấp câu (sentence level), một vector đặc trưng được hình thành dựa trên một câu

Hiện nay, việc phân tích cảm xúc văn bản trong tiếng Việt đã có một số nghiên cứu Đặc biệt, Hong Nam Nguyen đưa ra vấn đề xây dựng từ điển cảm xúc trong tiếng

Việt là rất khó và mất thời gian (Hong Nam Nguyen, Thanh Van Le, Hai Son Le, and Tran Vu Pham, 2014) Cách tiếp cận khai phá ý kiến cộng đồng bằng ngôn ngữ tiếng

Việt bằng cách sử dụng từ điển cảm xúc trong các lĩnh vực cụ thể để cải thiện độ chính xác Từ điển cảm xúc được xây dựng từng bước bằng cách sử dụng các phương pháp

thống kê cho một lĩnh vực cụ thể (Duyen, N.T, Bach, N.x, Phuong, 2014)

Rất nhiều nghiên cứu gặp phải khó khăn với những ngôn ngữ có cấu trúc phức tạp như tiếng Việt Thông thường các nhà nghiên cứu tiếp cận với hai nhiệm vụ con: trích xuất khía cạnh và phân loại cảm xúc cho khía cạnh đó Ngược lại vói xu hướng trên, Long Mai và Bac Le đã đề xuất mô hình liên kết trình tự - nhãn (sequence- labeling) với mạng nơ-ron hồi quy hai chiều và trường ngẫu nhiên có điều kiện (conditional random field - CRF) để trích xuất khía cạnh và phân tích cảm xúc một cách

đồng thời (Long Mai và Bac Le, 2018)

Ngoài ra, còn có rất nhiều nghiên cứu liên quan đến việc phân tích cảm xúc dựa trên khía cạnh sử dụng các mô hình học sâu LSTM Nghiên cứu này cũng tiếp cận giải pháp phân tích cảm xúc dựa trên khía cạnh bằng cách sử dụng mạng nơ-ron LSTM

2.5 Những vấn đề tồn tại và hướng giải quyết

Các nghiên cứu trước đây cho thấy rằng việc xử lý ngôn ngữ tự nhiên tiếng Việt còn gặp nhiều khó khăn Bên cạnh vấn đề rằng cần phải có thời gian đế xây dựng một

bộ từ điển cảm xúc cho tiếng Việt, một số kết quả bước đầu của các nghiên cứu trong

xử lý ngôn ngữ tự nhiên và phân tích cảm xúc tiếng Việt tạo tiền

Trang 20

đề để chúng ra có thể ứng dụng vào các lĩnh vực kinh doanh và sản xuất trong thực tế

Hiện nay, trên thị trường Việt Nam, thương mại điện tử đang phát triển nhanh chóng Lượng người dùng tương tác với các hệ thống thương mại điện tử ngày một tăng Do đó, dữ liệu các đánh giá, nhận xét của khách hàng cũng rất phong phú Tuy nhiên, chúng ta vẫn chưa có một hệ thống có thể phân tích chi tiết rằng những bình luận trên của khách hàng đang hướng đến những khía cạnh cụ thể nào, và cảm xúc của họ ra sao Phân tích cảm xúc của khách hàng dựa trên các bình luận còn thực hiện một cách thủ công Công việc này tiêu tốn khá nhiều thời gian và tài nguyên của doanh nghiệp

Do đó, nghiên cứu này đề cập đến việc ứng dụng phân tích cảm xúc vào việc đánh giá sản phẩm trong thực tiễn

Trang 21

CHƯƠNG 3: cơ SỞ LÝ THUYẾT

3.1 Học máy - Học sâu (Machine Learning - Deep Learning)

Thuật ngữ “học máy” được ra đời như là bước phát triển tiếp theo để giải quyết các bài toán mà “trí thông minh nhân tạo” đã đặt ra Ước mơ xây dựng một cỗ máy có đặc điểm giống trí thông minh của con người trong tương lai “Học máy” được tiếp cận để bắt đầu chinh phục “trí tuệ nhân tạo” từ những bài toán nhỏ hon

“Học máy” sử dụng các thuật toán phân tích dữ liệu, học hỏi từ dữ liệu đó và đưa

ra dự đoán về các vấn đề liên quan Các thuật toán được nghiên cứu ứng dụng nhiều năm qua: logic programming, clustering, reinforcement learning, and Bayesian networks Thành tựu đáng kế của “học máy” như: thị giác máy tính (computer vision), phát hiện ảnh (image detection) Tuy nhiên, những kỹ thuật trên vẫn chưa đạt được sự tin cậy cao trong các ứng dụng thực tế

Do đó, kỹ thuật “học sâu” được nghiên cứu nhằm hiện thực hóa “học máy” “Học sâu” có thể được xem là bước đột phá trong những nghiên cứu về trí thông minh nhân tạo Ý tưởng của những kỹ thuật “học sâu” dựa trên sự liên kết các nơ- ron tương tự như bộ não của con người Từ đó, “mạng nơ-ron nhân tạo” ra đòi

Ngày nay, các kỹ thuật “học máy” và “học sâu” được ứng dụng rộng rãi Trong đó

có những ứng dụng có thể thực hiện các tác vụ tốt hơn cả con ngưòi Ví dụ: máy chơi

cờ vây AlphaGo của Google DeepMind, hệ thống gọi ý của Amazon, Netflix, trợ lý ảo Siri của Apple, hệ thống tự tag khuôn mặt của Facebook

3.1.1 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN)

Mạng nơ-ron hồi quy - RNN được ra đòi nhằm đáp ứng các yêu cầu phức tạp của các bài toàn xử lý ngôn ngữ tự nhiên

Các bài toán dạng chuỗi được giải quyết với mạng nơ-ron hồi quy RNN Trong, mạng nơ-ron truyền thống, tất cả các dữ liệu đầu vào thường được độc lập, không có liên kết với nhau Do đó, trong một số trường hợp mà dữ liệu có cấu trúc đặc biệt, hệ thống phân tích sẽ không đem lại một kết quả tốt nhất Ớ đây là bài toán xử lý ngôn ngữ

tự nhiên Các từ hoặc câu phía sau chịu ảnh hưởng ít nhiều bởi các từ trước đó

Trang 22

input 1 input 2 input 3

output 1 output 2 output 3

Hình 3.1 - Mạng nơ-ron hồi quy cơ hản Bảng

3.1 - Các hàm truyền thường sử dụng trong mạng nơ-ron Linear

/0*0 = 1 + e~1 x

f ( x ) = tanh(x) = - 1

1 + e i x

for for

X < 0

X > 0

3.1.2 Long Short Term Memory (LSTM)

Long Short Term Memory là một mạng cải tiến của mạng RNN truyền thống, nhằm giải quyết vấn đề học xa

Tất cả các mạng hồi quy đều chỉ là các chuỗi các module lặp đi lặp lại Trong mạng RNN chuẩn, các module này có kiến trúc đơn giản chỉ với một tầng tanh Mạng

LSTM thường có 4 tầng tanh hoạt động tương tác với nhau trong module

3.2 Cơ sở lý thuyết về đánh giá hiệu quả của giải pháp

Nghiên cứu này đánh giá hiệu quả của giải pháp dựa trên mục tiêu kỳ vọng đã

đề ra Với sự mong đợi rằng, ứng dụng giải pháp trên sẽ mang lại tiện ích cho người sử dụng, việc đánh giá sự hài lòng của khách hàng có thể cho ta thấy hiệu quả của giải pháp khi ứng dụng vào thực tế

Trang 23

Tuy nhiên, ứng dụng này vẫn chưa được phổ biến rộng rãi trong thực tế Do đó, nghiên cứu này tiếp cận theo hướng đánh giá chấp nhận sử dụng của người dùng đối với ứng dụng này Từ đó, tìm ra những yêu cầu cần thiết để cải thiện ứng dụng phù hợp horn với nhu cầu của khách hàng

Bên cạnh đó, ứng dụng giải pháp cũng được kỳ vọng sẽ mang lại lợi ích cho doanh nghiệp và nhà quản lý Do đó, nghiên cứu sử dụng phưorng pháp lấy ý kiến chuyên qua

để phân tích những khó khăn và lợi ích của giải pháp trong thực tiễn

Ngoài ra, dựa vào kết quả phân tích trên, học viên dùng ma trận SWOT xác định các chiến lược cụ thể để triển khai giải pháp này vào thực tiễn

3.2.1 Mô hình đánh giá hành vi chấp nhận sử dụng của khách hàng

Mô hình chấp nhận công nghệ (Technology Acceptance Model: TAM) được phát triển từ mô hĩnh hành động hợp lý và hành vi dự định bởi Davis (1989) để dự đoán việc chấp nhận các dịch vụ, hệ thống công nghệ thông tin Mô hình TAM cho rằng tính hữu ích cảm nhận và tính dễ sử dụng cảm nhận có ảnh hưởng tới thái độ hay quan điểm

sử dụng, quan điểm sử dụng có ảnh hưởng tới dự định và dự định tác động tới hành vi chấp nhận hệ thống thông tin thực sự Davis và cộng sự (1989) cho rằng mục đích chính của TAM là cung cấp sự giải thích về các nhân tố xác định tổng quan tói sự chấp nhận máy tính, những yếu tố có khả năng giải thích hành vi nguôi sử dụng xuyên suốt các loại công nghệ máy tính đối với người sử dụng cuối cùng và cộng đồng sử dụng Mô hình TAM cung cấp giải thích về tác động của yếu tố tin tưởng của nguôi sử dụng (tính

dễ sử dụng cảm nhận, tính hữu ích cảm nhận) tới thái độ/quan điểm và dự định sử dụng đối vói một dịch vụ hay hệ thống công nghệ thông tin Mô hình TAM có thể được mô hĩnh hóa như sau:

Trang 24

Hình 3.2 - MÔ hình chấp nhận công nghệ - Mô hình nghiên cứu

(Priyanka Surendran, 2012)

Trong đó:

- Tính dễ sử dụng cảm nhận là nhận thức của khách hàng tin rằng việc sừ dụng dịch vụ hay hệ thống đặc thù không cần nhiều nỗ lực

- Tính hữu ích cảm nhận là mức độ tin tưởng của người sử dụng dịch vụ hay

hệ thống sẽ giúp nân cao kết quả thực hiện công việc của họ

- Quan điểm sử dụng được định nghĩa là cảm giác tích cực hoặc tiêu cực về việc thực hiện một hành vi mục tiêu

- Dự định sử dụng là nhận thức về xu hướng hay khả năng quyết định sử dụng dịch vụ hay hệ thống

- Hành vi sử dụng là mức độ hài lòng, khả năng sẵn sàng tiếp tục sử dụng hay mức độ cũng như tần suất sử dụng dịch vụ/hệ thống trong thực tế Hl: Tính dễ sử dụng cảm nhận cố ảnh hưởng tích cực đến tính hữu ích cảm nhận của khách hàng

H2: Tính dễ sử dụng cảm nhận có ảnh hưởng tích cực đến quan điểm sử dụng của khách hàng

Quan điểm sử dụng là sự bày tỏ về thái độ của khách hàng vái dịch vụ Quan điểm sử dụng có ảnh hưởng đến quyết định sử dụng dịch vụ hay không

H3: Tính hữu ích cảm nhận có ảnh hưởng tích cục đến quan điểm sử dụng của khách hàng

H4: Tính hữu ích cảm nhận cỏ tác động tích cục đến dự định sử dụng hệ thống đánh giá

Trang 25

Tính hữu ích cảm nhận là yếu tố quyết định đến việc khách hàng có chấp nhận sử dụng dịch vụ hay không và ảnh huởng đến cả quan điểm của khách hàng về dịch vụ

H5: Quan điểm sử dụng hệ thống đánh giá có ảnh huởng tích cục đến dụ dịnh

sử dụng hệ thống đánh giá của khách hàng

H6: Nhân tố dụ định sử dụng có ảnh huởng tích cục đến hành vi sử dụng hệ

thống đánh giá

Hành vi chấp nhận sử dụng là hành động sử dụng dịch vụ thục sụ và cam kết về nhận thức duy trì việc sử dụng dịch vụ của khách hàng Hành vi quyết định sử dụng dịch vụ phụ thuộc và các thôi thúc bên trong và những tác động bên ngoài đối vói dịch

vụ Và các nghiên cứu truớc đây cho thấy rằng hành vi sử dụng chịu ảnh huởng của dụ định sử dụng rất mạnh

Ngày nay, mô hĩnh TAM đuợc xem là một trong những mô hình phổ biến nhất

để đánh giá khả năng chấp nhận đối với các dịch vụ công nghệ mới trong lĩnh vục công nghệ thông tin và viễn thông

3.2.2 Phương pháp chuyên gia

Phucmg pháp chuyên gia là một phucmg pháp phổ biến trong các sản phẩm nghiên cứu sử dụng trí tuệ của đội ngũ chuyên gia có trĩnh độ cao của một chuyên ngành để xem xét, nhận định bản chất một sụ kiện khoa học hay thục tiễn phức tạp, để tìm ra giải pháp tối uu cho các sụ kiện đó hay đánh giá một sản phảm khoa học Các yêu cầu khi sử dụng phucmg pháp:

• Chọn đúng chuyên gia, có năng lục chuyên môn theo vấn đề ta đang nghiên cứu

Những chuyên gia này phải có phẩm chất trung thục khoa học

• Xây dụng đuợc hệ thống các chuẩn đánh giá cho các tiêu chí cụ thể, dễ hiểu và

tuờng minh, nếu có thể dùng điểm số để thay thế

• Huớng dẫn kĩ thuật đánh giá, theo các thang điếm với các chuẩn khách quan,

giảm tới mức tối thiếu những sai lầm có thế xảy ra

• Hạn chế mức thấp nhất ảnh huởng qua lại của các chuyên gia về chính kiến,

quan điểm, cho nên tốt nhất là không phát biểu công khai hoặc là nếu công khai thì nguời có uy tín nhất không phải là nguời phát biếu đầu tiên

Trang 26

CHƯƠNG 4: THIẾT KÉ NGHIÊN cứu

4.1 Tổng quan

Nghiên cứu được tiến hành gồm ba giai đoạn chính như sau:

Hình 4.1 - Quỵ trình thực hiện

Giai đoan 1: Xây dựng các mô hình học sâu giải quyết bài toán phân tích cảm

xúc trong tiếng Việt Sử dụng các kỹ thuật sau:

Thu thập dữ liệu Tiền xử lý dữ liệu Huấn luyện dữ liệu Xây dựng mô hình

Giai đoan 2: Kết hợp các mô hình học sâu vào ứng dụng Giai đoan 3: Đánh giả hiệu quả ứng dụng

4.1.1 Mục tiêu xây dựng ứng dụng

• Mục tiêu đầu tiên đó là huấn luyện dữ liệu xây dựng các mô hình “học sâu” dựa

trên mạng nơ-ron LSTM, nhằm giải quyết bài toán phân tích cảm xúc dựa trên khía cạnh

• Mục tiêu thứ hai đó là xây dựng một ứng dụng đánh giá sản phẩm một cách chỉ

tiết theo từng khía cạnh, mang lại hiệu quả kinh tế Tiến hành hiện thực một ứng dụng web thương mại điện tử để cố thể dễ dàng giới thiệu cho khách hàng và cho thấy tiềm năng của ứng dụng

Trang 27

4.1.2 Giai đoạn 1 - Xây dựng các mô hình học sâu

Các kỹ thuật xử lý dữ liệu và kỹ thuật “học sâu” để xây dựng mô hình cho bài toán phân tích cảm xúc với bộ dữ liệu tiếng Việt

> Tiền xử lý dữ liệu: sử dụng các kỹ thuật thay thế từ, ký tự đặc biệt; loại bỏ các ký tự đặc biệt; sử dụng thư viện Pyvi để tách từ

> Word Embedding: sử dụng word2vec để huấn luyện dữ liệu trên miền dữ liệu của foody

> Mạng Long-Short Term Memory

> Mạng nơ-ron nhân tạo với các kết nối đầy đủ (fully connected) sử dụng hàm softmax để đưa ra output

4.1.3 Giai đoạn 2 - Kết nối các mô hình “học sâu” vào ứng dụng

Đưa tính năng phân tích cảm xúc vào ứng dụng bằng cách:

> Tạo một giao tiếp giữa cơ sở dữ liệu của ứng dụng Các bình luận của khách hàng sẽ được tiền xử lý và đưa qua các mô hĩnh trên để trích xuất các khía cạnh và xác định mức cảm xúc tương ứng Sau đó, lưu lại vào cơ sở dữ liệu của ứng dụng

> Dữ liệu đánh giá tự động được tổng họp và hiển thị thông qua các phương thức tương ứng

4.1.4 Giai đoạn 3 - Đánh giá hiệu quả ứng dụng

Dựa vào những kỳ vọng về lợi ích mang lại của ứng dụng, nghiên cứu thực hiện đánh giá trên hai đối tượng sử dụng, đó là:

> Khách hàng: đánh giá mức độ chấp nhận sử dụng của khách hàng đối vói ứng dụng Dựa vào dữ liệu khảo sát đại trà (chủ yếu là sinh viên và nhân viên văn phòng), nhằm xác định những yếu tố cần cải thiện trong việc xây dựng ứng dụng

> Nhà quản lý: thực hiện phỏng vấn chuyên gia đế phân tích các khó khăn và lợi ích đạt được khi triển khai ứng dụng

4.2 Hệ thống phân tích cảm xúc dựa trên khía cạnh với bộ dữ liệu tiếng Việt

4.2.1 Mô tả bài toán

Bài toán phát hiện khía cạnh trên bình luận của người dùng như sau: Cho một tập D các đoạn bình luận của người dùng với các độ dài khác nhau D={di,d2,d3, dnỊ , mục tiêu của bài toán là xác định tất cả các khía cạnh m có thể

Trang 28

được đề cập đến trong bình luận với một tập nhãn cho trước A={ai,a2,a3, amỊ và vói mỗi khía cạnh, chúng ta cần xác định trạng thái P={vey_positive, positive, neutral, negative, very_negative} Trong trường hợp bộ dữ liệu của chúng tôi thì a là tập các khía cạnh A={ quality, location, price, ambience, location, style&option, miscellaneous}

Dưới đây là ví dụ chi tiết về bài toán phát hiện khía cạnh này:

• Input: “Không gian rất thoáng mát, đồ ãn tại nhà hàng cũng ngon Đồ ãn

không đa dạng nhiều chủng loại khác nhau.”

• Output: {QUALITY, positive}, {AMBIENCE, very_positive},

{STYLE&OPTION, very_negative}

4.2.2 Phương pháp tiếp cận bài toán

Dựa trên mô tả bài toán ở mục trên, học viên tiếp cận theo bài báo của tác giả Marzieh Saeidi và các cộng sự được trình bày tại hội nghị COLING 2016 Đối với mỗi khía cạnh, chúng tôi sẽ xây dựng một mô hĩnh để phân lớp câu bình luận xem khía cạnh

đó đó có được gán hay không và trạng thái bình luận của khía cạnh đó là gĩ Đối với từng khía cạnh của mỗi bình luận, chúng tôi thiết kế đầu ra của mô hình như sau: Đầu ra là một vector 6 chiều [yi, y2, y3, y4, y5, yó] trong đó, yi có ý nghĩa là khía cạnh đó không được gán cho bình luận, y2 có ý nghĩa là khía cạnh đó được gán và cảm xúc của khía cạnh là very_positive Tưcmg tự như y3,y4,y5,y6 đại diện cho cảm xúc khía cạnh hiện tại lần lượt là positive, neutral, negative, very_negative Dưới đây là thông tin chuyển đổi đầu ra của mô hình của khía cạnh QUALITY thành kết quả cuối cùng [1, 0, 0, 0, 0, 0]: đoạn bình luận không được gán khía cạnh QUALITY [0,

1, 0, 0, 0,0]: bình luận được gián khía cạnhQUALITY,

very_positive [0, 0, 1 , 0 , 0,0]: bình luận được gián khía cạnhQUALITY, positive

[0, 0, 0, 1, 0,0]: bình luận được gián khía cạnhQUALITY, neutral

[0, 0, 0, 0, 1,0]: bình luận được gián khía cạnhQUALITY, negative

[0, 0, 0, 0, 0,1]: bình luận được gián khía cạnhQUALITY, very_negative Sau khi huấn luyện từng mô hình cho khía cạnh, học viên có tất cả 7 mô hình xác định khía cạnh và cảm xúc của khía cạnh tương ứng vói 7 nhãn

Trang 29

4.2.3 Dữ liệu

Trong luận văn này, học viên sử dụng một bộ dữ liệu được thu thập từ trang

luyện (training), tập phát triển (development), tập kiểm tra (testing) Bảng 4.1 trình bày các thống kê dữ liệu trên ba bộ dữ liệu Các bình luận này là đánh giá của khách hàng về các quán ăn, nhà hàng trên các tỉnh khác nhau và được gán các khía cạnh cụ thể, như là:

vị trí (LOCATION), chất lượng (QUALITY), cách trình bày (STYLE_OPTION), cảnh quan (AMBIENCE), giá cả (PRICES), dịch vụ (SERVICE), các mặt khác (MISCELLANEOUS) Bảng 4.2 trình bày chi tiết thống kê từng khía cạnh và cảm xúc của khía cạnh trong các bộ dữ liệu

Trang 30

quan trọng trong các bài toán phân loại trên dữ liệu văn bản Các bước xử lý tại thành phần này có nhiệm vụ xử lý, loại bỏ, chuẩn hóa các đoạn văn bản để tăng độ chính xác quá trình phân lóp Trong bài toán này, chúng tôi tiến hành các bước tiền xử lý như sau:

• Bước 1: Thay thế các từ ngữ đề cập đến một đối tượng như là giá tiền, hag tag,

ví dụ như là “100k”, “200 nghìn” sẽ được thay thế bằng từ vựng “giá tiền” Ngoài ra chúng tôi còn loại bỏ các ký tự đặc biệt, các icon được sử dụng trong bình luận

• Bước 2: Kiểm tra và xử lý các từ viết liền nhau ví dụ như (ngooon ~ ngon) và

tách các trường họp icon dính liền với từ ngữ Chúng tôi cũng loại bỏ các dấu câu, ký tự đặc biệt trong câu bình luận

• Bước 3: Cuối cùng, chúng tôi sử dụng thư viện Pyvi để tách từ các bình luận

Đây là một bước tiền xử lý quan trọng trong các bài toán xử lý văn bản tiếng Việt

Các đoạn bình luận sau khi được tiền xử lý sẽ được đưa vào mô hĩnh huấn luyện và dự đoán theo như Hĩnh 4.2

Hình 4 2 - Mô hình tổng quan của hệ thống phân tích cảm xúc trên khía cạnh

Trong đó:

• Lớp Input: là các bình luận đã được tiền xử lý sẽ được tách thành các từ vựng và

làm đầu vào cho lóp Embedding Độ dài cố định của lóp input, trong

Trang 31

trường hợp này, chúng tôi lựa chọn đoạn bình luận cho độ dài nhất là độ dài cố định

• Lớp Embedding: có mục đích chuyển mỗi từ ở lớp input thành các vector với

số chiều cố định Dựa vào các nghiên cứu trước đây, học viên quyết định lựa chọn số chiều của vector là 300 chiều

• Lớp LSTM: chúng tôi sử dụng LSTM để giải quyết các thông tin phụ thuộc xa

(long-term dependencies) giữa các từ với nhau Chúng tôi lựa chọn số unit trong lớp LSTM này là 256

• Lớp Fully Connected : Sau khi lấy được đặc trưng từ lớp LSTM, chúng tôi sử

dụng một lớp Fully connected để học các đặc trưng này để phân lóp các khía cạnh và trạng thái của khía cạnh

• Lớp Output: Đầu ra của mô hình này là một vector 6 chiều tương ứng vói 5

trạng thái cảm xúc và khía cạnh liên quan

4.3 Thiết kế ứng dụng 4.3.1 Kiến trúc tổng quát

Hình 4 3 - Kiến trúc tổng quát hệ thống

Hệ thống được thiết kế như Hình 4.3 với các thành phần chính như sau:

> Cơ sở dữ liệu: MongoDB

Trang 32

> Backend service: kết nối cơ sở dữ liệu của ứng dụng, tiến hành trích xuất khía cạnh và phân loại cảm xúc

> Trang Admin dùng để quản lý sản phẩm, thực hiện đánh giá các bĩnh luận của khách hàng

> Client Website: là nơi hiển thị kết quả phân tích cảm xúc những ý kiến của khách hàng tương ứng từng sản phẩm

Trang 33

433 Use case

Trang 34

H i

i - update database

Hình 4 9 - Cơ chế Phân tích cảm xúc của ứng dụng

Luồng xử lý Phân tích cảm xúc

- Frontend gửi yêu cầu về Backend

-ỳ Backend truy vấn dữ liệu về lưu dưói dạng text -ỳ Dữ liệu được đưa qua các bước tiền xử lý và được dự đoán bởi các mô

hình Phân tích cảm xúc

-ỳ Kết quả được ghi ra file output -ỳ Cuối cùng, cập nhật cơ sở dữ liệu và trả về cho Frontend

4.4 Phương pháp đánh giá hiệu quả của giải pháp trong thực tiễn

Quy trình đánh giá hiệu quả của giải pháp trong thực tiễn được tiến hành với hai phương pháp: thu thập ý kiến chuyên gia và đánh giá hành vi chấp nhận sử dụng của khách hàng.Quy trình nghiên cứu thu thập ý kiến chuyên gia đánh giá hiệu quả của

hệ thống

4.4.1 Phương pháp chuyên gia 4.4.1.1 Quy trình nghiên cứu

Trang 35

Hình 4.10 - Các bưởc phương pháp chuyên gia

Quỵ trình nghiên cứu trên được tiến hành gồm hai giai đoạn chính:

Giai đoan 1: Xác định các tiêu chí cần đánh giá, Các tiêu chí này liên quan đến lợi ích được mang lại kỳ vọng của hệ thống khi ứng dụng vào thực tế ứng dụng được

kỳ vọng sẽ mang lại lợi ích cho hai đối tượng chính là người tiêu dùng (người mua sản phẩm) và nhà quản lý Trong đó, đối tượng người tiêu dùng, nghiên cứu đánh giá hành

vi sử dụng của họ theo phương phảp khảo sát đại trà được trình bày phàn tiếp theo Đối với đối tượng là nhà quản lý, ứng dụng được kỳ vọng sẽ mang lại một số lợi ích như: tiết kiệm thời gian, tiết kiệm nhân công, giảm thiểu chỉ phí, Bên cạnh đỗ, những khó khăn khỉ triển khai ứng dụng cũng được tham khảo từ kết quả này Những tiêu chí này được khảo sát dựa trên một bảng câu hòi mở

> Tiết kiệm thồd gian

> Hỗ trợ các chiến dịch marketing, chăm sóc khách hàng

> Hỗ trợ việc cải tiến sản phẩm

> Những khó khăn sẽ gặp phải khỉ triển khai ứng dụng

Giai đoan 2: Nghiên cứu định tính, tiến hành thu thập dữ liệu dựa trên 2 phương pháp là phiếu câu hỏi và phỏng vấn trực tiếp Các câu trả lời được xử lý và phân tích để tìm ra những điểm lợi ích của ứng dụng mang lại, cùng với những vấn đề còn tồn tại của nó

4.4.1.2 Bảng câu hỏi

Bảng 4.3 - Bảng câu hỏi khảo sát ý kiến chuyên gia

STT Nộỉ dung câu hỏi

Câu 1 Xử lý ngôn ngữ tự nhiên đang được úng dụng để xử lý các đánh giá của

Định dạng
Số trang	70
Dung lượng	1,11 MB