Do đó, nghiên cứu này tiếp cận việc đề xuất và xây dựng một ứng dụng đánh giá sản phẩm một cách chi tiết sử dụng công nghệ phân tích cảm xúc văn bản trong tiếng Việt với 5 mức cảm xúc..
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐÀO LÊ TRINH
ỨNG DỤNG VÀ ĐÁNH GIÁ HIỆU QUẢ GIẢI PHÁP PHÂN TÍCH CẢM XÚC VĂN BẢN TIẾNG VIỆT TRONG THƯƠNG MẠI ĐIỆN TỬ
Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ
LUẬN VĂN THẠC SĨ
TP.HỒ CHÍ MINH, tháng 8 năm 2019
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM
2 TS LÊ LAM SƠN
3 PGS.TS HUỲNH TRUNG HIẾU
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT TRƯỜNG ĐẠI HỌC BÁCH NAM Độc lập - Tự do - Hạnh phúc
KHOA
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày tháng năm sinh : 24/12/1989 Nơi sinh : Bình Định Chuyên ngành : Hệ thống thông tin quản lý Mã số : 60340405
I TÊN ĐỀ TÀI: ỨNG DỤNG VÀ ĐÁNH GIÁ HIỆU QUẢ GIẢI PHÁP PHÂN TÍCH CẢM XÚC VĂN BẢN TIẾNG VIỆT TRONG THƯƠNG MẠI ĐIỆN TỬ
II NHIỆM VỤ VÀ NỘI DUNG :
- Nghiên cứu giải pháp phân tích cảm xúc văn bản tiếng Việt
- Xây dựng ứng dụng đánh giá sản phẩm bằng phương pháp phân tích cảm xúc văn bản tiếng Việt
- Đánh giá hiệu quả của giải pháp
III NGÀY GIAO NHIỆM VỤ :
IV NGÀY HOÀN THÀNH NHIỆM vụ :
Trang 4LỜI CÁM ƠN
Trong suốt quá trình theo học chưcmg trình đào tạo Thạc sĩ tại trường Đại học Bách Khoa TP.HCM, tôi xin chân thành cảm cm sự chỉ dạy tận tình của quý Thầy Cô giảng dạy tại trường cùng các bạn, các anh chị đã cùng tôi gắn bó trong các buổi học, buổi thảo luận và các kỳ thi
Đặc biệt, tôi xin dành tình cảm sâu sắc và lòng biết cm chân thành đến Thầy PGS TS Phạm Trần Vũ, người đã dành nhiều thời gian để giúp đỡ tôi, cung cấp phưomg pháp, kiến thức cần thiết cho tôi trong suốt quá trình thực hiện luận văn Thạc sĩ này
Tôi cũng xin chân thành gửi lời cảm om đến anh Lê An Pha và anh Đặng Văn Thìn đã giúp đỡ tôi rất nhiều với những kiến thức cần thiết về học thuật cho nghiên cứu
Tôi xin chân thành cảm om đến bạn bè, đồng nghiệp, các anh chị đã giúp tôi hoàn thành khảo sát và thu thập dữ liệu thực tế cho luận văn
Chân thành cảm om!
Người thực hiện luận văn
Đào Lê Trinh
Trang 5TÓM TẮT LUẬN VĂN
• Các doanh nghiệp cần phải chăm chú lắng nghe những gì khách hàng mong muốn và cảm thấy thế nào, bởi vì họ có thể từ bỏ bạn để đến với đối thủ cạnh tranh của bạn một cách nhanh chóng
Phân tích cảm xúc (Sentiment Analysis) giống như một giải pháp mới để đảm bảo rằng doanh nghiệp đang thực sự lắng nghe những gì khách hàng nghĩ, muốn và cần Hầu hết các chuyên gia tiếp thị nghĩ rằng phưcmg tiện truyền thông mạng xã hội có tác động sâu sắc đến doanh nghiệp của họ Có nghĩa là các doanh nghiệp đang tồn tại trong một môi trường có tính cạnh tranh cao với mạng xã hội để thu hút sự chú ý của khách hàng tiềm năng của doanh nghiệp Và một giải pháp phân tích cảm xúc tối ưu có thể giúp doanh nghiệp có bước tiến xa horn
Vói nhu cầu đó, việc phân tích cảm xúc trong những năm gần đây ngày càng đóng vai trò quan trọng trong việc khai thác lượng dữ liệu cảm nhận của người dùng khổng lồ, cung cấp một cái nhìn cụ thể về hiện trạng cộng đồng khách hàng của doanh nghiệp Tiếp đó là sự phát triển về các công nghệ để xử lý, phân tích cảm xúc người dùng phát triển và được ứng dụng vào thực tế Tuy nhiên, tại thị trường Việt Nam hiện nay, việc ứng dụng các công nghệ trên để khai thác dữ liệu cảm nhận của khách hàng vẫn còn khá mới mẻ
Do đó, nghiên cứu này tiếp cận việc đề xuất và xây dựng một ứng dụng đánh giá sản phẩm một cách chi tiết sử dụng công nghệ phân tích cảm xúc văn bản trong tiếng Việt với 5 mức cảm xúc Đồng thời đề cập cụ thể đến từng khía cạnh của sản phẩm Sau đó, thông qua thực nghiệm, nghiên cứu sẽ đánh giá hiệu quả của ứng dụng đối với người dùng bằng các phưorng pháp thống kê
Trang 6In recent years, emotional has increasingly played an important role in mining the huge user experience data, providing a detailed view of the status of the customer community Followed by the development of technologies for processing and sentiment analyzing and applications to reality However, in the current market in Vietnam, the application of these technologies to exploit customer data is still relatively new
Therefore, this study approached the proposition and developed a detailed appraisal application using text-based analytical technology in Vietnamese with five levels of emotion Also mention each aspect of the product Then, through experimentation, the study will evaluate the effectiveness of the application to users by means of statistical methods
Trang 7LỜI CAM ĐOAN
Tôi tên Đào Lê Trinh, là học viên cao học ngành Hệ thống thông tin quản lý, Đại học Bách Khoa TPHCM, xin cam đoan những kết quả nghiên cứu trong luận văn này là đúng sự thật, dưới sự hướng dẫn tận tâm của PGS TS Phạm Trần Vũ
Người thực hiện luận văn
Đào Lê Trinh
Trang 8MUC LUC
• •
NHIỆM yụ LUẬN VĂN THẠC sĩ ii
LỜI CẢM ƠN iii
TÓM TẮT LUẬN VĂN iv
ABSTRACT V LỜI CAM ĐOAN vi
MỤC LỤC vii
DANH MỤC VIẾT TẮT X DANH MỤC HÌNH VÀ BẢNG X CHƯƠNG 1: GIỚI THIỆU 1
1.1 Tính cấp thiết của đề tài 1
1.2 Mục tiêu nghiên cứu 1
1.3 Đối tượng và phạm vi nghiên cứu 1
1.4
Ý nghĩa khoa học và thực tiễn của đề tài 2
1.5 Cấu trúc của luận văn 2
CHƯƠNG 2: TỔNG QUAN 4
2.1 Phân tích cảm xúc 4
2.2 Phân tích cảm xúc dựa theo khía cạnh 4
2.3 Các công trình nghiên cứu nước ngoài 5
2.4 Các công trình nghiên cứu trong nước 7
2.5 Những vấn đề tồn tại và hướng giải quyết 7
CHƯƠNG 3: Cơ SỞ LÝ THUYẾT 9
3.1 Học máy - Học sâu (Machine Learning - Deep Learning) 9
3.1.1 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) 9
3.1.2 Long Short Term Memory (LSTM) 10
3.2
Cơ sở lý thuyết về đánh giá hiệu quả của giải pháp 1
0 3.2.1
Mô hình đánh giá hành vi chấp nhận sử dụng của khách hàng 1
1
vii
Trang 94.1.1 Mục tiêu xây dựng ứng dụng 14
4.1.2 Giai đoạn 1 - Xây dựng các mô hình học sâu 15
4.1.3 Giai đoạn 2 - Ket nối các mô hình “học sâu” vào ứng dụng 15
4.1.4 Giai đoạn 3 - Đánh giá hiệu quả ứng dụng 15
4.2 Hệ thống phân tích cảm xúc dựa trên khía cạnh vói bộ dữ liệu tiếng Việt 15 4.2.1 Mô tả bài toán 15
4.2.2 Phương pháp tiếp cận bài toán 16
4.2.3 Dữ liệu 17
4.2.4 Mô hình hệ thống 17
4.3 Thiết kế ứng dụng 19
4.3.1 Kiến trúc tổng quát 19
4.3.2 Use case 21
4.4 Phương pháp đánh giá hiệu quả của giải pháp trong thực tiễn 22
4.4.1 Phương pháp chuyên gia 22
4.4.1.1 Quy trình nghiên cứu 22
4.4.1.2 Bảng câu hỏi 23
4.4.2 Phương pháp đánh giá hành vi chấp nhận sử dụng của khách hàng .25
4.4.2.1 Quy trình nghiên cứu 25
4.4.2.2 Thiết kế bảng câu hỏi và lựa chọn thang đo 26
4.4.2.3 Phưong pháp phân tích dữ liệu 28
4.4.2.4 Thảo luận kết quả 30
CHƯƠNG 5: KẾT QUẢ NGHIÊN cứu 31
5.1 Xây dựng các mô hình học sâu 31
5.1.1 Mô hình 31
5.1.2 Độ đo 31
5.1.3 Kết quả 32
5.2 ứng dụng 32
5.2.1 Trang Review 32
5.2.2 Trang Admin 34
Trang 105.3 Đánh giá hiệu quả của ứng dụng 34
5.3.1 Khảo sát ý kiến chuyên gia 35
5.3.1 Đánh giá chấp nhận sử dụng của khách hàng 36
5.2.2.1 Thống kê mô tả 36
5.2.2.2 Đánh giá độ tin cậy thang đo 38
5.2.2.3
Phân tích nhân tố khám phá EFA 40
5.2.2.4
Phân tích tuông quan p earson và hồi quy 41
5.2.2.5 Thảo luận kết quả 45
CHƯƠNG 6: KẾT LUẬN 47
6.1 Kết quả đạt được 47
6.2 Tồn tại và hạn chế 47
6.3 Hướng nghiên cứu tiếp theo 48
TÀI LIỆU THAM KHẢO 49
PHỤ LỤC 52
PHỤ LỤC 1 ĐÁNH GIÁ MÔ HÌNH HỌC SÂU 52
PHỤ LỤC 2 GÁN NHÃN DỮ LIỆU 53
PHỤ LỤC 3 Kết quả khảo sát chuyên gia 57
Trang 11DANH MỤC VIẾT TẮT
Từ viết tắt Tên đầy đủ
ML Machine Learning
ANN Artificial Neural Network
CNN Convolutional Neural Network
RNN Recurrent Neural Network
LSTM Long Short-Term Memory
TAM Technology Acceptance Model
EFA Exploratory Factor Analysis
SEM Structural Equation Analysis
CFA Confirmatory Factor Analysis
DANH MỤC HÌNH VÀ BẢNG
Hình 3 1 - Mạng nơ-ron hồi quy cơ bản 10
Hình 3 2 - Mô hình chấp nhận công nghệ - Mô hình nghiên cứu 12
Hình 4 1 - Quy trình thực hiện 14
Hình 4 2 - Mô hình tổng quan của hệ thống phân tích cảm xúc trên khía cạnh Error! Bookmark not defined Hình 4 3 - Kiến trúc tổng quát hệ thống 19
Hình 4 4 - Các Use case đối vói khách hàng 21
Hình 4 5 - Các Use case đối vói nhà quản lý 21
Hình 4 6 - Các Use case đối vói quản trị viên 21
Hình 4 7 - Các buớc phuơng pháp chuyên gia 23
Hình 4 8 - Quy trình đánh giá hành vi sử dụng ứng dụng 25
Hình 5 l - S ơ đ ồ F l phát hiện khía cạnh Error! Bookmark not defined Hình 5 2 - S ơ đ ồ F l phát hiện cảm xúc Error! Bookmark not defined Hình 5 3 - Trang review của khách hàng 33
Hình 5 4 - Sơ đồ hoạt động trang Review 33
Bảng 3 1 - Các hàm truyền thuờng sử dụng trong mạng nơ-ron 10
Bảng 4 1 - Thống kê tập dữ liệu Error! Bookmark not defined
Trang 12Bảng 4 2 - Thống kê chi tiết từng khía cạnh và cảm xúc trong các bộ dữ liệuError! Bookmark not defined
Bảng 4 3 - Bảng câu hỏi khảo sát ý kiến chuyên gia 23
Bảng 4 4 - Các biến quan sát trong mô hình 26
Bảng 5 1 - Kết quả của phưong pháp 32
Bảng 5 2 - Thống kê mô tả theo giói tính 36
Bảng 5 3 - Thống kê mô tả về độ tuổi 36
Bảng 5 4 - Thống kê mô tả về nghề nghiệp 37
Bảng 5 5 - Thống kê mô tả các biến định lượng 37
Bảng 5 6 - Phân tích Cronbach’s Alpha “Tính dễ sử dụng cảm nhận” 38
Bảng 5 7 - Phân tích Cronbach’s Alpha “Tính hữu ích cảm nhận” 38
Bảng 5 8 - Phân tích Cronbach’s Alpha cho nhân tố “Quan điểm sử dụng” 39
Bảng 5 9 - Phân tích Cronbach’s Alpha cho nhân tố “Dự định sử dụng” 39
Bảng 5 10 - Phân tích Cronbach’s Alpha cho nhân tố “Hành vi sử dụng” 40
Bảng 5 1 1 - Thống kê mô tả các nhân tố rút trích 40
Bảng 5 12 - Tuông quan biến SD -ỳ HI 41
Trang 13CHƯƠNG 1: GIỚI THIỆU
1.1 Tính cấp thiết của đề tài
Hiện nay, trên thị trường thương mại điện tử Việt Nam tồn tại rất nhiều dòng sản phẩm, nhà cung cấp Và ngưòi mua hàng sẽ gặp khó khăn khi đưa ra quyết định mua một sản phẩm trực tuyến mà không thực sự nắm rõ các tính năng hay dịch vụ của sản phẩm Với nghiên cứu này, chúng ta hỗ trợ người tiêu dùng có cái nhìn cụ thể hơn cho từng tính năng, dịch vụ của sản phẩm thông qua việc đánh giá những ý kiến nhận xét nhận xét của khách hàng
Ngoài ra, ứng dụng này được kỳ vọng sẽ mang lại lợi ích cho các nhà quản lý dịch vụ Tổng họp được các ý kiến, cảm nhận của khách hàng đối với sản phẩm của mình sẽ mang lại lợi thế cạnh tranh đáng để của các doanh nghiệp
Đặc biệt, tại thị trường Việt Nam chúng ta chưa có những ứng dụng cụ thể về việc đánh giá chất lượng của sản phẩm thông qua phân tích ý kiến đánh giá của khách hàng Do đó, việc trích xuất và đánh giá các khía của sản phẩm dựa trên ý kiến đánh giá của khách hàng bằng cách áp dụng công cụ “Phân tích cảm xúc” vẫn đang là một hướng nghiên cứu mói
1.2 Mục tiêu nghiên cứu
Nhằm ứng dụng và đánh giá các tính năng của sản phẩm thông qua phân tích những dữ liệu cảm nhận của khách hàng, chúng tôi áp dụng những kỹ thuật phân loại, trích xuất các đặc tính và sử dụng công cụ “Phân tích cảm xúc” Ket quả thu được từ nghiên cứu kỳ vọng sẽ hoàn thành những mục tiêu sau:
> Nghiên cứu và xây dựng giải pháp phân tích cảm xúc dựa theo các ý kiến của khách hàng bằng tiếng Việt
> Triển khai ứng dụng giải pháp trên vào việc đánh giá cảm xúc từng khía cạnh trong văn bản tiếng Việt
> Đánh giá hiệu quả của giải pháp phân tích cảm xúc trong thực tiễn
1.3 Đối tượng và phạm vi nghiên cửu
Phạm vi và đối tượng nghiên cứu là bộ dữ liệu về sản phấm và các ý kiến đánh giá của khách hàng trên các website thương mại điện tử phố biến hiện nay
Trang 141.4 Ý nghĩa khoa học và thực tiễn của đề tài
Với những kết quả thu được sẽ góp phần nào bổ sung thêm những luận điểm, kiến thức mới và là nguồn dữ liệu tham khảo phục vụ cho những nghiên cứu tiếp theo trong lĩnh vực này
Trong thực tiễn, những nghiên cứu trước đây, chúng ta thấy rằng, vấn đề phân tích các đánh giá của khách hàng là rất quan trọng Nếu chúng ta xử lý đủ tốt, hệ thống
sẽ góp phần bổ sung một cơ sở để hỗ trợ các chiến dịch cải tiến sản phẩm, chăm sóc khách hàng Ngoài ra, hiện nay, các chiến dịch nghiên cứu thị trường, khảo sát và thu thập phản hồi từ khách hàng đang được phổ biến rộng rãi Nếu chúng ta áp dụng hệ thống này vào thực tiến, chúng ta có thể tiết kiệm được thời gian và chi phí đáng kể cho doanh nghiệp
Bên cạnh đó, đối vói một website thương mại điện tử, tính năng này sẽ góp phần tăng tính chuyên nghiệp cho ứng dụng Đối với khách hàng, đây sẽ là công cụ cần thiết,
hỗ trợ việc đưa ra quyết định mua hàng một cách đúng đắn
Ngoài ra, khi áp dụng thành công ứng dụng đánh giá phân loại sản phẩm vào thực tế, chúng ta kỳ vọng sẽ đạt được các lợi ích dưới đây:
- Hỗ trợ quyết định mua hàng, khách hàng có cái nhìn chi tiết hơn về chất
lượng từng tính năng của sản phẩm thông qua các ý kiến đánh giá
- Doanh nghiệp có cái nhìn cụ thể hơn về đánh giá của khách hàng, kịp thời hỗ trợ và chăm sóc khách hàng
- ứng dụng và tăng tính tiện ích vào các trang thương mại điện tử
1.5 Cấu trúc của luận văn
Cấu trúc luận văn được chia thành 6 chương như sau:
Chương 1: Giới thiệu
Chương này nêu một số nội dung chính sau:
Lý do chọn đề tài
Mục tiêu, đối tượng và phạm vi nghiên cứu
Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu
Chương 2: Tổng quan
Phân tích, đánh giá các công trình nghiên cứu đã có của các tác giả trong và ngoài nước liên quan mật thiết đến đề tài; nêu những vấn đề còn tồn tại; chỉ ra những vấn đề mà đề tài cần tập trung nghiên cứu, giải quyết
Chương 3: Cơ sở lý thuyết
Trang 15Trình bày các cơ sở lý thuyết, lý luận, giả thuyết khoa học sử dụng trong luận văn
Chương 4: Thiết kế nghiên cứu
Trình bày mô hĩnh và các phương pháp nghiên cứu được sử dụng trong luận văn
Chương 5: Kết quả nghiên cứu
Mô tả quá trình tiến hành nghiên cứu khoa học Trình bày thảo luận các kết quả thu thập được trong quá trình nghiên cứu của đề tài
Chương 6: Kết luận và hưởng nghiên cứu tiếp theo Trình bày các kết quả
mói và những hạn chế của luận văn Nêu hướng nghiên cứu tiếp theo của đề tài
Trang 16CHƯƠNG 2: TỎNG QUAN
2.1 Phân tích cảm xúc
Phân tích cảm xúc (sentiment analysis) được nghiên cứu chủ yếu với 3 mức : mức câu (sentence level), mức tài liệu (document level), mức khía cạnh (aspect level)
- Phân loại cảm xúc mức tài liệu là xem xét toàn bộ tài liệu như đơn vị thông tin
và giả định rằng tài liệu có chứa ý kiến về một thực thể duy nhất, thể hiện một cách tổng quan ý kiến tích cực hoặc tiêu cực Ví dụ: một bình luận tích cực về khách sạn của khách hàng sau kỳ nghỉ dưỡng: “Tôi cảm thấy hài lòng khi ở khách sạn Tuy phòng hơi bé nhưng nhân viên rất nhiệt tình và tạo cho tôi cảm giác thoải mái.”
- Mức câu là phân loại cảm xúc từng câu riêng lẻ trong một tài liệu Có thể có câu không mang cảm xúc Thông thường, ta phân loại một câu là có ý kiến và không
có ý kiến Sau đó, kết quả câu có ý kiến được phân tích cảm xúc tích cực, tiêu cực hay trung tính
- So với mức tài liệu và mức câu, phân loại cảm xúc dựa trên khía cạnh là sự kết hợp tốt hơn Nó trích xuất và tóm tắt ý kiến về các thực thể và các khía cạnh (hay tính năng) của các thực thể Trong một đánh giá của sản phẩm, phân tích cảm xúc dựa trên khía cạnh nhằm mục đích tóm tắt các ý kiến tích cực và tiêu cực về các khía cạnh khác nhau của sản phẩm Trong ví dụ trên, “Khách sạn” là thực thể, “phòng” và “dịch vụ” là hai khía cạnh của thực thể Khía cạnh “phòng” được phân loại cảm xúc tiêu cực và “dịch vụ” được phân tích cảm xúc dựa theo khía cạnh là tích cực
Trong phần tiếp theo, nghiên cứu này tiếp cận các ứng dụng học sâu (deep learning) trong bài toán phân tích cảm xúc dựa theo khía cạnh
2.2 Phân tích cảm xúc dựa theo khía cạnh
So với phân loại cảm xúc mức tài liệu (document level) và mức câu (sentence level), việc phân loại cảm xúc dựa theo khía cạnh xem xét cả vấn đề cảm xúc lẫn khía cạnh cụ thể, và cảm xúc phải được đề cập đến một mục tiêu nào đó Mục tiêu ở đây chính là một thực thể hay là khía cạnh của thực thể đó
Tuy nhiên, việc phân loại cảm xúc dựa theo từng khía cạnh đang gặp nhiều thách thức vì rất khó để mô hình hóa các quan hệ ngữ nghĩa của một khía cạnh và
Trang 17các từ xung quanh nó Do đó, mạng nơ-ron được sử dụng để nắm bắt các mối liên kết ngữ nghĩa giữa chúng bằng cách xây dựng các mô hình học máy
Khi ứng dụng mạng nơ-ron vào bài toán phân loại cảm xúc theo khía cạnh, các nhà nghiên cứu giải quyết 3 nhiệm vụ chính:
- Nhiệm vụ thứ nhất, biểu diễn các từ ngữ cảnh trong câu hoặc trong tài liệu của một khía cạnh nào đó
- Nhiệm vụ thứ 2 là tìm ra một khía cạnh hoặc thực thể có thể tương tác đúng với ngữ cảnh trên Giải pháp đó là dùng tập nhúng mục tiêu (target embedding), tương tự như tập nhúng từ (word embedding)
- Nhiệm vụ thứ 3 là xác định các từ cảm xúc quan trọng cho khía cạnh được chỉ định Ví dụ như câu bĩnh luận: “Tuy phòng hơi bé nhưng nhân viên rất nhiệt tình và tạo cho tôi cảm giác thoải mái.” Từ “hơi bé” là từ ngữ cảnh quan trọng đối với “phòng”
Mặc dù, có rất nhiều nghiên cứu được đề xuất để giải quyết các bài toán phân loại cảm xúc theo khía cạnh, nhưng vẫn chưa có đề xuất nào mang lại hiệu quả tuyệt đối Các nghiên cứu liên quan được đề cập dưới đây
2.3 Các công trình nghiên cứu nước ngoài
Các nghiên cứu trước đây đã cố gắng thực hiện khai thác ý kiến ở các cấp độ khác nhau, cấp độ tài liệu (document level), cấp độ câu (sentence level) và cấp độ tính
năng (feature level) (B Liu, 2010) Ở cấp độ tài liệu, toàn bộ tài liệu được phân loại
thành các mức như “positive” hoặc “negative” theo cảm xúc chung được thể hiện trong văn bản Để dự đoán sự khác nhau của ý kiến được thể hiện trong tài liệu, các từ cảm xúc như “excellent”, “poor”, “enjoy” và “dislike” được dùng trong thuật toán phân loại
học máy (Sven Rill và cộng sự, 2012), hoặc các giá trị được gán thủ công để phân loại (Xiaowen Ding, Bing Liu, Philip S.Yu, 2008) Tuy nhiên, không phải lúc nào tất cả các
câu trong tài liệu đều thể hiện một ý kiến chủ quan Đe giải quyết vấn đề đó, phân loại cảm xúc cấp câu hay mệnh đề được thực hiện, bao gồm 2 nhiệm vụ: phân biệt câu chủ quan với câu khách quan và xác định sự phân cực (positive hoặc negative) của mỗi câu chủ quan
Ý kiến đánh giá một sản phẩm thường bình luận về nhiều khía cạnh khác nhau của một sản phẩm, ví dụ chất lượng của một clip và khả năng sử dụng pin của camera, hay là về chất lượng dịch vụ giao hàng Phân tích cảm xúc cấp tài liệu (document level) và cấp độ câu (sentence level) có thể xác định cảm xúc chung của tài liệu hay của một câu, nhưng nó không thế đánh giá được một tính năng riêng
Trang 18biệt được phân cực (positive hay negative) như thế nào Khi đó, một kỹ thuật khai thác
ý kiến (opinion mining technique) khác được đưa ra để xử lý những tính năng cụ thể Vấn đề này gồm 2 nhiệm vụ con, trích xuất tính năng của một sản phẩm và liên kết từng tính năng với một ý kiến cảm xúc vấn đề thứ nhất được M Hu và B Liu (2004) chỉ ra làm thế nào để trích xuất các danh từ (nouns) và cụm danh từ (noun phrases), xác định các thuật ngữ tính năng dựa vào các mấu được gắn thẻ (part-of-speech tags) và các thuật ngữ được chọn bằng cách kiểm tra tỉ số khả dĩ (likelihood-ratio test)
Tuy nhiên, các phương pháp dựa trên thống kê đơn giản không đủ trong một số trường hợp, ví dụ có nhiều hơn một đối tượng hoặc chủ đề được đề cập trong một câu
Duy Tin Vo và Zhang nghiên cứu phân loại cảm xúc trên Twitter dựa theo khía cạnh bằng cách sử dụng các tính năng tự động phong phú Đó là các tính năng bổ sung bằng phương pháp học không giám sát (unsupervised learning) Nghiên cứu chứng minh rằng việc sử dụng các tập nhúng (multiple embeddings), chức năng gộp và từ điển cảm xúc có thể cung cấp nguồn thông tin về các khía cạnh phong phú, giúp cải thiện
hiệu suất (Vo D-T, Zhang Y, 2015)
Từ khi LSTM (Long short -term memory) có thể thể hiện được mối quan hệ ngữ nghĩa giữa các khía cạnh và các từ ngữ cảnh theo nhiều cách linh hoạt hơn Tang và cộng sự đã đề xuất LSTM phụ thuộc mục tiêu (Target-Dependent LSTM, viết tắt là TD-LSTM) và LSTM kết nối mục tiêu (Target-Connection LSTM, viết tắt là TC-LSTM) nhằm mở rộng LSTM bằng cách xem xét mục tiêu trong quá trình xử lý Nghiên cứu xem xét các mục tiêu và một tính năng và kết hợp nó với các tính năng ngữ cảnh để
phân loại cảm xúc theo khía cạnh (Tang D, Qin B, Feng X, and Lỉu T, 2016)
Một giải pháp LSTM dựa trên sự “chú ý” (attention -based) với kỹ thuật nhúng mục tiêu (target embedding) được đề xuất bởi Wang và cộng sự, cải thiện hiệu quả bằng cách thực thi mô hĩnh nơ-ron và chú ý đến các thành phần liên quan của một câu Cơ chế chú ý (attention mechanism) thực thi mô hĩnh và chú ý đến các thành phần quan
trọng trong một câu, để trả lời các khía cạnh xác định (Wang Y, Huang M, Zhu X, and Zhao L, 2016)
Yang và cộng sự cũng đề xuất một mô hình LSTM dựa trên sự “chú ý” hai chiều
nhằm cải thiện hiệu suất phân loại (Yang và cộng sự, 2017) Liu và Zhang đã mở rộng
mô hình dựa trên sự “chú ý” bằng cách phân biệt bối cảnh bên trái và bối cảnh bên phải
của khía cạnh xác định (Liu và Zhang, 2017)
Trang 192.4 Các công trình nghiên cứu trong nước
Gần đây, một nghiên cứu về việc kết họp phương pháp phân tích cảm xúc dựa trên bộ từ điển và học máy cho các đánh giá của khách hàng trong tiếng Việt được Son
Trinh triển khai nghiên cứu (Son Trinh, Luu Nguyen and Minh Vo, 2018) Tác giả sử
dụng những dấu hiệu cảm xúc và giá trị của cảm xúc là những thông tin được trích xuất
từ tập dữ liệu gốc Chúng còn được gọi là các tính năng, được sử dụng để phân loại cảm xúc Để huấn luyện (train) cho quá trình phân loại, các tập dữ liệu huấn luyện cần được chuyển thành một vector chứa các tính năng đó, gọi là vector đặc trưng Đối với phân loại cấp câu (sentence level), một vector đặc trưng được hình thành dựa trên một câu
Hiện nay, việc phân tích cảm xúc văn bản trong tiếng Việt đã có một số nghiên cứu Đặc biệt, Hong Nam Nguyen đưa ra vấn đề xây dựng từ điển cảm xúc trong tiếng
Việt là rất khó và mất thời gian (Hong Nam Nguyen, Thanh Van Le, Hai Son Le, and Tran Vu Pham, 2014) Cách tiếp cận khai phá ý kiến cộng đồng bằng ngôn ngữ tiếng
Việt bằng cách sử dụng từ điển cảm xúc trong các lĩnh vực cụ thể để cải thiện độ chính xác Từ điển cảm xúc được xây dựng từng bước bằng cách sử dụng các phương pháp
thống kê cho một lĩnh vực cụ thể (Duyen, N.T, Bach, N.x, Phuong, 2014)
Rất nhiều nghiên cứu gặp phải khó khăn với những ngôn ngữ có cấu trúc phức tạp như tiếng Việt Thông thường các nhà nghiên cứu tiếp cận với hai nhiệm vụ con: trích xuất khía cạnh và phân loại cảm xúc cho khía cạnh đó Ngược lại vói xu hướng trên, Long Mai và Bac Le đã đề xuất mô hình liên kết trình tự - nhãn (sequence- labeling) với mạng nơ-ron hồi quy hai chiều và trường ngẫu nhiên có điều kiện (conditional random field - CRF) để trích xuất khía cạnh và phân tích cảm xúc một cách
đồng thời (Long Mai và Bac Le, 2018)
Ngoài ra, còn có rất nhiều nghiên cứu liên quan đến việc phân tích cảm xúc dựa trên khía cạnh sử dụng các mô hình học sâu LSTM Nghiên cứu này cũng tiếp cận giải pháp phân tích cảm xúc dựa trên khía cạnh bằng cách sử dụng mạng nơ-ron LSTM
2.5 Những vấn đề tồn tại và hướng giải quyết
Các nghiên cứu trước đây cho thấy rằng việc xử lý ngôn ngữ tự nhiên tiếng Việt còn gặp nhiều khó khăn Bên cạnh vấn đề rằng cần phải có thời gian đế xây dựng một
bộ từ điển cảm xúc cho tiếng Việt, một số kết quả bước đầu của các nghiên cứu trong
xử lý ngôn ngữ tự nhiên và phân tích cảm xúc tiếng Việt tạo tiền
Trang 20đề để chúng ra có thể ứng dụng vào các lĩnh vực kinh doanh và sản xuất trong thực tế
Hiện nay, trên thị trường Việt Nam, thương mại điện tử đang phát triển nhanh chóng Lượng người dùng tương tác với các hệ thống thương mại điện tử ngày một tăng Do đó, dữ liệu các đánh giá, nhận xét của khách hàng cũng rất phong phú Tuy nhiên, chúng ta vẫn chưa có một hệ thống có thể phân tích chi tiết rằng những bình luận trên của khách hàng đang hướng đến những khía cạnh cụ thể nào, và cảm xúc của họ ra sao Phân tích cảm xúc của khách hàng dựa trên các bình luận còn thực hiện một cách thủ công Công việc này tiêu tốn khá nhiều thời gian và tài nguyên của doanh nghiệp
Do đó, nghiên cứu này đề cập đến việc ứng dụng phân tích cảm xúc vào việc đánh giá sản phẩm trong thực tiễn
Trang 21CHƯƠNG 3: cơ SỞ LÝ THUYẾT
3.1 Học máy - Học sâu (Machine Learning - Deep Learning)
Thuật ngữ “học máy” được ra đời như là bước phát triển tiếp theo để giải quyết các bài toán mà “trí thông minh nhân tạo” đã đặt ra Ước mơ xây dựng một cỗ máy có đặc điểm giống trí thông minh của con người trong tương lai “Học máy” được tiếp cận để bắt đầu chinh phục “trí tuệ nhân tạo” từ những bài toán nhỏ hon
“Học máy” sử dụng các thuật toán phân tích dữ liệu, học hỏi từ dữ liệu đó và đưa
ra dự đoán về các vấn đề liên quan Các thuật toán được nghiên cứu ứng dụng nhiều năm qua: logic programming, clustering, reinforcement learning, and Bayesian networks Thành tựu đáng kế của “học máy” như: thị giác máy tính (computer vision), phát hiện ảnh (image detection) Tuy nhiên, những kỹ thuật trên vẫn chưa đạt được sự tin cậy cao trong các ứng dụng thực tế
Do đó, kỹ thuật “học sâu” được nghiên cứu nhằm hiện thực hóa “học máy” “Học sâu” có thể được xem là bước đột phá trong những nghiên cứu về trí thông minh nhân tạo Ý tưởng của những kỹ thuật “học sâu” dựa trên sự liên kết các nơ- ron tương tự như bộ não của con người Từ đó, “mạng nơ-ron nhân tạo” ra đòi
Ngày nay, các kỹ thuật “học máy” và “học sâu” được ứng dụng rộng rãi Trong đó
có những ứng dụng có thể thực hiện các tác vụ tốt hơn cả con ngưòi Ví dụ: máy chơi
cờ vây AlphaGo của Google DeepMind, hệ thống gọi ý của Amazon, Netflix, trợ lý ảo Siri của Apple, hệ thống tự tag khuôn mặt của Facebook
3.1.1 Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN)
Mạng nơ-ron hồi quy - RNN được ra đòi nhằm đáp ứng các yêu cầu phức tạp của các bài toàn xử lý ngôn ngữ tự nhiên
Các bài toán dạng chuỗi được giải quyết với mạng nơ-ron hồi quy RNN Trong, mạng nơ-ron truyền thống, tất cả các dữ liệu đầu vào thường được độc lập, không có liên kết với nhau Do đó, trong một số trường hợp mà dữ liệu có cấu trúc đặc biệt, hệ thống phân tích sẽ không đem lại một kết quả tốt nhất Ớ đây là bài toán xử lý ngôn ngữ
tự nhiên Các từ hoặc câu phía sau chịu ảnh hưởng ít nhiều bởi các từ trước đó
Trang 22input 1 input 2 input 3
output 1 output 2 output 3
Hình 3.1 - Mạng nơ-ron hồi quy cơ hản Bảng
3.1 - Các hàm truyền thường sử dụng trong mạng nơ-ron Linear
/0*0 = 1 + e~1 x
f ( x ) = tanh(x) = - 1
1 + e i x
for for
X < 0
X > 0
3.1.2 Long Short Term Memory (LSTM)
Long Short Term Memory là một mạng cải tiến của mạng RNN truyền thống, nhằm giải quyết vấn đề học xa
Tất cả các mạng hồi quy đều chỉ là các chuỗi các module lặp đi lặp lại Trong mạng RNN chuẩn, các module này có kiến trúc đơn giản chỉ với một tầng tanh Mạng
LSTM thường có 4 tầng tanh hoạt động tương tác với nhau trong module
3.2 Cơ sở lý thuyết về đánh giá hiệu quả của giải pháp
Nghiên cứu này đánh giá hiệu quả của giải pháp dựa trên mục tiêu kỳ vọng đã
đề ra Với sự mong đợi rằng, ứng dụng giải pháp trên sẽ mang lại tiện ích cho người sử dụng, việc đánh giá sự hài lòng của khách hàng có thể cho ta thấy hiệu quả của giải pháp khi ứng dụng vào thực tế
Trang 23Tuy nhiên, ứng dụng này vẫn chưa được phổ biến rộng rãi trong thực tế Do đó, nghiên cứu này tiếp cận theo hướng đánh giá chấp nhận sử dụng của người dùng đối với ứng dụng này Từ đó, tìm ra những yêu cầu cần thiết để cải thiện ứng dụng phù hợp horn với nhu cầu của khách hàng
Bên cạnh đó, ứng dụng giải pháp cũng được kỳ vọng sẽ mang lại lợi ích cho doanh nghiệp và nhà quản lý Do đó, nghiên cứu sử dụng phưorng pháp lấy ý kiến chuyên qua
để phân tích những khó khăn và lợi ích của giải pháp trong thực tiễn
Ngoài ra, dựa vào kết quả phân tích trên, học viên dùng ma trận SWOT xác định các chiến lược cụ thể để triển khai giải pháp này vào thực tiễn
3.2.1 Mô hình đánh giá hành vi chấp nhận sử dụng của khách hàng
Mô hình chấp nhận công nghệ (Technology Acceptance Model: TAM) được phát triển từ mô hĩnh hành động hợp lý và hành vi dự định bởi Davis (1989) để dự đoán việc chấp nhận các dịch vụ, hệ thống công nghệ thông tin Mô hình TAM cho rằng tính hữu ích cảm nhận và tính dễ sử dụng cảm nhận có ảnh hưởng tới thái độ hay quan điểm
sử dụng, quan điểm sử dụng có ảnh hưởng tới dự định và dự định tác động tới hành vi chấp nhận hệ thống thông tin thực sự Davis và cộng sự (1989) cho rằng mục đích chính của TAM là cung cấp sự giải thích về các nhân tố xác định tổng quan tói sự chấp nhận máy tính, những yếu tố có khả năng giải thích hành vi nguôi sử dụng xuyên suốt các loại công nghệ máy tính đối với người sử dụng cuối cùng và cộng đồng sử dụng Mô hình TAM cung cấp giải thích về tác động của yếu tố tin tưởng của nguôi sử dụng (tính
dễ sử dụng cảm nhận, tính hữu ích cảm nhận) tới thái độ/quan điểm và dự định sử dụng đối vói một dịch vụ hay hệ thống công nghệ thông tin Mô hình TAM có thể được mô hĩnh hóa như sau:
Trang 24Hình 3.2 - MÔ hình chấp nhận công nghệ - Mô hình nghiên cứu
(Priyanka Surendran, 2012)
Trong đó:
- Tính dễ sử dụng cảm nhận là nhận thức của khách hàng tin rằng việc sừ dụng dịch vụ hay hệ thống đặc thù không cần nhiều nỗ lực
- Tính hữu ích cảm nhận là mức độ tin tưởng của người sử dụng dịch vụ hay
hệ thống sẽ giúp nân cao kết quả thực hiện công việc của họ
- Quan điểm sử dụng được định nghĩa là cảm giác tích cực hoặc tiêu cực về việc thực hiện một hành vi mục tiêu
- Dự định sử dụng là nhận thức về xu hướng hay khả năng quyết định sử dụng dịch vụ hay hệ thống
- Hành vi sử dụng là mức độ hài lòng, khả năng sẵn sàng tiếp tục sử dụng hay mức độ cũng như tần suất sử dụng dịch vụ/hệ thống trong thực tế Hl: Tính dễ sử dụng cảm nhận cố ảnh hưởng tích cực đến tính hữu ích cảm nhận của khách hàng
H2: Tính dễ sử dụng cảm nhận có ảnh hưởng tích cực đến quan điểm sử dụng của khách hàng
Quan điểm sử dụng là sự bày tỏ về thái độ của khách hàng vái dịch vụ Quan điểm sử dụng có ảnh hưởng đến quyết định sử dụng dịch vụ hay không
H3: Tính hữu ích cảm nhận có ảnh hưởng tích cục đến quan điểm sử dụng của khách hàng
H4: Tính hữu ích cảm nhận cỏ tác động tích cục đến dự định sử dụng hệ thống đánh giá
Trang 25Tính hữu ích cảm nhận là yếu tố quyết định đến việc khách hàng có chấp nhận sử dụng dịch vụ hay không và ảnh huởng đến cả quan điểm của khách hàng về dịch vụ
H5: Quan điểm sử dụng hệ thống đánh giá có ảnh huởng tích cục đến dụ dịnh
sử dụng hệ thống đánh giá của khách hàng
H6: Nhân tố dụ định sử dụng có ảnh huởng tích cục đến hành vi sử dụng hệ
thống đánh giá
Hành vi chấp nhận sử dụng là hành động sử dụng dịch vụ thục sụ và cam kết về nhận thức duy trì việc sử dụng dịch vụ của khách hàng Hành vi quyết định sử dụng dịch vụ phụ thuộc và các thôi thúc bên trong và những tác động bên ngoài đối vói dịch
vụ Và các nghiên cứu truớc đây cho thấy rằng hành vi sử dụng chịu ảnh huởng của dụ định sử dụng rất mạnh
Ngày nay, mô hĩnh TAM đuợc xem là một trong những mô hình phổ biến nhất
để đánh giá khả năng chấp nhận đối với các dịch vụ công nghệ mới trong lĩnh vục công nghệ thông tin và viễn thông
3.2.2 Phương pháp chuyên gia
Phucmg pháp chuyên gia là một phucmg pháp phổ biến trong các sản phẩm nghiên cứu sử dụng trí tuệ của đội ngũ chuyên gia có trĩnh độ cao của một chuyên ngành để xem xét, nhận định bản chất một sụ kiện khoa học hay thục tiễn phức tạp, để tìm ra giải pháp tối uu cho các sụ kiện đó hay đánh giá một sản phảm khoa học Các yêu cầu khi sử dụng phucmg pháp:
• Chọn đúng chuyên gia, có năng lục chuyên môn theo vấn đề ta đang nghiên cứu
Những chuyên gia này phải có phẩm chất trung thục khoa học
• Xây dụng đuợc hệ thống các chuẩn đánh giá cho các tiêu chí cụ thể, dễ hiểu và
tuờng minh, nếu có thể dùng điểm số để thay thế
• Huớng dẫn kĩ thuật đánh giá, theo các thang điếm với các chuẩn khách quan,
giảm tới mức tối thiếu những sai lầm có thế xảy ra
• Hạn chế mức thấp nhất ảnh huởng qua lại của các chuyên gia về chính kiến,
quan điểm, cho nên tốt nhất là không phát biểu công khai hoặc là nếu công khai thì nguời có uy tín nhất không phải là nguời phát biếu đầu tiên
Trang 26CHƯƠNG 4: THIẾT KÉ NGHIÊN cứu
4.1 Tổng quan
Nghiên cứu được tiến hành gồm ba giai đoạn chính như sau:
Hình 4.1 - Quỵ trình thực hiện
Giai đoan 1: Xây dựng các mô hình học sâu giải quyết bài toán phân tích cảm
xúc trong tiếng Việt Sử dụng các kỹ thuật sau:
Thu thập dữ liệu Tiền xử lý dữ liệu Huấn luyện dữ liệu Xây dựng mô hình
Giai đoan 2: Kết hợp các mô hình học sâu vào ứng dụng Giai đoan 3: Đánh giả hiệu quả ứng dụng
4.1.1 Mục tiêu xây dựng ứng dụng
• Mục tiêu đầu tiên đó là huấn luyện dữ liệu xây dựng các mô hình “học sâu” dựa
trên mạng nơ-ron LSTM, nhằm giải quyết bài toán phân tích cảm xúc dựa trên khía cạnh
• Mục tiêu thứ hai đó là xây dựng một ứng dụng đánh giá sản phẩm một cách chỉ
tiết theo từng khía cạnh, mang lại hiệu quả kinh tế Tiến hành hiện thực một ứng dụng web thương mại điện tử để cố thể dễ dàng giới thiệu cho khách hàng và cho thấy tiềm năng của ứng dụng
Trang 274.1.2 Giai đoạn 1 - Xây dựng các mô hình học sâu
Các kỹ thuật xử lý dữ liệu và kỹ thuật “học sâu” để xây dựng mô hình cho bài toán phân tích cảm xúc với bộ dữ liệu tiếng Việt
> Tiền xử lý dữ liệu: sử dụng các kỹ thuật thay thế từ, ký tự đặc biệt; loại bỏ các ký tự đặc biệt; sử dụng thư viện Pyvi để tách từ
> Word Embedding: sử dụng word2vec để huấn luyện dữ liệu trên miền dữ liệu của foody
> Mạng Long-Short Term Memory
> Mạng nơ-ron nhân tạo với các kết nối đầy đủ (fully connected) sử dụng hàm softmax để đưa ra output
4.1.3 Giai đoạn 2 - Kết nối các mô hình “học sâu” vào ứng dụng
Đưa tính năng phân tích cảm xúc vào ứng dụng bằng cách:
> Tạo một giao tiếp giữa cơ sở dữ liệu của ứng dụng Các bình luận của khách hàng sẽ được tiền xử lý và đưa qua các mô hĩnh trên để trích xuất các khía cạnh và xác định mức cảm xúc tương ứng Sau đó, lưu lại vào cơ sở dữ liệu của ứng dụng
> Dữ liệu đánh giá tự động được tổng họp và hiển thị thông qua các phương thức tương ứng
4.1.4 Giai đoạn 3 - Đánh giá hiệu quả ứng dụng
Dựa vào những kỳ vọng về lợi ích mang lại của ứng dụng, nghiên cứu thực hiện đánh giá trên hai đối tượng sử dụng, đó là:
> Khách hàng: đánh giá mức độ chấp nhận sử dụng của khách hàng đối vói ứng dụng Dựa vào dữ liệu khảo sát đại trà (chủ yếu là sinh viên và nhân viên văn phòng), nhằm xác định những yếu tố cần cải thiện trong việc xây dựng ứng dụng
> Nhà quản lý: thực hiện phỏng vấn chuyên gia đế phân tích các khó khăn và lợi ích đạt được khi triển khai ứng dụng
4.2 Hệ thống phân tích cảm xúc dựa trên khía cạnh với bộ dữ liệu tiếng Việt
4.2.1 Mô tả bài toán
Bài toán phát hiện khía cạnh trên bình luận của người dùng như sau: Cho một tập D các đoạn bình luận của người dùng với các độ dài khác nhau D={di,d2,d3, dnỊ , mục tiêu của bài toán là xác định tất cả các khía cạnh m có thể
Trang 28được đề cập đến trong bình luận với một tập nhãn cho trước A={ai,a2,a3, amỊ và vói mỗi khía cạnh, chúng ta cần xác định trạng thái P={vey_positive, positive, neutral, negative, very_negative} Trong trường hợp bộ dữ liệu của chúng tôi thì a là tập các khía cạnh A={ quality, location, price, ambience, location, style&option, miscellaneous}
Dưới đây là ví dụ chi tiết về bài toán phát hiện khía cạnh này:
• Input: “Không gian rất thoáng mát, đồ ãn tại nhà hàng cũng ngon Đồ ãn
không đa dạng nhiều chủng loại khác nhau.”
• Output: {QUALITY, positive}, {AMBIENCE, very_positive},
{STYLE&OPTION, very_negative}
4.2.2 Phương pháp tiếp cận bài toán
Dựa trên mô tả bài toán ở mục trên, học viên tiếp cận theo bài báo của tác giả Marzieh Saeidi và các cộng sự được trình bày tại hội nghị COLING 2016 Đối với mỗi khía cạnh, chúng tôi sẽ xây dựng một mô hĩnh để phân lớp câu bình luận xem khía cạnh
đó đó có được gán hay không và trạng thái bình luận của khía cạnh đó là gĩ Đối với từng khía cạnh của mỗi bình luận, chúng tôi thiết kế đầu ra của mô hình như sau: Đầu ra là một vector 6 chiều [yi, y2, y3, y4, y5, yó] trong đó, yi có ý nghĩa là khía cạnh đó không được gán cho bình luận, y2 có ý nghĩa là khía cạnh đó được gán và cảm xúc của khía cạnh là very_positive Tưcmg tự như y3,y4,y5,y6 đại diện cho cảm xúc khía cạnh hiện tại lần lượt là positive, neutral, negative, very_negative Dưới đây là thông tin chuyển đổi đầu ra của mô hình của khía cạnh QUALITY thành kết quả cuối cùng [1, 0, 0, 0, 0, 0]: đoạn bình luận không được gán khía cạnh QUALITY [0,
1, 0, 0, 0,0]: bình luận được gián khía cạnhQUALITY,
very_positive [0, 0, 1 , 0 , 0,0]: bình luận được gián khía cạnhQUALITY, positive
[0, 0, 0, 1, 0,0]: bình luận được gián khía cạnhQUALITY, neutral
[0, 0, 0, 0, 1,0]: bình luận được gián khía cạnhQUALITY, negative
[0, 0, 0, 0, 0,1]: bình luận được gián khía cạnhQUALITY, very_negative Sau khi huấn luyện từng mô hình cho khía cạnh, học viên có tất cả 7 mô hình xác định khía cạnh và cảm xúc của khía cạnh tương ứng vói 7 nhãn
Trang 294.2.3 Dữ liệu
Trong luận văn này, học viên sử dụng một bộ dữ liệu được thu thập từ trang
luyện (training), tập phát triển (development), tập kiểm tra (testing) Bảng 4.1 trình bày các thống kê dữ liệu trên ba bộ dữ liệu Các bình luận này là đánh giá của khách hàng về các quán ăn, nhà hàng trên các tỉnh khác nhau và được gán các khía cạnh cụ thể, như là:
vị trí (LOCATION), chất lượng (QUALITY), cách trình bày (STYLE_OPTION), cảnh quan (AMBIENCE), giá cả (PRICES), dịch vụ (SERVICE), các mặt khác (MISCELLANEOUS) Bảng 4.2 trình bày chi tiết thống kê từng khía cạnh và cảm xúc của khía cạnh trong các bộ dữ liệu
Trang 30quan trọng trong các bài toán phân loại trên dữ liệu văn bản Các bước xử lý tại thành phần này có nhiệm vụ xử lý, loại bỏ, chuẩn hóa các đoạn văn bản để tăng độ chính xác quá trình phân lóp Trong bài toán này, chúng tôi tiến hành các bước tiền xử lý như sau:
• Bước 1: Thay thế các từ ngữ đề cập đến một đối tượng như là giá tiền, hag tag,
ví dụ như là “100k”, “200 nghìn” sẽ được thay thế bằng từ vựng “giá tiền” Ngoài ra chúng tôi còn loại bỏ các ký tự đặc biệt, các icon được sử dụng trong bình luận
• Bước 2: Kiểm tra và xử lý các từ viết liền nhau ví dụ như (ngooon ~ ngon) và
tách các trường họp icon dính liền với từ ngữ Chúng tôi cũng loại bỏ các dấu câu, ký tự đặc biệt trong câu bình luận
• Bước 3: Cuối cùng, chúng tôi sử dụng thư viện Pyvi để tách từ các bình luận
Đây là một bước tiền xử lý quan trọng trong các bài toán xử lý văn bản tiếng Việt
Các đoạn bình luận sau khi được tiền xử lý sẽ được đưa vào mô hĩnh huấn luyện và dự đoán theo như Hĩnh 4.2
Hình 4 2 - Mô hình tổng quan của hệ thống phân tích cảm xúc trên khía cạnh
Trong đó:
• Lớp Input: là các bình luận đã được tiền xử lý sẽ được tách thành các từ vựng và
làm đầu vào cho lóp Embedding Độ dài cố định của lóp input, trong
Trang 31trường hợp này, chúng tôi lựa chọn đoạn bình luận cho độ dài nhất là độ dài cố định
• Lớp Embedding: có mục đích chuyển mỗi từ ở lớp input thành các vector với
số chiều cố định Dựa vào các nghiên cứu trước đây, học viên quyết định lựa chọn số chiều của vector là 300 chiều
• Lớp LSTM: chúng tôi sử dụng LSTM để giải quyết các thông tin phụ thuộc xa
(long-term dependencies) giữa các từ với nhau Chúng tôi lựa chọn số unit trong lớp LSTM này là 256
• Lớp Fully Connected : Sau khi lấy được đặc trưng từ lớp LSTM, chúng tôi sử
dụng một lớp Fully connected để học các đặc trưng này để phân lóp các khía cạnh và trạng thái của khía cạnh
• Lớp Output: Đầu ra của mô hình này là một vector 6 chiều tương ứng vói 5
trạng thái cảm xúc và khía cạnh liên quan
4.3 Thiết kế ứng dụng 4.3.1 Kiến trúc tổng quát
Hình 4 3 - Kiến trúc tổng quát hệ thống
Hệ thống được thiết kế như Hình 4.3 với các thành phần chính như sau:
> Cơ sở dữ liệu: MongoDB
Trang 32> Backend service: kết nối cơ sở dữ liệu của ứng dụng, tiến hành trích xuất khía cạnh và phân loại cảm xúc
> Trang Admin dùng để quản lý sản phẩm, thực hiện đánh giá các bĩnh luận của khách hàng
> Client Website: là nơi hiển thị kết quả phân tích cảm xúc những ý kiến của khách hàng tương ứng từng sản phẩm
Trang 33433 Use case
Trang 34H i
i - update database
Hình 4 9 - Cơ chế Phân tích cảm xúc của ứng dụng
Luồng xử lý Phân tích cảm xúc
- Frontend gửi yêu cầu về Backend
-ỳ Backend truy vấn dữ liệu về lưu dưói dạng text -ỳ Dữ liệu được đưa qua các bước tiền xử lý và được dự đoán bởi các mô
hình Phân tích cảm xúc
-ỳ Kết quả được ghi ra file output -ỳ Cuối cùng, cập nhật cơ sở dữ liệu và trả về cho Frontend
4.4 Phương pháp đánh giá hiệu quả của giải pháp trong thực tiễn
Quy trình đánh giá hiệu quả của giải pháp trong thực tiễn được tiến hành với hai phương pháp: thu thập ý kiến chuyên gia và đánh giá hành vi chấp nhận sử dụng của khách hàng.Quy trình nghiên cứu thu thập ý kiến chuyên gia đánh giá hiệu quả của
hệ thống
4.4.1 Phương pháp chuyên gia 4.4.1.1 Quy trình nghiên cứu
Trang 35Hình 4.10 - Các bưởc phương pháp chuyên gia
Quỵ trình nghiên cứu trên được tiến hành gồm hai giai đoạn chính:
Giai đoan 1: Xác định các tiêu chí cần đánh giá, Các tiêu chí này liên quan đến lợi ích được mang lại kỳ vọng của hệ thống khi ứng dụng vào thực tế ứng dụng được
kỳ vọng sẽ mang lại lợi ích cho hai đối tượng chính là người tiêu dùng (người mua sản phẩm) và nhà quản lý Trong đó, đối tượng người tiêu dùng, nghiên cứu đánh giá hành
vi sử dụng của họ theo phương phảp khảo sát đại trà được trình bày phàn tiếp theo Đối với đối tượng là nhà quản lý, ứng dụng được kỳ vọng sẽ mang lại một số lợi ích như: tiết kiệm thời gian, tiết kiệm nhân công, giảm thiểu chỉ phí, Bên cạnh đỗ, những khó khăn khỉ triển khai ứng dụng cũng được tham khảo từ kết quả này Những tiêu chí này được khảo sát dựa trên một bảng câu hòi mở
> Tiết kiệm thồd gian
> Hỗ trợ các chiến dịch marketing, chăm sóc khách hàng
> Hỗ trợ việc cải tiến sản phẩm
> Những khó khăn sẽ gặp phải khỉ triển khai ứng dụng
Giai đoan 2: Nghiên cứu định tính, tiến hành thu thập dữ liệu dựa trên 2 phương pháp là phiếu câu hỏi và phỏng vấn trực tiếp Các câu trả lời được xử lý và phân tích để tìm ra những điểm lợi ích của ứng dụng mang lại, cùng với những vấn đề còn tồn tại của nó
4.4.1.2 Bảng câu hỏi
Bảng 4.3 - Bảng câu hỏi khảo sát ý kiến chuyên gia
STT Nộỉ dung câu hỏi
Câu 1 Xử lý ngôn ngữ tự nhiên đang được úng dụng để xử lý các đánh giá của