Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: Ứng dụng kết quả nghiên cứu để phát triển mô hình phân tích dữ liệu và nắm bắt các quan điểm, cảm xúc cho các t
Trang 1TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ
BÁO CÁO KHOA HỌC TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
Trang 2TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ
Trang 3Danh sách thành viên
Chủ nhiệm: ThS.Nguyễn Tấn Lộc
Email: locnt@tdmu.edu.vn
ĐTDD: 0914290456
Đơn vị chủ trì: Khoa Kỹ thuật Công nghệ
Địa chỉ: 06 Trần văn Ơn, P.Phú Hòa, tp.Thủ Dầu Một, Bình Dương.
Trang 4Mục lục
Trang 5Danh mục hình
5
Trang 6Danh mục bảng
Trang 7Danh mục chữ viết tắt
TF: term frequency
IDF: inverse document frequency
TF.IDF: term frequency inverse document frequency DTM: document term matrixLogistic: hồi quy logistic
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis - Phân tích cảm xúc
Trang 8TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
Đơn vị: Khoa Kỹ thuật Công nghệ
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
- Tên đề tài: Nghiên cứu rút trích thông tin trên cơ sở phân tích cảm xúc
- Mã số:
- Chủ nhiệm: Ths.Nguyễn Tấn Lộc
- Đơn vị chủ trì: Khoa Kỹ thuật Công nghệ
- Thời gian thực hiện: 11/2016-11/2017
4 Kết quả nghiên cứu:
- Kết quả thực nghiệm dữ liệu với mô hình logistic cho độ chính xác 90%,
recall=89.8%, precision=96.9% và hệ số tối ưu chuẩn hóa cho mô hình C=0.2154
Trang 9- Trích xuất các cụm tử quan trọng cho các doanh nghiệp nhà hàng Việt Nam, Trung Quốc, Nhật Bản
- Trích xuất các doanh nghiệp nhà hàng được bình luận tốt nhất và tiêu cực nhất
5 Sản phẩm: bài báo khoa học
6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Ứng dụng kết quả nghiên cứu để phát triển mô hình phân tích dữ liệu và nắm bắt các quan điểm, cảm xúc cho các trang website Việt Nam: Tripadvisor, Lazada
Trang 10Mở đầu
1 Tính cấp thiết
- Ngôn ngữ của con người rất phức tạp Vì vậy, diễn giải ngôn ngữ cho máy tính hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng và lỗi chính là một quá trình khó khăn
- Nghiên cứu phân tích cảm xúc không chỉ tác động quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hưởng bởi ý kiến các chủ thể
2 Mục tiêu
Nghiên cứu phân loại cảm xúc và rút trích thông tin hữu ích nắm bắt các quan điểm, nâng ao sự hiểu biết cho các doanh nghiệp nhà hàng Yelp từ đó hỗ trợ ra quyết định
3 Cách tiếp cận
- Thu thập dữ liệu từ trang website Yelp
- Xử lý và lưu trữ vào kho dữ liệu
- Xây dựng mô hình dựa trên các thuật toán học máy và đánh giá hiệu suất
- Thu thập các bài báo khoa học thuộc lĩnh vực nghiên cứu
4 Phương pháp nghiên cứu
- Thu thập tài liệu của các tác giả trong, ngoài nước có liên quan đến đề tài
- Nghiên cứu và phát triển lý thuyết phục vụ đề tài
- Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp thống kê
5 Đối tượng và phạm vi nghiên cứu
- Trích xuất nội dung phi cấu trúc của trang web và lưu trữ kho dữ liệu tập trung
- Các bộ từ điển cảm xúc
- Tài liệu văn bản, câu, từ, cụm từ tiếng Anh
Trang 11- Đánh giá cảm xúc các về dịch vụ nhà hàng, các sản phẩm.
- Ngôn ngữ tiếng Anh
6 Nội dung nghiên cứu
Chương 1: Tổng quan về phân tích cảm xúc
1.1 Phân tích cảm xúc là gì?
1.2 Ứng dụng
1.3 Mục tiêu nghiên cứu
Chương 2 : Lược sử nghiên cứu và các phương pháp rút trích thông tin
2.1 Rút trích thông tin là gì?
2.2 Một số phương pháp phân tích cảm xúc
2.3 Môt số phương pháp rút trích ý kiến
Chương 3: Xây dựng các mô hình phân loại cảm xúc, rút trích thông tin
3.1 Thu thập dữ liệu
3.2 Tiền xử lý dữ liệu
3.3 Phân loại cảm xúc
3.4 Thực hiện rút trích thông tin
Chương 4: Thực nghiệm và đánh giá
4.1 Kết quả thực nghiệm phân loại cảm xúc
4.2 Kết quả thực nghiệm rút trích thông tin
Trang 12Chương 1: Tổng quan về phân tích cảm xúc
1.1Phân tích cảm xúc là gì?
Phân tích cảm xúc được ứng dụng trong nhiều ngành để trích xuất tri thức,cảm xúc và quan điểm của khách hàng Rút trích cảm xúc khách hàng có vai tròquan trọng trong quá trình ra quyết, đưa ra chiến lược kinh doanh hợp lý Nhữngquyết định này có thể từ việc mua sản phẩm trực tuyến hoặc dịch vụ ăn uống, tất
cả các cảm xúc, quan điểm ảnh hưởng rất lớn đến cuộc sống hàng ngày Rút tríchthông tin quan điểm và cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tựnhiên Nhiệm vụ trích xuất thông tin từ các dòng tin bình luận, trích dẫn để xácđịnh ý kiến, cảm xúc của người dùng về một một chủ đề cụ thể, thường cố gắngtrích cảm xúc có trong toàn bộ tài liệu là tích cực hay tiêu cực Do đó, nghiên cứuphân tích cảm xúc không chỉ tác động quan trọng trong lĩnh vực xử lý ngôn ngữ tựnhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính trị, kinh tế vàkhoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hưởng bởi ý kiến các chủ thể.Ngôn ngữ của con người rất phức tạp Vì vậy, diễn giải ngôn ngữ cho máy tínhhiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng vàlỗi chính là một quá trình khó khăn
Ngữ điệu ngôn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm chí
mô tả nó còn khó khăn hơn
Trang 13Hình 1 các trạng thái cảm xúc
Ví dụ: “ My flight was delayed Brilliant!”
Con người khá trực quan khi giải thích giai điệu của một bài viết Hầu hết mọingười giải thích rằng người bình luận cảm xúc mỉa mai, châm biếm Chúng ta biếtrằng đối với hầu hết những người có chuyến bay trễ không phải là một trải nghiệmtốt Bằng cách áp dụng ngữ cảnh này cho câu này, có thể dễ dàng xác định cảmxúc là tiêu cực
Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ "Brilliant"
Doanh nghiệp muốn đạt được tầm nhìn sâu sắc về khảo sát và tìm kiếm thông qua
Trang 14nghiên cứu thị trường, thay vì phải dành rất nhiều ngân sách và thời gian để tiếnhành các cuộc điều tra và gọi điện thoại khách hàng? Thông qua các công cụ khaithác văn bản, bạn sẽ nhận được câu trả lời trong vài giây và kết quả rất kháchquan từ mạng xã hội.
Phân tích cảm xúc có thể được xác định trên nhiều cấp độ Cấp mức tài liệu (Mộtcách nhìn tổng thể tiêu cực hoặc tích cực chung) và cảm xúc của từng từ hoặc
1.2Mục tiêu nghiên cứu
- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vựctrong đời sống
- Thực nghiện phân tích cảm xúc dựa trên các mô hình học máy
- Trích xuất các bình luận tích cực và tiêu cực nhất
- Trên cơ sở phân tích cảm xúc, chúng tôi tiến hành rút trích tri thức các đặc trừng vàcác khía cạnh của các thực thể đang được quan tâm nhằm nắm bắt khuynh hướngcảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ dịch vụ, tóm tắt ẩm thựctừng quốc gia, các món ăn phổ biến
- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của công
cụm từ trong tài liệu
Weighted Sentimen t
Phrases
Hình 2 Mô hình tính toán trọng số từ, cụm từ
Trang 15chúng về một vấn đề nào đó cần quan tâm.
1.3Các mức độ phân tích cảm xúc
Phân tích cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiện vàđược nghiên cứu ở 3 mức độ:
Mức tài liệu (Document level): Nhiệm vụ phân tích ở mức độ này là phân loại
xem nội dung chính của một tài liệu văn bản thể hiện ý kiến tích cực hay tiêucực Ví dụ, đưa ra đánh giá tổng thể một sản phẩm hay hệ thống là tích cực haytiêu cực Nhiệm vụ này thường được gọi là phân loại cảm xúc cấp tài liệu Mức
độ phân tích giả định rằng mỗi tài liệu thể hiện ý kiến về một thực thể duy nhất(một sản phẩm) Do đó, không thể áp dụng với các tài liệu so sánh và đánh giánhiều thực thể
Phân loại cảm xúc ở mức tài liệu cung cấp một ý kiến tổng thể về một thực thể,chủ đề hoặc sự kiện Tuy nhiên, mức độ phân loại này có một số hạn chế thiếusót đối với các miền ứng dụng:
• Trong nhiều ứng dụng, người dùng cần biết thêm nhiều chi tiết bổ sung, chẳnghạn : khía cạnh của các thực thể được yêu thích và không thích bởi người tiêudùng Khám phá các chi tiết rất thú vị, tuy nhiên phân tích ở mức tài liệu khôngtrích xuất các thông tin hữu ích này
• Việc phân loại tình cảm mức tài liệu không dễ áp dụng chẳng hạn như các cuộcthảo luận trên diễn đàn, blog và các bài báo Các bài đăng có thể chứa nhiều cảmxúc của nhiều thực thể
Mức câu (Sentence level): Nhiệm vụ ở cấp độ này đi vào các câu và xác định xem
mỗi câu thể hiện một ý kiến tích cực, tiêu cực hoặc trung tính Trung tính nghĩa làkhông có ý kiến Mức độ phân tích có liên quan chặt chẽ với phân loại tính chủquan
Mức thực thể và khía cạnh (Entity and Aspect level): Cả 2 mức tài liệu và mức
câu không phát hiện chính xác những gì mọi người thích và không thích Mức độ
Trang 16khía cạnh ban đầu còn có tên gọi là mức đặc trưng (feature level) [5] thực hiệnphân tích chi tiết hơn Thay vì nhìn vào cấu trúc ngôn ngữ (câu, mệnh đề hoặc cụmtừ), Mức khía cạnh trực tiếp xem xét bản chất ý kiến Dựa trên ý tưởng một ý kiếnbao gồm một mục tiêu nhất định và một cảm xúc (tích cực hoặc tiêu cực).
Phân tích mức thực thể và khía cạnh đầu vào là một tập hợp các mô tả đặc trưngkhía cạnh và nội dung thảo luận về một chủ thể cụ thể (ví dụ, một mẫu điện thoại diđộng mới, dịch vụ ăn uống) Các hệ thống khám phá các khía cạnh chính của thựcthể (món ăn tươi ngon, sạch, giá cả, phục vụ tốt hay thô lỗ hoặc sản phẩm điệnthoại 'pin', 'màn hình', giá cả ) và để ước tính chỉ số cảm xúc tổng thể của bìnhluận trên các khía cạnh (ví dụ, tính tích cực hay tiêu cực là những ý kiến có chỉ sốtrên hoặc dưới trung bình cho mỗi khía cạnh) Có 04 hướng tiếp cận chính:
- Rút trích dựa trên danh từ và cụm danh từ thường xuyên
- Rút trích bằng cách khai thác ý kiến và quan hệ mục tiêu
- Rút trích sử dụng phương pháp học có giám sát
- Rút trích sử dụng chủ đề mô hình
Các phương pháp phân tích cảm xúc dựa trên khía cạnh xuất hiện thì chủ yếu đượcdùm cho mục đích là đánh giá các sản phẩm trực tuyến
Trang 171.4Các vấn đề thách thức khó khăn
Hình 3 các vấn đề thách thức
- Đảo ngược cảm xúc: à một vấn đề quan trọng nhất cần được giải quyết trong phân
tích cảm xúc Vấn đề này phát sinh do sự dịch chuyển trạng thái phân cực như phủđịnh (ví dụ: "Tôi không thích phở") và tương phản (ví dụ "phở thì ngon, nhưngkhông phải sở thích của tôi") Câu “Tôi không thích phở” rất giống với
câu “Tôi thích phở” Vì vậy phát hiện đảo ngược phân cực có ý nghĩa rất quan trọngcho trích xuất quan điểm và cảm xúc
- Phân loại cảm xúc: các thuật toán học máy chưa phân loại được độ mạnh cảm
xúc, chỉ dừng lại tích cực hay tiêu cực Trong khi đó, cảm xúc từ các bình luậnphản ánh đa dạng và mức độ ảnh hưởng cảm xúc là khác nhau "Tích cực", "tíchcực hơn", "Tiêu cực", “ rất tiêu cực " và "trung tính" Bằng cách tăng hạng phânloại chính xác cải thiện độ chính xác làm cơ sở cho trích xuất cảm xúc
- Dữ liệu thưa: dữ liệu phát sinh từ một số nguồn giới hạn ký tự giới hạn trong vi
blog / các trang web truyền thông xã hội Chẳn hạn, giới hạn bình luận trong twitter
là 140 ký tự Chủ thể sẽ không diễn đạt ý kiến của họ một cách rõ ràng
- Tóm lại, Tất cả ba các vấn đề liên quan chặt chẽ đến tính chính xác cảm xúc và
trong một bài viết thường tồn tại các phát biểu mâu thuẫn nhau, đối với những câuvăn nói ngắn gọn hoặc không theo quy tắc, thì người nói thường lồng nhiều ý kiếnvào trong một câu
Đảo ngược cảm
xúc
Vấn đề
Phân loại tích cực và tiêu cực
Dữ liệu thưa
Trang 18Chương 2 : Lược sử nghiên cứu
ta đưa ra các quyết định hành động hợp lý
Phân tích cảm xúc
Hình 4.Các hướng tiếp cận phân tích cảm xúc
Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía cạnh, các thựcthể và xác định chủ thể Công việc khai thác tri thức giúp họ hiểu rõ hơn về khách hàng, sảnphẩm, dịch vụ đề (B Agarwal et al.,2013)[1] Mục tiêu tự động hóa trích xuất đặc trưng đốitượng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên xử lý ngôn ngữ tự nhiên từ nguồncác bình luận
Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm xúc diễn giảitrong văn bản Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia et.al.,2016)[3].(Ainur etal.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh đặc trưng đối tượng (Haochenet.al.,2015)[6]
Trong nghiên cứu này, chúng tôi phân tích cảm xúc dựa vào nguồn dữ liệu thu thập từ
Trang 19dịch vụ Yelp Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào 2004 nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng và đánh giá xếp hạng dịch vụ Hàng triệu người sử dụng dịch vụ Yelp cung cấp một khối dữ liệu khổng lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu dùng Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch vụ ẩm thực Những năm gần đây, nhiều công trình nghiên cứu tiếp cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý nghĩa.
Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ tựnhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mô hình PSDEE để phát hiện cảm xúckhông nhất quán trong văn bản Nghiên cứu này trình bày mô hình ba giai đoạn để phân loạicảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực trong các phủ định, và (3)chuyển đổi phân cực theo mô hình tổ hợp (Haochen Zhou et al.,2015)[6] xây dựng mô hìnhPOSLDA lựa chọn các đặc trưng văn bản Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động
từ, tính từ và trạng từ) và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa
và bổ sung thông tin các thực thể cụ thể (James Huang et al,.2014.) Nhóm tác giả áp dụngLatent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề
ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích thông tin chi tiết thú
vị và chắc chắn hữu ích cho chủ nhà hàng
(Ruhui Shen, et al,2016) xây dựng các mô hình hồi quy tuyến tính, hồi quy LASSO , hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến và khác các tính năng định tính được trích từ người dùng, doanh nghiệp
Trang 20Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mô hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thông tin các bình luận quan trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.
TT Tiêu đề Giải quyết vấn
Các quy tắcPSDEE và phương phápthống kê
Từ điển cảmxúc
Movie Reivew SWN(AC
C)
=77.6%
SWN(AAAVC)- 78.7%
Alchemy=
77.4%
Khó mở rộng
từ điển, không xác định được ngữ cảnh
3 Y Ainur,
Y Yisong
et al (2010)
Kết hợp trích xuất các câu hữu ích làm cơ
sở phân loại cảm xúc ở mức tài liệu
ánh mức độ cảm xúc chỉ
Ontology,ConcepNet
restaurantreview
80.1% Khó mở rộng
ontology chocác domain
Trang 21và cú pháp câu
POSLDA,MaximumEntropy classifier
hiện cho unigram
LatentDirichletAllocation(LDA)
cập
Chỉ thực hiện unigram
Mô hình tuyến tính
LocallyWeighted Regression(LOESS)
0.47769
Không phát hiện ngữ cảnh bình luận
Kỹ thuật cộng hưởng cảm xúc trước khi thực hiện phân tích cảm xúc
Chinese blog No_comp
_ssc=
88.78%
Manual_c omp_ssc=
88.5%
Kỹ thuật cộng hưởng cảm xúc chưa đạt độ chính xáccao
Bảng 1 So sánh các hướng tiếp cận phân tích cảm xúc
Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15] thựchiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa trên 22 mẫu phân tíchtrên mẫu cơ sở cú pháp (syntax-based patterns) Phương pháp phân tích của các tác giả[15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu văn bản và sử dụng mẫu
Trang 22cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ và cụm độngtừ; danh từ và cụm danh trên cơ sở cú pháp mà các tác giả đề xuất để thực hiện trích xuất.
2.2Phương pháp rút trích thông tin
Trích xuất thông tin là tìm ra các thông tin cấu trúc, thông tin cần thiết từ một tài liệu, trong khi truy vấn thông tin là tìm ra các tài liệu liên quan, hoặc một phần tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu online để phản hồi cho ngườidùng tùy vào một truy vấn cụ thể
Các công trình nghiên cứu truy vấn và rút trích thông tin hiện nay hướng tới các phương pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng với nhu cầu người dùng và tập trung vào các hướng sau
Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật ngữ chính
có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các tài liệu
Rút trích các thực thể (named entity recognition): việc rút trích ra các thực thể
tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công
ty, tên tổ chức, một địa danh, nơi chốn
Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ giữa các
thực thể đã nhận biết từ tài liệu
2.2.1 Trích rút cụm từ
Turney (2000) được xem là người đầu tiên giải quyết bài toán rút trích cáckeyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên cứu khác dùngheuristic, kỹ thuật phân tích n-gram, phương pháp như mạng Neural KEA [14] là mộtthuật toán trích xuất các cụm từ khóa (keyphrases) từ dữ liệu văn bản KEA xác địnhdanh sách các cụm ứng viên dùng các phương pháp từ vựng học, sau đó tiến hành tínhtoán giá trị đặc trưng cho mỗi ứng viên, tiếp đến dùng thuật toán học máy để tiên đoánxem các cụm ứng viên nào là các cụm từ khóa Hiện nay KEA được xem là một thuậttoán đơn giản và hiệu quả nhất để rút các keyphrases KEA dùng phương pháp học máyNaive Bayes để huấn luyện và rút trích các keyphrase