1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu rút trích thông tin dựa trên cơ sở phân tích cảm xúc

47 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,85 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

- Nghiên cứu phân tích cảm xúc không chỉ tác động quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính trị, kinh tế và khoa học

Trang 1

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ

BÁO CÁO KHOA HỌC TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

NGHIÊN CỨU RÚT TRÍCH THÔNG TIN DỰA TRÊN

Trang 2

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

NGHIÊN CỨU RÚT TRÍCH THÔNG TIN TRÊN CƠ SỞ

Trang 3

Danh sách thành viên

Chủ nhiệm: ThS.Nguyễn Tấn Lộc

Email: locnt@tdmu.edu.vn

ĐTDD: 0914290456

Đơn vị chủ trì: Khoa Kỹ thuật Công nghệ

Địa chỉ: 06 Trần văn Ơn, P.Phú Hòa, tp.Thủ Dầu Một, Bình Dương

Trang 4

Mục lục

Danh mục hình 1

Danh mục bảng 2

Danh mục chữ viết tắt 3

Thông tin kết quả nghiên cứu 4

Chương Mở đầu 6

Chương 1: Tổng quan về phân tích cảm xúc 8

1.1 Phân tích cảm xúc là gì? 8

1.2 Mục tiêu nghiên cứu 10

1.3 Các mức độ phân tích cảm xúc 11

1.4 Các vấn đề thách thức khó khăn 13

Chương 2 : Lược sử nghiên cứu 15

2.1 Các phương pháp phân tích cảm xúc 15

2.2 Các Phương pháp rút trích thông tin 19

2.2.1 Rút trích cụm từ 20

2.2.2 Rút trích dựa trên nhận dạng thực thể 20

2.3 Các phương pháp phân loại cảm xúc dựa trên máy học 21

2.3.1 Học có giám sát (Supervised Learning) 21

2.3.2 Học không giám sát 22

Chương 3: Xây dựng mô hình phân tích cảm xúc 24

3.1 Kiến trúc hệ thống 24

3.2 Thu thập dữ liệu 25

3.3 Tiền xử lý dữ liệu 25

3.4 Phương pháp phân tích văn bản 26

3.4.1 Mô hình N-gram 27

3.4.2 Phương pháp thống kê TF-IDF 28

3.4.3 Xây dựng mô hình huấn luyện với hồi quy logistic 29

3.4.4 Phương pháp đánh giá hiệu suất phân loại cảm xúc 30

3.4.5 Tối ưu tham số cho mô hình 31

3.5 Rút trích thông tin 32

Chương 4: Đánh giá thực nghiệm 34

Trang 5

4.1 Kết quả thực nghiệm phân loại cảm xúc 34

4.2 Kết quả thực nghiệm rút trích thông tin 35

Kết luận 37

Tài liệu tham khảo 38

Phụ lục 40

Trang 6

Danh mục hình

Hình 1 Các trạng thái cảm xúc 9

Hình 2 Mô hình tính toán trọng số từ, cụm từ 10

Hình 3 Các vấn đề thách thức 13

Hình 4 Các hướng tiếp cận phân tích cảm xúc 15

Hình 5 Kiến trúc hệ thống 24

Hình 6 Thống kê nhà hàng từng quốc gia 25

Hình 7 Mô hình hồi quy logistic 30

Hình 8 Đánh giá mô hỉnh huấn luyện và kiểm thử dữ liệu 34

Hình 9 Phân phối các từ có tần suất cao của ẩm thực Việt Nam 35

Hình 10.Các từ ảnh hưởng mạnh ẩm thực Việt 36

Hình 11.Phân phối các từ có tần suất cao của ẩm thực Nhật 36

Hình 12.Các từ ảnh hưởng mạnh ẩm thực Nhật bản 36

Hình 13.Các từ khóa có tần suất cao nhất ẩm thực Pháp 40

Hình 14.Các từ khóa có tần suất cao nhất ẩm thực Trung Quốc 41

Hình 15.Các từ khóa có tần suất cao nhất ẩm thực Ấn độ 42

Trang 7

Danh mục bảng

Bảng 1.So sánh các hướng tiếp cận phân tích cảm xúc 18

Bảng 2.Tài liệu văn bản 26

Bảng 3 Ma trận tần số các từ, cụm từ document term word 26

Bảng 4.Ma trân đánh giá hệ thống phân loại 30

Bảng 5 Các bình luận tích cực nhất cho các doanh nghiệp 32

Bảng 6.Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp Việt Nam 33

Bảng 7.Nhóm bình luận cảm xúc tiêu cực nhất cho doanh nghiệp Việt Nam 33

Bảng 8 Ma trân đánh giá phân loại cảm xúc 34

Bảng 9 Nhóm 10 từ quan trọng cảm xúc rút ra từ kết quả phân tích 35

Bảng 10.Nhóm bình luận tích cực ẩm thực Pháp 40

Bảng 11.Nhóm bình luận tích cực ẩm thực Trung Quốc 41

Bảng 12.Nhóm bình luận tích cực ẩm thực Ấn độ 42

Trang 8

Danh mục chữ viết tắt

TF: term frequency

IDF: inverse document frequency

TF.IDF: term frequency inverse document frequency

DTM: document term matrix

Logistic: hồi quy logistic

P(A): Xác xuất sự kiện A

NER: Named Entity Recognition

SoA: Sentiment analysis – Phân tích cảm xúc

Trang 9

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

Đơn vị: Khoa Kỹ thuật Công nghệ

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1 Thông tin chung:

- Tên đề tài: Nghiên cứu rút trích thông tin trên cơ sở phân tích cảm xúc

- Mã số:

- Chủ nhiệm: Ths.Nguyễn Tấn Lộc

- Đơn vị chủ trì: Khoa Kỹ thuật Công nghệ

- Thời gian thực hiện: 11/2016-11/2017

4 Kết quả nghiên cứu:

- Kết quả thực nghiệm dữ liệu với mô hình logistic cho độ chính xác 90%,

Trang 10

- Trích xuất các cụm tử quan trọng cho các doanh nghiệp nhà hàng Việt Nam, Trung Quốc, Nhật Bản…

- Trích xuất các doanh nghiệp nhà hàng được bình luận tốt nhất và tiêu cực nhất

5 Sản phẩm: bài báo khoa học

6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:

Ứng dụng kết quả nghiên cứu để phát triển mô hình phân tích dữ liệu và nắm bắt các

quan điểm, cảm xúc cho các trang website Việt Nam: Tripadvisor, Lazada…

Trang 11

Mở đầu

1 Tính cấp thiết

- Ngôn ngữ của con người rất phức tạp Vì vậy, diễn giải ngôn ngữ cho máy tính hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng

và lỗi chính là một quá trình khó khăn

- Nghiên cứu phân tích cảm xúc không chỉ tác động quan trọng trong lĩnh vực

xử lý ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hưởng bởi ý kiến các chủ thể

- Thu thập dữ liệu từ trang website Yelp

- Xử lý và lưu trữ vào kho dữ liệu

- Xây dựng mô hình dựa trên các thuật toán học máy và đánh giá hiệu suất

- Thu thập các bài báo khoa học thuộc lĩnh vực nghiên cứu

4 Phương pháp nghiên cứu

- Thu thập tài liệu của các tác giả trong, ngoài nước có liên quan đến đề tài

- Nghiên cứu và phát triển lý thuyết phục vụ đề tài

- Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp thống kê

5 Đối tượng và phạm vi nghiên cứu

- Trích xuất nội dung phi cấu trúc của trang web và lưu trữ kho dữ liệu tập trung

- Các bộ từ điển cảm xúc

- Tài liệu văn bản, câu, từ, cụm từ tiếng Anh

Trang 12

- Đánh giá cảm xúc các về dịch vụ nhà hàng, các sản phẩm

- Ngôn ngữ tiếng Anh

6 Nội dung nghiên cứu

Chương 1: Tổng quan về phân tích cảm xúc

1.1 Phân tích cảm xúc là gì?

1.2 Ứng dụng 1.3 Mục tiêu nghiên cứu

Chương 2 : Lược sử nghiên cứu và các phương pháp rút trích thông tin

2.1 Rút trích thông tin là gì?

2.2 Một số phương pháp phân tích cảm xúc 2.3 Môt số phương pháp rút trích ý kiến

Chương 3: Xây dựng các mô hình phân loại cảm xúc, rút trích thông tin

3.1 Thu thập dữ liệu 3.2 Tiền xử lý dữ liệu 3.3 Phân loại cảm xúc 3.4 Thực hiện rút trích thông tin

Chương 4: Thực nghiệm và đánh giá

4.1 Kết quả thực nghiệm phân loại cảm xúc 4.2 Kết quả thực nghiệm rút trích thông tin

Trang 13

Chương 1: Tổng quan về phân tích cảm xúc

1.1 Phân tích cảm xúc là gì?

Phân tích cảm xúc được ứng dụng trong nhiều ngành để trích xuất tri thức, cảm xúc và quan điểm của khách hàng Rút trích cảm xúc khách hàng có vai trò quan trọng trong quá trình ra quyết, đưa ra chiến lược kinh doanh hợp lý Những quyết định này có thể từ việc mua sản phẩm trực tuyến hoặc dịch vụ ăn uống, tất

cả các cảm xúc, quan điểm ảnh hưởng rất lớn đến cuộc sống hàng ngày Rút trích thông tin quan điểm và cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ

tự nhiên Nhiệm vụ trích xuất thông tin từ các dòng tin bình luận, trích dẫn để xác định ý kiến, cảm xúc của người dùng về một một chủ đề cụ thể, thường cố gắng trích cảm xúc có trong toàn bộ tài liệu là tích cực hay tiêu cực Do đó, nghiên cứu phân tích cảm xúc không chỉ tác động quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hưởng bởi ý kiến các chủ thể

Ngôn ngữ của con người rất phức tạp Vì vậy, diễn giải ngôn ngữ cho máy tính hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng và lỗi chính là một quá trình khó khăn

Ngữ điệu ngôn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm chí mô tả nó còn khó khăn hơn

Trang 14

Hình 1 các trạng thái cảm xúc

Ví dụ: “ My flight was delayed Brilliant!”

Con người khá trực quan khi giải thích giai điệu của một bài viết Hầu hết mọi người giải thích rằng người bình luận cảm xúc mỉa mai, châm biếm Chúng ta biết rằng đối với hầu hết những người có chuyến bay trễ không phải là một trải nghiệm tốt Bằng cách áp dụng ngữ cảnh này cho câu này, có thể dễ dàng xác định cảm xúc là tiêu cực

Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ

"Brilliant" và nó phân loại là tích cực

Giả sử bạn muốn biết mọi người trên Yelp nghĩ rằng thực phẩm nhà hàng Việt Nam là tốt hay xấu, món ăn nào là phổ biến nhất

Phân tích cảm xúc bộ dữ liệu nhà hàng Yelp sẽ giúp chúng ta trả lời câu hỏi này Doanh nghiệp thậm chí có thể tìm hiểu lý do tại sao mọi người nghĩ rằng thực phẩm là tốt hay xấu, bằng cách trích xuất các từ chính xác cho thấy lý do tại sao người ta hoặc không thích thức ăn Trích xuất món ăn phổ biến và các chủ đề xuất hiện nhiều nhất Doanh nghiệp ngay lập tức có một ý tưởng tốt hơn về lý do tại sao người tiêu dùng không hài lòng

Trang 15

Doanh nghiệp muốn đạt được tầm nhìn sâu sắc về khảo sát và tìm kiếm thông qua nghiên cứu thị trường, thay vì phải dành rất nhiều ngân sách và thời gian để tiến hành các cuộc điều tra và gọi điện thoại khách hàng? Thông qua các công cụ khai thác văn bản, bạn sẽ nhận được câu trả lời trong vài giây và kết quả rất khách quan từ mạng xã hội

Phân tích cảm xúc có thể được xác định trên nhiều cấp độ Cấp mức tài liệu (Một cách nhìn tổng thể tiêu cực hoặc tích cực chung) và cảm xúc của từng từ hoặc cụm từ trong tài liệu

Hình 2 Mô hình tính toán trọng số từ, cụm từ

- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực trong đời sống

- Thực nghiện phân tích cảm xúc dựa trên các mô hình học máy

- Trích xuất các bình luận tích cực và tiêu cực nhất

- Trên cơ sở phân tích cảm xúc, chúng tôi tiến hành rút trích tri thức các đặc trừng và các khía cạnh của các thực thể đang được quan tâm nhằm nắm bắt

Trang 16

khuynh hướng cảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ dịch

vụ, tóm tắt ẩm thực từng quốc gia, các món ăn phổ biến

- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của công chúng về một vấn đề nào đó cần quan tâm

1.3 Các mức độ phân tích cảm xúc

Phân tích cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiện và được nghiên cứu ở 3 mức độ:

Mức tài liệu (Document level): Nhiệm vụ phân tích ở mức độ này là phân loại

xem nội dung chính của một tài liệu văn bản thể hiện ý kiến tích cực hay tiêu cực Ví dụ, đưa ra đánh giá tổng thể một sản phẩm hay hệ thống là tích cực hay tiêu cực Nhiệm vụ này thường được gọi là phân loại cảm xúc cấp tài liệu Mức độ phân tích giả định rằng mỗi tài liệu thể hiện ý kiến về một thực thể duy nhất (một sản phẩm) Do đó, không thể áp dụng với các tài liệu so sánh và đánh giá nhiều thực thể

Phân loại cảm xúc ở mức tài liệu cung cấp một ý kiến tổng thể về một thực thể, chủ đề hoặc sự kiện Tuy nhiên, mức độ phân loại này có một số hạn chế thiếu sót đối với các miền ứng dụng:

 Trong nhiều ứng dụng, người dùng cần biết thêm nhiều chi tiết bổ sung, chẳng hạn : khía cạnh của các thực thể được yêu thích và không thích bởi người tiêu dùng Khám phá các chi tiết rất thú vị, tuy nhiên phân tích ở mức tài liệu không trích xuất các thông tin hữu ích này

 Việc phân loại tình cảm mức tài liệu không dễ áp dụng chẳng hạn như các cuộc thảo luận trên diễn đàn, blog và các bài báo Các bài đăng có thể chứa nhiều cảm xúc của nhiều thực thể

Mức câu (Sentence level): Nhiệm vụ ở cấp độ này đi vào các câu và xác định

xem mỗi câu thể hiện một ý kiến tích cực, tiêu cực hoặc trung tính Trung tính

Trang 17

nghĩa là không có ý kiến Mức độ phân tích có liên quan chặt chẽ với phân loại tính chủ quan

Mức thực thể và khía cạnh (Entity and Aspect level): Cả 2 mức tài liệu và mức

câu không phát hiện chính xác những gì mọi người thích và không thích Mức độ khía cạnh ban đầu còn có tên gọi là mức đặc trưng (feature level) [5] thực hiện phân tích chi tiết hơn Thay vì nhìn vào cấu trúc ngôn ngữ (câu, mệnh đề hoặc cụm từ), Mức khía cạnh trực tiếp xem xét bản chất ý kiến Dựa trên ý tưởng một ý kiến bao gồm một mục tiêu nhất định và một cảm xúc (tích cực hoặc tiêu cực) Phân tích mức thực thể và khía cạnh đầu vào là một tập hợp các mô tả đặc trưng khía cạnh và nội dung thảo luận về một chủ thể cụ thể (ví dụ, một mẫu điện thoại

di động mới, dịch vụ ăn uống) Các hệ thống khám phá các khía cạnh chính của thực thể (món ăn tươi ngon, sạch, giá cả, phục vụ tốt hay thô lỗ hoặc sản phẩm điện thoại 'pin', 'màn hình', giá cả…) và để ước tính chỉ số cảm xúc tổng thể của bình luận trên các khía cạnh (ví dụ, tính tích cực hay tiêu cực là những ý kiến có chỉ số trên hoặc dưới trung bình cho mỗi khía cạnh) Có 04 hướng tiếp cận chính:

- Rút trích dựa trên danh từ và cụm danh từ thường xuyên

- Rút trích bằng cách khai thác ý kiến và quan hệ mục tiêu

- Rút trích sử dụng phương pháp học có giám sát

- Rút trích sử dụng chủ đề mô hình

Các phương pháp phân tích cảm xúc dựa trên khía cạnh xuất hiện thì chủ yếu được

dùm cho mục đích là đánh giá các sản phẩm trực tuyến

Trang 18

1.4 Các vấn đề thách thức khó khăn

Hình 3 các vấn đề thách thức

- Đảo ngược cảm xúc: à một vấn đề quan trọng nhất cần được giải quyết trong

phân tích cảm xúc Vấn đề này phát sinh do sự dịch chuyển trạng thái phân cực như phủ định (ví dụ: "Tôi không thích phở") và tương phản (ví dụ "phở thì ngon, nhưng không phải sở thích của tôi") Câu “Tôi không thích phở” rất giống với

câu “Tôi thích phở” Vì vậy phát hiện đảo ngược phân cực có ý nghĩa rất quan trọng cho trích xuất quan điểm và cảm xúc

- Phân loại cảm xúc: các thuật toán học máy chưa phân loại được độ mạnh cảm

xúc, chỉ dừng lại tích cực hay tiêu cực Trong khi đó, cảm xúc từ các bình luận phản ánh đa dạng và mức độ ảnh hưởng cảm xúc là khác nhau "Tích cực",

"tích cực hơn", "Tiêu cực", “ rất tiêu cực " và "trung tính" Bằng cách tăng hạng phân loại chính xác cải thiện độ chính xác làm cơ sở cho trích xuất cảm xúc

- Dữ liệu thưa: dữ liệu phát sinh từ một số nguồn giới hạn ký tự giới hạn trong

vi blog / các trang web truyền thông xã hội Chẳn hạn, giới hạn bình luận trong twitter là 140 ký tự Chủ thể sẽ không diễn đạt ý kiến của họ một cách rõ ràng

- Tóm lại, Tất cả ba các vấn đề liên quan chặt chẽ đến tính chính xác cảm xúc và

trong một bài viết thường tồn tại các phát biểu mâu thuẫn nhau, đối với những

Vấn đề

Đảo ngược cảm

xúc

Phân loại tích cực và tiêu cực

Dữ liệu thưa

Trang 19

câu văn nói ngắn gọn hoặc không theo quy tắc, thì người nói thường lồng nhiều ý kiến vào trong một câu

Trang 20

Chương 2 : Lược sử nghiên cứu

Trong phần này, chúng tôi khảo sát các phương pháp và các hướng tiếp cận phân tích cảm xúc Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con người tạo ra nhằm chia sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và cảm xúc trải qua Mỗi khi cần đưa ra một quyết định gì, chúng ta thường tham khảo đến ý kiến của cộng đồng bằng cách tìm kiếm trên Internet Các công cụ khai phá quan điểm thực hiện một cách tự động và hệ thống trích xuất các khía cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng ta đưa ra các quyết định hành động hợp lý

Hình 4 Các hướng tiếp cận phân tích cảm xúc

Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía cạnh, các thực thể và xác định chủ thể Công việc khai thác tri thức giúp họ hiểu rõ hơn về khách hàng, sản phẩm, dịch vụ đề (B Agarwal et al.,2013)[1] Mục tiêu tự động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên

xử lý ngôn ngữ tự nhiên từ nguồn các bình luận

Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm xúc

Phân tích cảm xúc

Học máy Từ điển Ontology

Trang 21

et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh đặc trưng đối tượng (Haochen et.al.,2015)[6]

Trong nghiên cứu này, chúng tôi phân tích cảm xúc dựa vào nguồn dữ liệu thu thập từ dịch vụ Yelp Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào

2004 nhằm giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng

và đánh giá xếp hạng dịch vụ Hàng triệu người sử dụng dịch vụ Yelp cung cấp một khối dữ liệu khổng lồ và ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu dùng Do đó, các bình luận từ Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch

vụ ẩm thực Những năm gần đây, nhiều công trình nghiên cứu tiếp cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý nghĩa

Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ tự nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mô hình PSDEE để phát hiện cảm xúc không nhất quán trong văn bản Nghiên cứu này trình bày mô hình ba giai đoạn để phân loại cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực trong các phủ định, và (3) chuyển đổi phân cực theo mô hình tổ hợp (Haochen Zhou et al.,2015)[6] xây dựng mô hình POSLDA lựa chọn các đặc trưng văn bản Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động từ, tính từ và trạng từ) và các lớp cú pháp ( giới

từ, và từ liên kết), xác định các từ có ý nghĩa và bổ sung thông tin các thực thể cụ thể (James Huang et al,.2014.) Nhóm tác giả áp dụng Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích thông tin chi tiết thú vị và chắc chắn hữu ích cho chủ nhà hàng

(Ruhui Shen, et al,2016) xây dựng các mô hình hồi quy tuyến tính, hồi quy LASSO , hồi quy học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình luận hữu ích dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến và khác các tính năng định tính được trích từ người dùng, doanh nghiệp

Trang 22

Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng

mô hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thông tin các bình luận quan

trọng chứa cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia

TT Tiêu đề Giải quyết vấn

đề

Phương pháp Bộ

dữ liệu

Độ chính xác

Các quy tắc PSDEE và phương pháp thống kê

Từ điển cảm xúc

Movie Reivew SWN(AC

C)

=77.6%

SWN(AAAVC)-78.7%

Alchemy=

77.4%

Khó mở rộng

từ điển, không xác định được ngữ cảnh

3 Y Ainur,

Y Yisong

et al (2010)

Kết hợp trích xuất các câu hữu ích làm cơ

sở phân loại cảm xúc ở mức tài liệu

ánh mức độ cảm xúc chỉ

Ontology, ConcepNet

restaurant review

80.1% Khó mở rộng

ontology cho các domain

Trang 23

và cú pháp câu

POSLDA, Maximum Entropy classifier

TripAdvisor 95% Chỉ mới thực

hiện cho unigram

Latent Dirichlet Allocation (LDA)

Yelp Không đề

cập

Chỉ thực hiện unigram

Mô hình tuyến tính

Locally Weighted Regression (LOESS)

Yelp RMSLE of

0.47769

Không phát hiện ngữ cảnh bình luận

Kỹ thuật cộng hưởng cảm xúc trước khi thực hiện phân tích cảm xúc

Chinese blog No_comp

_ssc=

88.78%

Manual_comp_ssc=

88.5%

Kỹ thuật cộng hưởng cảm xúc chưa đạt độ chính xác cao

Bảng 1 So sánh các hướng tiếp cận phân tích cảm xúc

Ngày đăng: 20/07/2021, 07:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w