NGHIÊN cứu rút TRÍCH THÔNG TIN dựa TRÊN cơ sở PHÂN TÍCH cảm xúc (2)

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘTKHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THÔNG TIN DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC Mã số: Chuyên đề: Thực hiện nghiệm thu và kiểm tra độ ổn địn

Trang 1

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: NGHIÊN CỨU RÚT TRÍCH THÔNG TIN

DỰA TRÊN CƠ SỞ PHÂN TÍCH CẢM XÚC

Mã số:

Chuyên đề:

Thực hiện nghiệm thu và kiểm tra độ ổn định và

• • “ • _ • • chính xác của sản phẩm ứng dụng

Chủ nhiệm đề tài : ThS.Nguyễn Tấn Lộc

Người chủ trì thực hiện chuyên đề : ThS.Nguyễn Tấn Lộc

Bình Dương, 08/01/2018

Trang 2

Mục lục

1 Đặt vấn đề 1

2 Phương pháp nghiên cứu 1

3 Kết quả đạt được 1

3.1 Rút trích thông tin dựa trên mô hình SEN1 2

4 Kết luận và kiến nghị 5

5 Tài liệu tham khảo 5

Danh mục chữ viết tắt

TF: term frequency

IDF: inverse document frequency

TF.IDF: term frequency inverse document frequency

DTM: document term matrix

Logistic: hồi quy logistic

P(A): Xác xuất sự kiện A

NER: Named Entity Recognition

SoA: Sentiment analysis - Phân tích cảm xúc

Trang 3

1 Đặt vấn đề

- Trong phần nghiên cứu này, Chúng tôi đề xuất đo lường kết quả trên 02 mô hình

khác nhau, 02 mô hình đó được đặt tên lần lượt là SEN0, SEN1 SEN0 là mô hình

chưa chuẩn hóa, SEN1 đã chuẩn hóa L2 norm, tối ưu với hệ số chuẩn hóa

C=0.2154

2 Phương pháp nghiên cứu

- Xây dựng mô hình dựa trên lý thuyết logistic

- Tính toán hàm mất mát- Loss function

- Chuẩn hóa mô hình dùng L2-Norm và chọn lamda tối ưu tránh overfitting

3 Kết quả đạt được

Kết quả thực nghiệm dữ liệu với mô hình logistic SEN1 cho kết quả tốt nhất với độ

chính xác cao accuracy=90%, recall=89.8%, precision=96.9% và hệ số chuẩn hóa cho

mô hình tối ưu với hệ số chuẩn hóa C=0.2154

Hình 1 Đánh giá mô hỉnh huấn luyện và kiểm thử dữ liệu

Bảng 1 So sánh hiệu suất mô hỉnh

1

Trang 4

3.1 Rút trích thông tin dựa trên SEN1

Trong phần thực nghiệm này, chúng tôi rút trích thông tin hữu ích và các bình luận nằm nhóm đầu 10 được bình luận tốt nhất, nhóm 10 bình luận hàng đầu theo quốc gia:

Cain's Saloon 5 Great beer list always changing it up Follows American (New)

Olive Garden Italian Restaurant 2 In the last few years Ive tried my best to lik Italian

Olive Garden Italian Restaurant 1 I dont know what is happening to Olive Garden Italian

NYPD Pizza 5 My favorite lunch spot in the area Im from NJ Italian

Sunup Brewing 4 Nice cozy neighborhood brewery Friendly staff American (New) Murphy's Pub 4 Well its an institution here at the u of I You American (New)

Randy's Restaurant & Ice

Cream 4 I go here when i am working and want to get aw

American (New)

Filibertos Mexican Food 1 After hearing a few individuals talk about Fil Mexican

Bảng 2.Các bình luận tích cực nhất cho các doanh nghiệp

Tram's Kitchen 5 It might be a holeinthewall but its a pretty n Vietnamese Saigon Pho & Seafood 5 Fast service delicious food and excellent pric Vietnamese

Saigon Pho & Seafood 5 Saigon is by far my favorite pho stop I come h Vietnamese Cyclo Vietnamese Cuisine 4 We really like this place I love the owners Vietnamese

Bảng 2 Các bình luận cảm xúc tích cực nhất cho các doanh nghiệp Việt Nam

Trang 5

- Nhóm 10 bình luận cảm xúc tiêu cực nhất cho các nhà hàng Việt Nam, dữ liệu phản ánh khá hợp lý với xếp hạng 1 đến 3 sao

Saigon Pho & Seafood 1 Dont go to this restaurant The employees are Vietnamese Tea Light Cafe 3 First and foremost this fastfood Vietnam rest Vietnamese

Pho Minh 1 Maybe I went on a bad day but the food was pre Vietnamese

My Ngoc Restaurant 1 Theres a reason why this place has no reviews Vietnamese Saigon Pho & Seafood 1 Very VERY disappointed in the service This was Vietnamese

Cyclo Vietnamese Cuisine 1 I really dont understand what the fuss is aboil Vietnamese

Loving Hut 1 Absolutely terrible and slow service They are Vietnamese Saigon Pho & Seafood 1 We always eat here when we crave Saigon Pho To Vietnamese Saigon Pho & Seafood 1 We had dinner and had the worst experience we Vietnamese

Bảng 3.Nhóm bình luận cảm xúc tiêu cực nhất cho doanh nghiệp Việt Nam

Kết quả phân loại cảm xúc tích cực và tiêu cực ảnh hưởng rất mạnh đến kết quả rút trích thông tin Nếu kết quả phân loại chính xác, truy vấn sẽ rút trích thông tin có độ chính xác cao

Nhóm 10 từ cả m xúc mạ nh tích cự c và tiêu cự c nhấ t

r

excellent: 1.14614924052 delicious:

0.72016372024

worst: -1.13781905968 horrible: -1.0873361229 terrible: -1.04677190115 mediocre: -1.04432799702 bland: -0.874645601756 awful: -0.836073920222 tasteless: -0.821659220617 rude:

-0.820886331069 disgusting: -0.805035172104 overpriced: -0.803561081306

Bảng 4 Nhóm 10 từ cảm xúc rút ra từ kết quả phân tích

- Nhóm 20 từ phổ biến trích từ các bình luận hàng đầu thể hiện cảm xúc tích Các từ

có tần số xuất hiện cao phù hợp với thực tế Món ăn phổ biến Việt Nam là phở

3

Trang 6

Hình 3 Các từ ảnh hưởng mạnh ẩm thực Việt

- Kết quả phân loại và rút trích cảm xúc chính xác cho các nhà hàng Nhật bản, món

ăn phổ biến nhất là Sushi và tươi sống

Hình 2. Phân phối các từ có tần suất cao của ẩm thực Việt Nam

Trang 7

Hình 5.Các từ ảnh hưởng mạnh ẩm thực Nhật bản

4 Kết luận và kiến nghị

Thời gian tới đề tài tiếp tục phát triển :

- Xây dựng nhiều mô hình phân loại cảm xúc với nhiều thuật toán và mở rộng hướng tiếp cận ngữ nghĩa ontology, phương pháp từ điển, học máy từ đó so sánh các kết quả thực nghiệm để so sánh đánh giá ưu khuyết của các phương pháp cho từng trường hợp cụ thể

- Xây dựng mô hình rút trích thông tin trên cơ sở phân tích cảm xúc các trang tiếng việt về dịch vụ du lịch tripadvisor, Lazada

5 Tài liệu tham khảo

[1] B Agarwal and N Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol 7817, pp 13-24, 2013

[2] A Basant, M Namita, B Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and Context Information” Hindawi Publishing Corporation Computational Intelligence and Neuroscience (2015)

A three stage model for document-level sentiment analysis” Information Processing and Management 52 (2016) 36- 45

document-level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp 1046-1056

[5] F Noura, C Elie, A.A Rawad, H Hazem “Sentence-level and documentlevel sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data

5

Trang 8

Mining Workshops (2010).

[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the Twenty-Eighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015)

[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D (2014) Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii New Review of Hypermedia and Multimedia, 20(4), 317-340

[8] Hicks, A., Comp, S., Horovitz, J., Hovarter, M., Miki, M., & Bevan, J L (2012) Why people use Yelp com: An exploration of uses and gratifications Computers in Human Behavior, 28(6), 2274-2279

[9] Huang, J., Rogers, S., & Joo, E (2014) “Improving restaurants by extracting

subtopics from yelp reviews” iConference 2014 (Social Media Expo).

[10] Ruhui Shen, Jialiang Shen, Yuhong Li & Haohan Wang (2016), ” Predicting usefulness of Yelp reviews with localized linear regression models ”, 2016 7th IEEE International Conference on Software Engineering and Service Science (ICSESS)

[11] Solov'ev A N., Antonova A Ju., Pazel'skaia A G., (2012), Using sentiment-analysis for text information extraction I-Teco (Moscow).

Compression for spect-Based Sentiment Analysis” IEEE/ACM TRANSACTIONS

ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL 23, NO 12, DECEMBER 2015

[13] P.D Turney,(2000), “Learning algorithms for keyphrase extraction” Information Retrieval vol 2, no 4, pp 303 - 336

[14] I.H Witten, G.W Paynter, E Frank, C Gutwin and C.G Nevill- Manning (1999) “KEA: Practical automatic Keyphrase Extraction.” The proceedings of Digital Libraries '99: The Fourth ACM Conference on Digital Libraries, pp 254-255

[15] Huong Nguyen Thi Xuan, Anh Cuong Le ; Le Minh Nguyen, (2012)

”Linguistic Features for Subjectivity classification“ Asian Language Processing

Định dạng
Số trang	8
Dung lượng	110,06 KB