1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu rút trích thông tin dựa trên cơ sở phân tích cảm xúc

47 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Rút Trích Thông Tin Dựa Trên Cơ Sở Phân Tích Cảm Xúc
Tác giả ThS.Nguyễn Tấn Lộc
Trường học Trường Đại Học Thủ Dầu Một
Chuyên ngành Kỹ Thuật Công Nghệ
Thể loại báo cáo khoa học
Năm xuất bản 2018
Thành phố Bình Dương
Định dạng
Số trang 47
Dung lượng 1,85 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Chương 1: Tổng quan về phân tích cảm xúc (12)
    • 1.1 Phân tích cảm xúc là gì? (12)
    • 1.2 Mục tiêu nghiên cứu (15)
    • 1.3 Các mức độ phân tích cảm xúc (16)
    • 1.4 Các vấn đề thách thức khó khăn (18)
  • Chương 2 Lược sử nghiên cứu (12)
    • 2.1 Các phương pháp phân tích cảm xúc (20)
    • 2.2 Các Phương pháp rút trích thông tin (0)
      • 2.2.1 Rút trích cụm từ (0)
      • 2.2.2 Rút trích dựa trên nhận dạng thực thể (25)
    • 2.3 Các phương pháp phân loại cảm xúc dựa trên máy học (0)
      • 2.3.1 Học có giám sát (Supervised Learning) (26)
      • 2.3.2 Học không giám sát (27)
  • Chương 3: Xây dựng mô hình phân tích cảm xúc (29)
    • 3.1 Kiến trúc hệ thống (29)
    • 3.2 Thu thập dữ liệu (30)
    • 3.3 Tiền xử lý dữ liệu (30)
    • 3.4 Phương pháp phân tích văn bản (31)
      • 3.4.1 Mô hình N-gram (32)
      • 3.4.2 Phương pháp thống kê TF-IDF (33)
      • 3.4.3 Xây dựng mô hình huấn luyện với hồi quy logistic (34)
      • 3.4.4 Phương pháp đánh giá hiệu suất phân loại cảm xúc (35)
      • 3.4.5 Tối ƣu tham số cho mô hình (0)
    • 3.5 Rút trích thông tin (37)
  • Chương 4: Đánh giá thực nghiệm (0)
    • 4.1 Kết quả thực nghiệm phân loại cảm xúc (12)
    • 4.2 Kết quả thực nghiệm rút trích thông tin (12)
  • Kết luận (42)
  • Tài liệu tham khảo (43)
  • Phụ lục (45)

Nội dung

Tổng quan về phân tích cảm xúc

Phân tích cảm xúc là gì?

1.2 Ứng dụng 1.3 Mục tiêu nghiên cứu

Chương 2 : Lược sử nghiên cứu và các phương pháp rút trích thông tin

2.1 Rút trích thông tin là gì?

2.2 Một số phương pháp phân tích cảm xúc 2.3 Môt số phương pháp rút trích ý kiến Chương 3: Xây dựng các mô hình phân loại cảm xúc, rút trích thông tin

3.1 Thu thập dữ liệu 3.2 Tiền xử lý dữ liệu 3.3 Phân loại cảm xúc 3.4 Thực hiện rút trích thông tin Chương 4: Thực nghiệm và đánh giá

4.1 Kết quả thực nghiệm phân loại cảm xúc 4.2 Kết quả thực nghiệm rút trích thông tin

Chương 1: Tổng quan về phân tích cảm xúc

1.1 Phân tích cảm xúc là gì?

Phân tích cảm xúc là một công cụ quan trọng trong nhiều ngành, giúp trích xuất tri thức, cảm xúc và quan điểm của khách hàng Việc rút trích cảm xúc khách hàng hỗ trợ quá trình ra quyết định và xây dựng chiến lược kinh doanh hiệu quả, ảnh hưởng đến các lựa chọn như mua sắm trực tuyến hay dịch vụ ăn uống Nghiên cứu này thuộc lĩnh vực xử lý ngôn ngữ tự nhiên, tập trung vào việc phân tích các bình luận và trích dẫn để xác định ý kiến và cảm xúc của người dùng về một chủ đề cụ thể, thường nhằm phân loại cảm xúc tích cực hay tiêu cực Do đó, phân tích cảm xúc không chỉ quan trọng trong xử lý ngôn ngữ tự nhiên mà còn có tác động sâu sắc đến quản lý, chính trị, kinh tế và các lĩnh vực khoa học xã hội, vì tất cả đều bị ảnh hưởng bởi ý kiến của các chủ thể.

Ngôn ngữ con người rất phức tạp, khiến việc diễn giải để máy tính hiểu và phân tích ngữ pháp, vùng miền, ngữ cảnh, tiếng lóng và lỗi trở thành một thách thức lớn.

Ngữ điệu ngôn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm chí mô tả nó còn khó khăn hơn

Hình 1 các trạng thái cảm xúc

Ví dụ: “ My flight was delayed Brilliant!”

Con người thường trực quan trong việc giải thích giai điệu của một bài viết, và nhiều người nhận thấy rằng các bình luận thường mang tính mỉa mai, châm biếm Đặc biệt, trải nghiệm về chuyến bay trễ thường được xem là tiêu cực Do đó, khi áp dụng ngữ cảnh này, dễ dàng nhận ra rằng cảm xúc trong câu này cũng mang tính tiêu cực.

Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ

" Brilliant " và nó phân loại là tích cực

Giả sử bạn muốn biết mọi người trên Yelp nghĩ rằng thực phẩm nhà hàng Việt Nam là tốt hay xấu, món ăn nào là phổ biến nhất

Phân tích cảm xúc từ bộ dữ liệu nhà hàng Yelp cho phép doanh nghiệp hiểu rõ hơn về lý do khách hàng đánh giá thực phẩm tốt hay xấu Bằng cách trích xuất các từ khóa thể hiện cảm xúc, doanh nghiệp có thể xác định những món ăn phổ biến và các chủ đề thường gặp Điều này giúp họ nhanh chóng nhận ra nguyên nhân khiến người tiêu dùng không hài lòng.

Doanh nghiệp có thể nhanh chóng đạt được cái nhìn sâu sắc về khảo sát và tìm kiếm thông qua nghiên cứu thị trường mà không cần tốn nhiều ngân sách và thời gian cho các cuộc điều tra và gọi điện thoại Bằng cách sử dụng các công cụ khai thác văn bản, bạn sẽ nhận được câu trả lời chỉ trong vài giây cùng với kết quả khách quan từ mạng xã hội.

Phân tích cảm xúc có thể được thực hiện trên nhiều cấp độ, bao gồm cả cái nhìn tổng thể về cảm xúc tiêu cực hoặc tích cực trong tài liệu và cảm xúc của từng từ hoặc cụm từ cụ thể.

Hình 2 Mô hình tính toán trọng số từ, cụm từ

Mục tiêu nghiên cứu

- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực trong đời sống

- Thực nghiện phân tích cảm xúc dựa trên các mô hình học máy

- Trích xuất các bình luận tích cực và tiêu cực nhất

Dựa trên phân tích cảm xúc, chúng tôi tiến hành trích xuất tri thức về các đặc trưng và khía cạnh của các thực thể quan tâm nhằm nắm bắt thông tin chính xác.

11 khuynh hướng cảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ dịch vụ, tóm tắt ẩm thực từng quốc gia, các món ăn phổ biến

- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của công chúng về một vấn đề nào đó cần quan tâm.

Các mức độ phân tích cảm xúc

Phân tích cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiện và đƣợc nghiên cứu ở 3 mức độ:

Mức tài liệu (Document level) trong phân tích cảm xúc tập trung vào việc xác định xem nội dung chính của một tài liệu thể hiện ý kiến tích cực hay tiêu cực Nhiệm vụ này thường được gọi là phân loại cảm xúc cấp tài liệu, ví dụ như đánh giá tổng thể về một sản phẩm hay hệ thống Phân tích này giả định rằng mỗi tài liệu chỉ phản ánh ý kiến về một thực thể duy nhất, vì vậy không áp dụng cho các tài liệu so sánh hoặc đánh giá nhiều thực thể cùng lúc.

Phân loại cảm xúc ở mức tài liệu cung cấp cái nhìn tổng quát về một thực thể, chủ đề hoặc sự kiện, nhưng phương pháp này cũng gặp phải một số hạn chế trong các ứng dụng thực tiễn.

Trong nhiều ứng dụng, người dùng thường cần thông tin bổ sung về các khía cạnh yêu thích và không thích của thực thể Mặc dù việc khám phá các chi tiết này rất thú vị, nhưng phân tích tài liệu hiện tại không thể trích xuất những thông tin hữu ích này.

Việc phân loại cảm xúc trong các tài liệu như diễn đàn, blog và bài báo là một thách thức, vì những bài đăng này thường chứa nhiều cảm xúc từ nhiều thực thể khác nhau.

Mức câu (Sentence level) tập trung vào việc phân tích từng câu để xác định xem chúng thể hiện ý kiến tích cực, tiêu cực hay trung tính Việc phân loại này giúp hiểu rõ hơn về cảm xúc và thái độ trong văn bản.

12 nghĩa là không có ý kiến Mức độ phân tích có liên quan chặt chẽ với phân loại tính chủ quan

Mức thực thể và khía cạnh trong phân tích ý kiến không chỉ dừng lại ở việc phát hiện những sở thích và không thích của mọi người, mà còn đi sâu vào chi tiết hơn thông qua mức khía cạnh, hay còn gọi là mức đặc trưng Mức khía cạnh tập trung vào bản chất của ý kiến, xem xét từng mục tiêu cụ thể cùng với cảm xúc tích cực hoặc tiêu cực liên quan đến chúng, thay vì chỉ phân tích cấu trúc ngôn ngữ như câu hay cụm từ.

Phân tích mức thực thể và khía cạnh đầu vào tập trung vào việc mô tả các đặc trưng và nội dung thảo luận về một chủ thể cụ thể như điện thoại di động hoặc dịch vụ ăn uống Các hệ thống này khám phá các khía cạnh quan trọng của thực thể, chẳng hạn như chất lượng món ăn, giá cả, và thái độ phục vụ, nhằm ước tính chỉ số cảm xúc tổng thể từ các bình luận Có bốn hướng tiếp cận chính trong việc phân tích này, giúp xác định tính tích cực hay tiêu cực của ý kiến dựa trên các chỉ số so với mức trung bình cho từng khía cạnh.

- Rút trích dựa trên danh từ và cụm danh từ thường xuyên

- Rút trích bằng cách khai thác ý kiến và quan hệ mục tiêu

- Rút trích sử dụng phương pháp học có giám sát

- Rút trích sử dụng chủ đề mô hình

Các phương pháp phân tích cảm xúc dựa trên khía cạnh xuất hiện thì chủ yếu được dùm cho mục đích là đánh giá các sản phẩm trực tuyến

Lược sử nghiên cứu

Các phương pháp phân tích cảm xúc

Trong phần này, chúng tôi khảo sát các phương pháp phân tích cảm xúc, nhấn mạnh rằng dữ liệu văn bản chứa đựng tri thức quý giá từ kinh nghiệm, ý kiến và cảm xúc của con người Khi cần đưa ra quyết định, chúng ta thường tìm kiếm ý kiến cộng đồng qua Internet Các công cụ khai phá quan điểm thực hiện việc này một cách tự động, giúp trích xuất các khía cạnh liên quan đến vấn đề cụ thể, từ đó hỗ trợ chúng ta đưa ra các quyết định hành động hợp lý.

Hình 4 Các hướng tiếp cận phân tích cảm xúc

Nhiệm vụ phân tích cảm xúc nhằm xác định quan điểm, đặc trưng khía cạnh và thực thể, từ đó giúp hiểu rõ hơn về khách hàng, sản phẩm và dịch vụ (B Agarwal et al., 2013)[1] Mục tiêu của việc tự động hóa trích xuất đặc trưng đối tượng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên xử lý ngôn ngữ tự nhiên từ các bình luận.

Mục tiêu chính của việc phân loại cảm xúc là đánh giá và xếp hạng các chỉ số cảm xúc được diễn giải trong văn bản Quá trình này được thực hiện qua ba mức độ khác nhau.

Học máy Từ điển Ontology

16 et.al.,2016)[3].(Ainur et al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh đặc trƣng đối tƣợng (Haochen et.al.,2015)[6]

Trong nghiên cứu này, chúng tôi thực hiện phân tích cảm xúc sử dụng dữ liệu thu thập từ dịch vụ Yelp Yelp, một tập đoàn đa quốc gia của Hoa Kỳ, đã được thành lập nhằm cung cấp đánh giá và thông tin về các doanh nghiệp địa phương.

Yelp, được thành lập vào năm 2004, đã giúp người dùng định vị doanh nghiệp và đánh giá dịch vụ qua mạng xã hội Với hàng triệu người sử dụng, Yelp cung cấp một khối lượng dữ liệu khổng lồ, ảnh hưởng lớn đến quyết định chọn lựa thực phẩm của người tiêu dùng Các bình luận trên Yelp trở thành chỉ số quan trọng để đánh giá chất lượng dịch vụ trong ngành ẩm thực Gần đây, nhiều nghiên cứu đã được thực hiện để khai thác dữ liệu, rút trích cảm xúc và diễn giải ý nghĩa từ những phản hồi này.

Phương pháp học máy đang được áp dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên RuiXia et al (2016) đã đề xuất mô hình PSDEE để phát hiện cảm xúc không nhất quán trong văn bản thông qua ba giai đoạn: phát hiện chuyển đổi phân cực, loại bỏ phân cực trong các phủ định, và chuyển đổi phân cực theo mô hình tổ hợp Haochen Zhou et al (2015) đã xây dựng mô hình POSLDA để lựa chọn các đặc trưng văn bản, tách biệt các lớp ngữ nghĩa và cú pháp, xác định từ có ý nghĩa và bổ sung thông tin cho các thực thể cụ thể James Huang et al (2014) đã áp dụng Latent Dirichlet Allocation (LDA) để khám phá các chủ đề ẩn, dự đoán xếp hạng sao cho mỗi chủ đề và liên hệ thông tin thời gian cao điểm của nhà hàng, từ đó rút trích thông tin chi tiết hữu ích cho chủ nhà hàng.

Ruhui Shen và các cộng sự (2016) đã phát triển các mô hình hồi quy tuyến tính, hồi quy LASSO, hồi quy học máy vector (SVM) cùng với thước đo RMSLE nhằm dự đoán và trích xuất các bình luận hữu ích Nghiên cứu này dựa trên cơ sở túi từ BOW (Bag of Words), kết hợp các yếu tố ngôn ngữ, địa lý, thống kê, độ phổ biến và các tính năng định tính khác được thu thập từ người dùng và doanh nghiệp.

Trong nghiên cứu này, chúng tôi thực hiện hai giai đoạn: đầu tiên là xây dựng mô hình hồi quy logistic để phân loại cảm xúc, và thứ hai là trích xuất thông tin từ các bình luận quan trọng liên quan đến cảm xúc tích cực và tiêu cực về ẩm thực theo từng quốc gia.

TT Tiêu đề Giải quyết vấn đề

Phương pháp Bộ dữ liệu Độ chính xác

Dịch chuyển phân cực cảm xúc

Các quy tắc PSDEE và phương pháp thống kê

Movie Reivew 87.1% Độ chính xác chƣa cao

Dịch chuyển phân cực cảm xúc và độ chính xác

Khó mở rộng từ điển, không xác định đƣợc ngữ cảnh

Kết hợp trích xuất các câu hữu ích làm cơ sở phân loại cảm xúc ở mức tài liệu

SVM Movie Reviews 92.2% Không phản ánh mức độ cảm xúc chỉ có tích cực và tiêu cực

M Namita dựa trên các thông tin phổ biến và ngữ

80.1% Khó mở rộng ontology cho các domain

Topic modelling, Lựa chọn các đặc trƣng, chia tách ngữ nghĩa và cú pháp câu

TripAdvisor 95% Chỉ mới thực hiện cho unigram

Phát hiện chủ đề phụ - Topic modelling

Dự đoán và trích lọc các bình luận hữu ích cho các nhà hàng địa phương

Mô hình tuyến tính Locally Weighted Regression (LOESS)

Không phát hiện ngữ cảnh bình luận

Zhao,Hong lei, et al

Các vấn đề chuyển đổi cú pháp câu

Kỹ thuật cộng hưởng cảm xúc trước khi thực hiện phân tích cảm xúc

Kỹ thuật cộng hưởng cảm xúc chƣa đạt độ chính xác cao

Bảng 1 So sánh các hướng tiếp cận phân tích cảm xúc

Nhóm tác giả Huong Nguyen Thi Xuan và Anh Cuong Le (2012) đã thực hiện phân loại câu văn dựa trên cảm xúc thông qua 22 mẫu phân tích dựa vào cấu trúc cú pháp Phương pháp của họ tập trung vào phân tích từ vựng để xác định loại từ trong câu, đồng thời sử dụng các mẫu cú pháp để nhận diện tính từ, cụm tính từ, trợ động từ, động từ, cụm động từ, danh từ và cụm danh từ, nhằm phục vụ cho quá trình trích xuất thông tin.

2.2 Phương pháp rút trích thông tin

Trích xuất thông tin là quá trình tìm kiếm các thông tin cấu trúc và cần thiết từ tài liệu, trong khi truy vấn thông tin tập trung vào việc xác định các tài liệu hoặc phần tài liệu liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu trực tuyến, nhằm cung cấp phản hồi cho người dùng dựa trên một truy vấn cụ thể.

Các nghiên cứu hiện nay về truy vấn và rút trích thông tin đang tập trung vào việc tối ưu hóa phương pháp nhằm cải thiện độ chính xác của kết quả phản hồi, đáp ứng tốt hơn nhu cầu của người dùng.

Rút trích các thuật ngữ là quá trình tìm kiếm và xác định các thuật ngữ chính có liên quan, thể hiện ngữ nghĩa và nội dung của tài liệu hoặc một tập hợp tài liệu Việc này giúp làm nổi bật các chủ đề chính, từ đó hỗ trợ việc phân tích và hiểu sâu hơn về nội dung tài liệu.

Rút trích các thực thể (named entity recognition) là quá trình nhận diện và trích xuất các đối tượng quan trọng như tên người, tên công ty, tên tổ chức và địa danh Phương pháp này giúp xác định và phân loại các thực thể trong văn bản, từ đó hỗ trợ trong việc xử lý và phân tích dữ liệu hiệu quả hơn.

Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ giữa các thực thể đã nhận biết từ tài liệu

Turney (2000) được coi là người tiên phong trong việc giải quyết bài toán rút trích keyphrase bằng phương pháp học giám sát Trong khi đó, nhiều nghiên cứu khác áp dụng các phương pháp heuristic, kỹ thuật phân tích n-gram và mạng Neural để thực hiện nhiệm vụ này.

KEA là một thuật toán hiệu quả trong việc trích xuất các cụm từ khóa từ dữ liệu văn bản Nó xác định danh sách các ứng viên bằng các phương pháp từ vựng học, sau đó tính toán giá trị đặc trưng cho từng ứng viên Cuối cùng, KEA sử dụng thuật toán học máy Nạve Bayes để dự đoán các cụm từ khóa tiềm năng Hiện nay, KEA được công nhận là một trong những thuật toán đơn giản và hiệu quả nhất trong lĩnh vực này.

2.2.2 Rút trích dựa trên nhận dạng thực thể

Các phương pháp phân loại cảm xúc dựa trên máy học

chính xác rất cao Một số ứng dụng nhận diện thực thể đƣợc công bố nhƣ: Standford NER, OpenNLP, NETTagger, GATE

Sau khi nhận diện các thực thể có tên, bước tiếp theo là gán nhãn cho chúng Loại nhãn và số lượng nhãn rất đa dạng, tùy thuộc vào mục đích của ứng dụng Các loại nhãn thực thể bao gồm nhiều dạng khác nhau.

 Con người : tên người và họ, bí danh, nghệ danh,

 Tổ chức: tên tổ chức, cơ quan, chính phủ, công ty, các thực thể mang tính tổ chức

 Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ đạo, cấu trúc địa điểm, các loại công trình

 Thời gian: biểu thức về thời gian trong ngày

 Tiền tệ: biểu thức tiền tệ

Một số nghiên cứu chỉ chú trọng vào việc xác định và gán nhãn ba loại nhãn chính: con người, tổ chức và địa điểm, vì các nhãn khác thường dễ nhận diện thông qua từ điển và đặc trưng ngôn ngữ.

2.3 Phương pháp phân loại cảm xúc dựa trên học máy

2.3.1 Học có giám sát (Supervised Learning)

Phương pháp học có giám sát là một kỹ thuật trong Khoa học máy tính, nhằm xây dựng hàm từ dữ liệu huấn luyện Dữ liệu này bao gồm các cặp đối tượng đầu vào (thường ở dạng vector) và đầu ra mong muốn Đầu ra của hàm sẽ dự đoán nhãn cho một đối tượng cụ thể.

Các bước thực hiện một bài toán:

Để thực hiện phân lớp, cần chuẩn bị một tập dữ liệu huấn luyện đã được gán nhãn, đây là bước quan trọng trong quá trình thu thập dữ liệu.

Chọn một thuật toán phân lớp để xây dựng mô hình học từ dữ liệu huấn luyện, tức là sử dụng tập dữ liệu đã được gán nhãn để đào tạo chương trình phân lớp Thuật ngữ "học có giám sát" đề cập đến quá trình học với dữ liệu đã được gán nhãn trước, trong đó các nhãn tương ứng coi như đã được giám sát.

Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước là cách hiệu quả để xác định tính chính xác của mô hình Sau khi kiểm tra, mô hình có thể được áp dụng để phân lớp cho dữ liệu mới một cách chính xác.

Một vài thuật toán học giám sát :

 Thuật tốn hồi quy logistic, Nạve Bayes

 Thuật toán Máy vector hỗ trợ (Support Vector Machine)

 Phương pháp K láng giềng gần nhất (K Nearest Neighbours – KNN)

Học không có giám sát là một phương pháp trong lĩnh vực học máy, nhằm tìm ra mô hình phù hợp với các quan sát từ một tập dữ liệu đầu vào chưa được gán nhãn Phương pháp này thường xử lý các đối tượng đầu vào như các biến ngẫu nhiên và xây dựng một mô hình kết hợp cho tập dữ liệu đó Học không giám sát thường được áp dụng trong các bài toán gom cụm và phân cụm (Clustering).

Các bước để giải quyết một bài toán học không giám sát:

Để thực hiện phân cụm, trước tiên cần có một tập dữ liệu huấn luyện, bao gồm các ví dụ học Mỗi ví dụ học sẽ chứa thông tin biểu diễn, chẳng hạn như một vector các giá trị.

23 thuộc tính), mà không có bất kỳ thông tin gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output)

Áp dụng thuật toán học không giám sát như k-Means giúp xây dựng mô hình mục tiêu, cụ thể là hàm phân cụm tương ứng với thuật toán đã chọn.

Để đánh giá hiệu năng và chất lượng của hàm mục tiêu đã học, cần sử dụng một phương pháp thử nghiệm, có thể kết hợp với một tập dữ liệu đã được gán nhãn.

Một số thuật toán học không giám sát:

Nhiều thuật toán học không giám sát đã được phát triển để khai thác hiệu quả nguồn dữ liệu chưa gán nhãn đa dạng Việc lựa chọn thuật toán phù hợp phụ thuộc vào mục đích cụ thể của từng bài toán, trong đó K-means và HAC là những ví dụ tiêu biểu.

(Hierarchical Agglomerative Clustering), SOM (Self-Organizing Map)…

Xây dựng mô hình phân tích cảm xúc

Kiến trúc hệ thống

Kiến trúc hệ thống rút trích thông tin đƣợc đề xuất nhƣ hình 5 gồm 02 giai đoạn

Giai đoạn 1: thực hiện phân loại mức độ cảm xúc tích cực hay tiêu cực

Giai đoạn 2: Sau khi phân loại cảm xúc, công việc trích xuất thông tin sẽ được tiến hành, trong đó các bình luận không chứa quan điểm và cảm xúc hoặc có tính trung tính sẽ bị loại bỏ.

Hình 5 Kiến trúc hệ thống Yelp

Thu thập dữ liệu

Bộ dữ liệu Yelp bao gồm 5 phần, cung cấp 566.000 thông tin cơ bản về kinh doanh và 2,2 triệu đánh giá của khách hàng, với kích thước hơn 2GB Trong phân tích này, chúng tôi tập trung vào các bài đánh giá liên quan đến ẩm thực của các nhà hàng Sau khi lọc theo danh mục quốc gia, chúng tôi thu được 80.266 dòng bình luận.

Hình 6 Thống kê nhà hàng từng quốc gia

Tiền xử lý dữ liệu

Tập dữ liệu doanh nghiệp được kết hợp với bình luận và tổ chức theo từng quốc gia Các từ trong bình luận được tách ra, loại bỏ dấu câu, ký hiệu đặc biệt, và stop word, sau đó chuẩn hóa chữ thường để xây dựng ma trận mô tả tần suất từ trong tài liệu Trong thực nghiệm, dữ liệu được chia thành 70% cho huấn luyện mô hình và 30% cho kiểm tra mô hình.

Phương pháp phân tích văn bản

Dữ liệu bình luận thường được thu thập dưới dạng văn bản không cấu trúc, nhưng để áp dụng các thuật toán học máy, cần chuyển đổi chúng thành định dạng bảng Mô hình túi từ, được phát triển bởi Harris (1954) và Salton et al (1975), giúp tổ chức các tập văn bản thành cấu trúc bảng thông qua ma trận tài liệu - vector tài liệu (Term Document Matrix).

STT Nôi dung Phân loại

1 The Pho is so good 1

Bảng 2 Tài liệu văn bản

STT 1-The 2-Pho … 3-Serviecs m-Good Phân loại

Bảng 3 Ma trận tần số các từ, cụm từ

Văn bản có thể được biểu diễn dưới dạng véc tơ với n dòng và m cột, trong đó mỗi thành phần thứ j thể hiện tần số xuất hiện của từ thứ j trong văn bản Khi xem xét tập D bao gồm n văn bản và một tự điển với m từ vựng, D có thể được cấu trúc thành bảng kích thước n×m, trong đó dòng thứ i đại diện cho véc tơ của văn bản thứ i tương ứng.

N-gram là tần suất xuất hiện của từ trong kho ngữ liệu (corpus) Mô hình này đƣợc áp dụng trong rất nhiều lĩnh vực của xử lý ngôn ngữ tự nhiên nhƣ: kiểm lỗi chính tả, dịch máy hay phân đoạn từ N-gram với độ dài là 1 gọi là unigram, độ dài 2 gọi là bigram, độ dài 3 gọi là trigram, và độ dài n đƣợc gọi chung là N-gram

 Unigram: pho : 1000 thì có nghĩa là tần số xuất hiện của từ pho là 1000 lần trong corpus

 Bigram: pho viet :10 thì có nghĩa là tần số xuất hiện của cụm từ pho viet là 10 lần trong corpus

Mô hình ngôn ngữ xác định xác suất của một từ hoặc cụm từ W = w1 w2 wm dựa trên công thức Bayes: P(AB) = P(B|A) * P(A) Cụ thể, xác suất của chuỗi từ được tính bằng P(w1 w2 … wm) = P(w1) * P(w2|w1) * P(w3|w1 w2) * … * P(wm|w1 w2 … wm-1) Tuy nhiên, việc lưu trữ xác suất cho tất cả các chuỗi từ có độ dài nhỏ hơn m đòi hỏi một lượng bộ nhớ khổng lồ, điều này không khả thi khi m có thể tiến tới vô cùng Để tính toán xác suất văn bản trong giới hạn bộ nhớ hợp lý, chúng ta áp dụng xấp xỉ Markov bậc n.

Theo xấp xỉ Markov, xác suất xuất hiện của một từ (wm) chỉ phụ thuộc vào n từ liền trước (wm-n, wm-n+1, …, wm-1), thay vì toàn bộ dãy từ trước đó (w1, w2, …, wm-1) Do đó, công thức tính xác suất văn bản được điều chỉnh lại theo cách này.

Mô hình ngôn ngữ N-gram được xây dựng dựa trên việc thống kê các cụm từ có ít hơn n+1 từ Một cụm N-gram là dãy con gồm n phần tử liên tiếp trong một dãy các phần tử đã cho.

3.4.2 Phương pháp thống kê TF-IDF

Phương pháp mô hình túi từ (bag-of-words) sử dụng trọng số TF.IDF (tần suất từ và tần suất ngược của tài liệu) để xác định mức độ quan trọng của từ trong văn bản TF.IDF được tính toán dựa trên thống kê, phản ánh tầm quan trọng của từ đó trong một văn bản cụ thể so với toàn bộ tập hợp các văn bản.

TF-term frequency : dùng để ƣớc lƣợng tần xuất xuất hiện của từ trong văn bản

Mỗi văn bản có độ dài khác nhau, do đó tần suất xuất hiện của từ cũng có thể khác nhau Để đánh giá chính xác, số lần xuất hiện của từ nên được chia cho độ dài của văn bản.

(tổng số từ trong văn bản đó)

TF(t, d) = ( số lần từ t xuất hiện trong văn bản d) / (tổng số từ trong văn bản d)

IDF (Inverse Document Frequency) là một chỉ số dùng để ước tính mức độ quan trọng của từ trong văn bản Khi tính tần suất xuất hiện (TF), tất cả các từ đều được xem là có giá trị như nhau Tuy nhiên, có những từ thường xuyên xuất hiện nhưng lại không có ý nghĩa quan trọng trong việc truyền đạt nội dung của đoạn văn.

 Từ nối: và, nhƣng, tuy nhiên, vì thế, vì vậy, …

 Từ chỉ định: ấy, đó, nhỉ, …

Vì vậy, IDF tìm cách co lại trọng số tương ứng với các từ khóa xuất hiện trong nhiều văn bản

Trọng số từ (TF.IDF) được tính bằng cách nhân tần suất từ khóa (TF) với nghịch đảo số văn bản chứa từ khóa đó (IDF) Trong đó, N là tổng số tài liệu văn bản và D(w) là số văn bản có chứa từ t.

TF.IDF = f(t).log(N/|D(t)|) (3.5) Trong đó f(t) là hàm tính tần số của cụm từ t

3.4.3 Xây dựng mô hình huấn luyện với hồi quy logistic

Mô hình hồi qui logistic tổng quát với k yếu tố nguy cơ x1,x 2 ,…xk đƣợc mô tả bởi phương trình sau

Trong đó, z đƣợc định nghĩa nhƣ sau: z= + z : hệ số chặn (intercept) Giá trị của z khi tất cả các biến độc lập bằng 0

Hệ số hồi qui β1, β2,…, βk trong hồi quy logistic cho các biến x1, x2,…, xk cho thấy hướng và mức độ ảnh hưởng của các yếu tố đến xác suất xảy ra sự kiện Nếu hệ số hồi qui dương, yếu tố đó làm tăng xác suất xảy ra sự kiện, ngược lại, nếu âm, yếu tố đó giảm xác suất Đồ thị hồi quy logistic có trục hoành là giá trị z và trục tung là giá trị f(z), tương ứng với xác suất xảy ra sự kiện Giá trị z có thể là âm hoặc dương, trong khi f(z) chỉ nhận giá trị trong khoảng từ 0 đến 1, với p(y=1|x) = f(z) và p(y=-1|x) = 1 - f(z).

Hình 7 Mô hình hồi quy logistic

3.4.4 Phương pháp đánh giá hiệu suất phân loại cảm xúc Để đánh giá chất lƣợng hệ thống, bài báo sử dụng hai độ đo: độ chính xác (precision) và độ bao phủ (recall) 02 độ đo này đƣợc tính toán theo các công thức sau:

Bảng 4 Ma trân đánh giá hệ thống phân loại

Trong phân tích bình luận, có bốn loại phân loại chính: a) số lượng bình luận tích cực được nhãn là tích cực; b) số lượng bình luận tích cực nhưng lại được phân loại là tiêu cực; c) số lượng bình luận tiêu cực nhưng lại được phân loại là tích cực; và d) số lượng bình luận tiêu cực được nhãn là tiêu cực.

3.4.5 Tối ƣu tham số cho mô hình

Hàm Loss function, hay còn gọi là hàm mất mát, đóng vai trò quan trọng trong việc tối ưu hóa mô hình học máy Mục tiêu chính là giảm thiểu sai số, tức là tìm vector hệ số sao cho giá trị của hàm mất mát đạt mức tối thiểu, từ đó giúp giảm thiểu hiện tượng overfitting.

Vấn đề chọn tối ƣu tham số lamda để tối thiểu hàm loss function với L2 Norm

Trong quá trình thực nghiệm, chúng tôi đã đánh giá hiệu suất của mô hình hồi quy logistic với các giá trị C từ 0.01 đến 100 Kết quả cho thấy, khi C có giá trị lớn, mức độ chuẩn hóa giảm, dẫn đến hiện tượng overfitting Ngược lại, với C nhỏ, độ chuẩn hóa tăng cao Giá trị tối ưu cho mô hình được xác định là C=0.2154.

Đánh giá thực nghiệm

Kết quả thực nghiệm rút trích thông tin

Chương 1: Tổng quan về phân tích cảm xúc

1.1 Phân tích cảm xúc là gì?

Phân tích cảm xúc được ứng dụng rộng rãi trong nhiều ngành để trích xuất tri thức, cảm xúc và quan điểm của khách hàng, đóng vai trò quan trọng trong việc ra quyết định và xây dựng chiến lược kinh doanh hợp lý Những quyết định này, từ việc mua sắm trực tuyến đến dịch vụ ẩm thực, đều bị ảnh hưởng mạnh mẽ bởi cảm xúc và quan điểm của người tiêu dùng Rút trích thông tin về cảm xúc và quan điểm là một lĩnh vực nghiên cứu trong xử lý ngôn ngữ tự nhiên, nhằm xác định ý kiến và cảm xúc của người dùng về một chủ đề cụ thể, thường phân loại chúng thành tích cực hoặc tiêu cực Do đó, nghiên cứu phân tích cảm xúc không chỉ quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên mà còn có tác động sâu sắc đến khoa học quản lý, chính trị, kinh tế và xã hội, vì tất cả các lĩnh vực này đều chịu ảnh hưởng từ ý kiến của các chủ thể.

Ngôn ngữ con người rất phức tạp, khiến việc diễn giải cho máy tính trở nên khó khăn Quá trình này bao gồm việc phân tích ngữ pháp, vùng miền, ngữ cảnh, tiếng lóng và các lỗi ngôn ngữ.

Ngữ điệu ngôn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm chí mô tả nó còn khó khăn hơn

Hình 1 các trạng thái cảm xúc

Ví dụ: “ My flight was delayed Brilliant!”

Con người thường sử dụng trực giác để hiểu giai điệu của một bài viết, và nhiều người thường cảm nhận rằng các bình luận mang tính mỉa mai và châm biếm Đặc biệt, trải nghiệm về chuyến bay trễ thường không mang lại cảm giác tích cực cho hầu hết mọi người Do đó, khi áp dụng ngữ cảnh này, có thể dễ dàng nhận thấy rằng cảm xúc được thể hiện là tiêu cực.

Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ

" Brilliant " và nó phân loại là tích cực

Giả sử bạn muốn biết mọi người trên Yelp nghĩ rằng thực phẩm nhà hàng Việt Nam là tốt hay xấu, món ăn nào là phổ biến nhất

Phân tích cảm xúc từ bộ dữ liệu nhà hàng Yelp giúp doanh nghiệp hiểu rõ lý do mà khách hàng đánh giá thực phẩm là tốt hay xấu Bằng cách trích xuất các từ khóa chính, doanh nghiệp có thể xác định những món ăn phổ biến và các chủ đề thường xuất hiện, từ đó có cái nhìn sâu sắc hơn về nguyên nhân khiến người tiêu dùng không hài lòng.

Doanh nghiệp có thể đạt được cái nhìn sâu sắc về khảo sát và tìm kiếm thông qua nghiên cứu thị trường mà không cần tốn nhiều ngân sách và thời gian cho các cuộc điều tra truyền thống Bằng cách sử dụng các công cụ khai thác văn bản, doanh nghiệp sẽ nhận được câu trả lời nhanh chóng chỉ trong vài giây và có được kết quả khách quan từ mạng xã hội.

Phân tích cảm xúc có thể diễn ra ở nhiều cấp độ khác nhau, bao gồm cả cái nhìn tổng thể về tài liệu với cảm xúc tích cực hoặc tiêu cực, cũng như cảm xúc riêng lẻ của từng từ hoặc cụm từ trong văn bản.

Hình 2 Mô hình tính toán trọng số từ, cụm từ

- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực trong đời sống

- Thực nghiện phân tích cảm xúc dựa trên các mô hình học máy

- Trích xuất các bình luận tích cực và tiêu cực nhất

Dựa trên phân tích cảm xúc, chúng tôi thực hiện việc rút trích tri thức về các đặc trưng và khía cạnh của các thực thể quan tâm để nắm bắt thông tin một cách hiệu quả.

11 khuynh hướng cảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ dịch vụ, tóm tắt ẩm thực từng quốc gia, các món ăn phổ biến

- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của công chúng về một vấn đề nào đó cần quan tâm

1.3 Các mức độ phân tích cảm xúc

Phân tích cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiện và đƣợc nghiên cứu ở 3 mức độ:

Mức tài liệu trong phân tích cảm xúc tập trung vào việc phân loại nội dung chính của một tài liệu văn bản thành ý kiến tích cực hoặc tiêu cực Nhiệm vụ này thường được gọi là phân loại cảm xúc cấp tài liệu, ví dụ như đánh giá tổng thể một sản phẩm hoặc hệ thống Phân tích này giả định rằng mỗi tài liệu chỉ thể hiện ý kiến về một thực thể duy nhất, như một sản phẩm, và không phù hợp với các tài liệu so sánh hay đánh giá nhiều thực thể cùng lúc.

Phân loại cảm xúc ở mức tài liệu cung cấp cái nhìn tổng quát về một thực thể, chủ đề hoặc sự kiện, nhưng vẫn tồn tại một số hạn chế trong các lĩnh vực ứng dụng.

Trong nhiều ứng dụng, người dùng cần thông tin chi tiết về các khía cạnh yêu thích và không thích của thực thể từ góc độ người tiêu dùng Mặc dù việc khám phá các chi tiết này rất thú vị, nhưng phân tích tài liệu đơn thuần không thể trích xuất những thông tin hữu ích này.

Việc phân loại tình cảm trong các tài liệu như diễn đàn, blog và bài báo là một thách thức, vì những nội dung này thường chứa đựng nhiều cảm xúc từ nhiều thực thể khác nhau.

Mức câu tập trung vào việc phân tích từng câu trong văn bản để xác định xem chúng thể hiện ý kiến tích cực, tiêu cực hay trung tính Việc này giúp hiểu rõ hơn về cảm xúc và quan điểm được truyền đạt trong nội dung.

12 nghĩa là không có ý kiến Mức độ phân tích có liên quan chặt chẽ với phân loại tính chủ quan

Mức thực thể và khía cạnh trong phân tích ý kiến không chỉ dừng lại ở việc phát hiện sở thích mà còn đi sâu vào chi tiết hơn Mức khía cạnh, còn gọi là mức đặc trưng, tập trung vào bản chất của ý kiến bằng cách xem xét mục tiêu và cảm xúc liên quan, giúp hiểu rõ hơn về những gì người dùng thích hoặc không thích.

Phân tích mức thực thể và khía cạnh đầu vào cung cấp các mô tả đặc trưng về khía cạnh và nội dung thảo luận liên quan đến một chủ thể cụ thể, như mẫu điện thoại di động mới hoặc dịch vụ ăn uống Hệ thống này khám phá các khía cạnh chính của thực thể, chẳng hạn như chất lượng món ăn, giá cả, và thái độ phục vụ, đồng thời ước tính chỉ số cảm xúc tổng thể từ các bình luận, xác định tính tích cực hay tiêu cực dựa trên các ý kiến đánh giá Có bốn hướng tiếp cận chính trong phân tích này.

- Rút trích dựa trên danh từ và cụm danh từ thường xuyên

- Rút trích bằng cách khai thác ý kiến và quan hệ mục tiêu

- Rút trích sử dụng phương pháp học có giám sát

- Rút trích sử dụng chủ đề mô hình

Các phương pháp phân tích cảm xúc dựa trên khía cạnh xuất hiện thì chủ yếu được dùm cho mục đích là đánh giá các sản phẩm trực tuyến

1.4 Các vấn đề thách thức khó khăn

Hình 3 các vấn đề thách thức

Đảo ngược cảm xúc là một vấn đề quan trọng trong phân tích cảm xúc, phát sinh từ sự dịch chuyển trạng thái phân cực như phủ định và tương phản Ví dụ, câu "Tôi không thích phở" có ý nghĩa tương tự như "Tôi thích phở", cho thấy sự cần thiết trong việc phát hiện đảo ngược phân cực để trích xuất quan điểm và cảm xúc một cách chính xác.

Ngày đăng: 21/06/2021, 22:01

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] B. Agarwal and N. Mittal, “Optimal feature selection for sentiment analysis,” in Proceedings of the 14th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 13), vol. 7817, pp. 13–24, 2013 Sách, tạp chí
Tiêu đề: Optimal feature selection for sentiment analysis
[2] A. Basant, M. Namita, B. Pooja, Sonal Garg “Sentiment Analysis Using Common-Sense and Context Information” Hindawi Publishing Corporation Computational Intelligence and Neuroscience (2015) Sách, tạp chí
Tiêu đề: Sentiment Analysis Using Common-Sense and Context Information
[4] Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document- level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA (2010), pp. 1046-1056 Sách, tạp chí
Tiêu đề: Multi-level structured models for document-level sentiment classification
Tác giả: Y. Ainur, Y. Yisong, C. Claire “Multi-level structured models for document- level sentiment classification”.Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, MIT, Massachusetts, Association for Computational Linguistics, USA
Năm: 2010
[5] F. Noura, C. Elie, A.A. Rawad, H. Hazem “Sentence-level and document-level sentiment mining for arabic texts”.Proceeding IEEE International Conference on Data Mining Workshops (2010) Sách, tạp chí
Tiêu đề: Sentence-level and document-level sentiment mining for arabic texts
[6] Hao chen Zhou and Fei Song.(2015) “Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model” Proceedings of the Twenty- Eighth International Florida Artificial Intelligence Research Society Conference, Association for the Advancement of Artificial Intelligence (2015) Sách, tạp chí
Tiêu đề: Aspect-level sentiment analysis based on a generalized probabilistic topic and syntax model
[3] RuiXia, FengXu, JianfeiYu,” Polarity shift detection, elimination and ensemble: A three stage model for document-level sentiment analysis”Information Processing and Management 52 (2016) 36– 45 Khác
[7] Ariyasriwatana, W., Buente, W., Oshiro, M., & Streveler, D. (2014). Categorizing health-related cues to action: using Yelp reviews of restaurants in Hawaii. New Review of Hypermedia and Multimedia, 20(4), 317-340 Khác
(2012). Why people use Yelp. com: An exploration of uses and gratifications. Computers in Human Behavior, 28(6), 2274-2279 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w