Một phần lớn trong cuốn sách được dành để mô tả định nghĩa và kỹ thuật phân lớp quan điểm và chỉ một phần nhỏ của cuốn sách thảo luận về công việc sinh ra bản tông hợp dựa trên phân lớp
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM VĂN HÀ
HỆ THỐNG TỰ ĐỘNG TỔNG HỢP Ý KIẾN GÓP Ý
TRONG HỘI NGHỊ
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI QUANG HƯNG
PGS.TS VŨ DUY LỢI
HÀ NỘI - 2014
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tôi Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình
Hà Nội, ngày 10 tháng 06 năm 2014
Người cam đoan
Phạm Văn Hà
Trang 4LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn chân thành và sự biết ơn sâu sắc tới TS Bùi Quang Hưng và PGS.TS Vũ Duy Lợi đã tận tình giúp đỡ tôi về cả chuyên môn, nghiên cứu và định hướng phát triển trong suốt quá trình làm luận văn
Tôi cũng xin gửi lời cám ơn tới các Thầy, Cô giáo của Khoa Công nghệ thông tin, vì đã truyền đạt những kiến thức bổ ích, hiện đại về lĩnh vực Hệ thống thông tin
mà tôi học tập Tôi xin bày tỏ sự biết ơn sâu sắc tới ThS Trần Mai Vũ đang công tác tại Phòng thí nghiệm Công nghệ tri thức (KTLab) đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoàn thành đề tài này
Cuối cùng, với gia đình, tôi xin gửi lời biết ơn sâu sắc vì gia đình đã luôn ở bên cạnh tôi, mang lại cho tôi nguồn động viên tinh thần to lớn và tạo mọi điều kiện thuận lợi cho tôi trong quá trình học tập và hoàn thành luận văn này
Mặc dù đã rất cố gắng nhưng luận văn sẽ không tránh khỏi những thiếu sót Rất mong nhận được ý kiến đóng góp quý báu của Thầy, Cô giáo và các bạn để luận văn được hoàn thiện hơn
Xin trân trọng cảm ơn!
Hà Nội, Tháng 06 – Năm 2014
Phạm Văn Hà
Trang 5MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 6
DANH MỤC CÁC HÌNH VẼ 7
DANH MỤC CÁC BẢNG BIỂU 8
MỞ ĐẦU 9
Chương 1 TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM 11
1.1 Giới thiệu 11
1.2 Các khái niệm trong khai phá quan điểm 11
1.2.1 Đối tượng 12
1.2.2 Đoạn đánh giá 13
1.2.3 Các đặc trưng 13
1.2.4 Người đưa ra quan điểm 13
1.2.5 Quan điểm 13
1.3 Các thách thức trong khai phá quan điểm 14
1.3.1 Phong cách viết khác nhau 14
1.3.2 Quan điểm thay đổi theo thời gian 14
1.3.3 Độ mạnh của quan điểm 14
1.3.4 Các câu với đánh giá pha trộn 14
1.4 Các bài toán trong khai phá quan điểm 15
1.4.1 Phân lớp quan điểm 15
1.4.2 Khai phá quan điểm so sánh 15
1.4.3 Khai phá và tổng hợp ý kiến dựa trên đặc trưng 15
1.5 Ứng dụng của khai phá quan điểm 16
1.5.1 Ứng dụng trong các trang web đánh giá 16
1.5.2 Ứng dụng như một công nghệ thành phần 16
1.5.3 Ứng dụng trong kinh doanh thông minh và chính phủ thông minh 17
Trang 61.5.4 Ứng dụng trong các lĩnh vực khác 18
1.6 Tóm tắt Chương một 18
Chương 2 CÁC PHƯƠNG PHÁP TỔNG HỢP Ý KIẾN 19
2.1 Giới thiệu 19
2.2 Các nghiên cứu liên quan đến tổng hợp ý kiến 19
2.3 Phân loại tổng hợp ý kiến 20
2.4 Tổng hợp ý kiến dựa trên đặc trưng 21
2.4.1 Nhận diện đặc trưng 23
2.4.2 Dự đoán chiều hướng quan điểm 25
2.4.3 Sinh bản tổng hợp 27
2.5 Tổng hợp ý kiến không dựa trên đặc trưng 30
2.5.1 Tổng hợp cơ bản 30
2.5.2 Tổng hợp văn bản 31
2.5.3 Mô hình hóa 34
2.5.4 Tổng hợp dựa trên thực thể 34
2.6 Tóm tắt Chương hai 35
Chương 3 BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ 36
3.1 Bài toán 36
3.2 Chức năng mong muốn của hệ thống 37
Thu thập ý kiến 37
3.2.1 Tổng hợp ý kiến 38
3.2.2 Gợi ý cho ban thư ký 39
3.2.3 3.3 Mô hình đề xuất 39
3.3.1 Pha thu thập dữ liệu 41
3.3.2 Pha tiền xử lý dữ liệu 45
3.3.3 Pha xác định chủ đề của ý kiến 46
3.3.4 Pha gom nhóm ý kiến 49
3.3.5 Pha phân lớp ý kiến 50
3.3.6 Pha sinh bản tóm tắt 54
Trang 73.4 Phương pháp đánh giá 55
3.4.1 Đánh giá pha xác định chủ đề 55
3.4.2 Đánh giá pha phân lớp ý kiến 55
3.5 Tóm tắt Chương ba 56
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 57
4.1 Môi trường thực nghiệm 57
4.2 Công cụ phần mềm 57
4.3 Dữ liệu thực nghiệm 58
4.4 Chương trình thực nghiệm 58
4.5 Kết quả thực nghiệm 59
4.5.1 Kết quả đánh giá bước xác định chủ đề 59
4.5.2 Kết quả đánh giá bộ phân lớp NaiveBayes tự xây dựng 60
4.5.3 Kết quả đánh giá bộ phân lớp sử dụng mã nguồn mở Weka 60
4.6 Một số giao diện minh họa 66
4.6.1 Giao diện chính 66
4.6.2 Giao diện thêm mới ý kiến 66
4.6.3 Giao diện tổng hợp ý kiến 67
KẾT LUẬN VÀ ĐỊNH HƯỚNG 68
TÀI LIỆU THAM KHẢO 69
PHỤ LỤC 1
Trang 8BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu Diễn giải Tiếng Việt
COS Contrastive Opinion Summarization Tổng hợp quan điểm tương phản
HTML Hyper Text Markup Laguage Ngôn ngữ đánh dấu siêu văn bản
IDE Integrated Development
IDF Inverse Document Frequency Tần số nghịch của một từ trong
văn bản JSON JavaScript Object Notation Ký hiệu đối tượng JavaScript
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
PLSA Probabilistic Latent Semantic
PMI Pointwise Mutual Infomation Thông tin tương hỗ trên điểm
SMO Sequential Minimal Optimization Tối thiểu tuần tự
Trang 9DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Một quan điểm nhận xét về sản phẩm iPhone trên Blog 12
Hình 2.1 Ba bước của tổng hợp ý kiến dựa trên đặc trưng 20
Hình 2.2 Các kỹ thuật tổng hợp quan điểm dựa trên đặc trưng [9] 22
Hình 2.3 Ví dụ về tổng hợp ý kiến dựa trên thống kê 27
Hình 2.4 Cấu trúc tổng hợp ý kiến trên trang tìm kiếm Bing 28
Hình 2.5 Phân lớp các ý kiến dựa trên đặc trưng và hướng quan điểm 28
Hình 2.6 Phương pháp sinh bản tổng hợp cấu trúc của Lu và cộng sự 29
Hình 2.7 Tổng hợp ý kiến theo thời gian 30
Hình 2.8 Ví dụ về hội nhập quan điểm 31
Hình 2.9 Ví dụ tổng hợp dựa trên thực thể 35
Hình 3.1 Tiến trình tổng hợp ý kiến trong hội nghị 36
Hình 3.2 Chức năng của hệ thống tổng hợp ý kiến 37
Hình 3.3 Mơ tả form nhập ý kiến 38
Hình 3.4 Bản tổng hợp ý kiến dưới dạng thơ 39
Hình 3.5 Kiến trúc đề xuất của hệ thống hỗ trợ tổng hợp ý kiến 40
Hình 3.6 Mơ hình đề xuất cho hệ thổng hỗ trợ tổng hợp ý kiến 41
Hình 3.7 Cấu trúc một ý kiến gĩp ý của người dân 43
Hình 3.8 Cấu trúc một ý kiến gĩp ý của ĐBQH 44
Hình 3.9 Mơ tả quá trình phân lớp ý kiến 50
Hình 4.1 Biểu đồ đánh giá độ chính xác của bước xác định chủ đề 59
Hình 4.2 Biểu đồ đánh giá phân lớp NạveBayes tự xây dựng 60
Hình 4.3 Biểu đồ thể hiện kết quả của tập dữ liệu thứ nhất 61
Hình 4.4 Biểu đồ thể hiện kết quả của tập dữ liệu thứ hai 62
Hình 4.5 Biểu đồ thể hiện kết quả của tập dữ liệu thứ ba 62
Hình 4.6 Biểu đồ so sánh độ chính xác giữa các tập dữ liệu 63
Hình 4.7 Biểu đồ so sánh độ hổi tưởng giữa các tập dữ liệu 64
Hình 4.8 Biểu đồ so sánh độ đo F-measure giữa các tập dữ liệu 64
Hình 4.9 So sánh thời gian thực hiện thuật tốn 65
Hình 4.10 Giao diện chính của chương trình thử nghiệm 66
Hình 4.11 Giao diện thêm mới ý kiến 67
Hình 4.12 Giao diện tổng hợp ý kiến 67
Trang 10DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1 Trích xuất các thông tin ý kiến người dân 43
Bảng 3.2 Trích xuất các thông tin ý kiến của ĐBQH 44
Bảng 3.3 Mô tả dữ liệu ý kiến 45
Bảng 3.4 Mô tả bảng dữ liệu Comment lưu trữ các ý kiến 46
Bảng 3.5 Mô tả bảng dữ liệu Delegate lưu trữ thông tin của đại biểu 46
Bảng 3.6 Bảng các luật xác định chủ đề của câu đầu tiên 47
Bảng 3.7 Bảng các luật xác định chủ đề của các câu tiếp theo 48
Bảng 3.8 Mô tả bảng dữ liệu Sentence 49
Bảng 3.9 Mô tả bảng dữ liệu subcomment 49
Bảng 3.10 Ma trận nhầm lẫn đánh giá các độ đo 55
Bảng 4.1 Cấu hình máy tính thử nghiệm 57
Bảng 4.2 Các phần mềm sử dụng 57
Bảng 4.3 Kết quả thực nghiệm xác định chủ đề 59
Trang 11MỞ ĐẦU
1 Đặt vấn đề, định hướng nghiên cứu
Sự bùng nổ của nền tảng Web 2.0 như blog, di n đàn, mạng xã hội và nhiều loại truyền thông khác giúp cho người tiêu dùng có thể chia s quan điểm về bất kì sản phẩm hoặc dịch vụ nào Ý kiến của khách hàng nắm một phần quan trọng trong việc hình thành quan điểm ý kiến của các khách hàng khác và ảnh hưởng tới chính sách quảng bá thương hiệu của các công ty Với sự phong phú của các nguồn tài nguyên về quan điểm như hiện nay đã thúc đẩy “Khai phá quan điểm” phát triển và nhận được nhiều sự quan tâm trong thời gian gần đây Công việc khai phá văn bản không chỉ dừng lại ở việc phân tích câu chữ của văn bản, giúp máy tính thực sự “hiểu” nội dung văn bản nói gì, mà còn cho biết người viết có quan điểm như thế nào trong văn bản đó Tổng hợp ý kiến (Opinion summarization) là bài toán quan trọng trong khai phá quan điểm, đang thu hút được sự quan tâm của cộng đồng nghiên cứu khai phá dữ liệu, học máy, truy hồi thông tin, và xử lý ngôn ngữ tự nhiên Mục đích chính của tổng hợp
ý kiến [2,3,5,9] là tự động tổng hợp các ý kiến về một đối tượng hay vấn đề thành một bản tổng hợp ý kiến ngắn gọn Các phương pháp tổng hợp ý kiến được giới thiệu [3,5,9] dựa trên các mô hình thống kê đã cho những kết quả rất khả quan và mở ra cơ hội ứng dụng cho nhiều bài toán thực tế
Trong các hội nghị quy mô lớn có các chủ đề lớn được đưa ra để bàn luận Vì số lượng các đại biểu tham gia hội nghị là rất lớn nên rất khó khăn cho ban thư ký tổng hợp ý kiến về các chủ đề dựa trên bộ tiêu chí cho trước của từng chủ đề Chính vì vậy,
để giải quyết tình trạng khó khăn trong các hội nghị như hiện nay, luận văn đề xuất
xây dựng một “Hệ thống tự động tổng hợp ý kiến trong hội nghị” Hệ thống này sẽ
giúp ích trong việc thu thập ý kiến từ các đại biểu, tự động tổng hợp các ý kiến, làm giảm thiểu gánh nặng của ban thư ký trong việc xây dựng bản tổng hợp ý kiến hội nghị Đây là một khối công việc lớn, cần nhiều thời gian và công sức Đề tài này là bước khởi đầu cho công việc này
2 Mục tiêu của luận văn
Mục tiêu chung của luận văn là hướng tới xây dựng một hệ thống cho phép tự động tổng hợp các ý kiến đóng góp cho một hội nghị với số người tham dự lớn (hàng trăm người) Hệ thống này sẽ tự động thu thập, tổng hợp ý kiến góp ý, bước đầu tạo ra một bản “tổng hợp thô”, sau đó thư ký hội nghị sẽ dựa trên bản tổng hợp thô này để tiếp tục tổng hợp tiếp thành bản tổng hợp ý kiến hoàn chỉnh
Trang 12Đây là một đề tài khó cần nhiều thời gian và công sức thực hiện Để đảm bảo chất lượng và trong khả năng cho phép, đề tài chỉ giới hạn ở những phần cơ bản và ban đầu về hệ thống tự động tổng hợp ý kiến trong hội nghị, bao gồm:
Tìm hiểu các phương pháp của bài toán tổng hợp ý kiến
Đề xuất mô hình cho bài toán tổng hợp ý kiến trong hội nghị
Thực nghiệm và đánh giá các phương pháp
Xây dựng thử nghiệm một hệ thống để phục vụ công việc tổng hợp ý kiến góp ý trong hội nghị
3 Nội dung của luận văn
Luận văn thực hiện xuyên suốt trong quá trình từ khi hình thành các khái niệm, ý tưởng nghiên cứu, cho đến khi xây dựng mô hình tổng hợp, đề xuất và đánh giá
phương pháp tổng hợp ý kiến Nội dung chính bao gồm các phần sau:
Mở đầu: Đặt ra vấn đề, mục tiêu và giải pháp cho bài toán tổng hợp ý kiến đóng góp trong hội nghị
Chương 1: Giới thiệu tổng quan - các khái niệm cơ bản về khai phá quan
điểm và bài toán tổng hợp quan điểm
Chương 2: Trình bày các phương pháp cho bài toán tổng hợp ý kiến
chung
Chương 3: Đề xuất mô hình cho bài toán tổng hợp ý kiến trong hội nghị
Chương 4: Thực nghiệm và đánh giá các phương pháp, xây dựng demo
cho việc xử lý và phân lớp các ý kiến mới
Kết luận & định hướng: Tổng kết lại những kiến thức đã tích lũy, kinh
nghiệm được áp dụng trong suốt quá trình thực hiện luận văn Đưa ra được các hướng phát triển trong tương lai
Trang 13Chương 1 TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM 1.1 Giới thiệu
Một phần quan trọng trong việc thu thập thông tin là luôn tìm ra “Nh ng i u
ng i h c ngh ” Khi bạn muốn mua một chiếc máy tính xách tay HP Pavilon DV6
bạn đặt ra các câu hỏi “Máy HP có tốt không? Dòng Pavilon của HP dùng thế nào? Pin dùng có lâu không? ” Chính nhận xét của những người đã dùng máy tính HP sẽ là câu trả lời cho các câu hỏi mà bạn thắc mắc [5]
Theo cuộc khảo sát hơn 2000 người Mỹ trưởng thành cho thấy 81 người dùng Internet (chiếm tỷ lệ 60 người Mỹ) đã thực hiện việc tìm hiểu về một sản phẩm thông qua Internet Có từ 73 đến 87 số người nói r ng các nhận xét về sản phẩm
có sự ảnh hưởng quan trọng đến việc lựa chọn mua sản phẩm của họ [5] Như vậy, quan điểm của người khác giúp chúng ta có thêm thông tin khi quyết định một vấn đề,
nó ảnh hưởng rất lớn đến hành vi của chúng ta Bất cứ khi nào chúng ta phải đưa ra một quyết định, chúng ta thường phải tham khảo những ý kiến của những người khác Với cá nhân, chúng ta tham khảo từ gia đình và bạn bè Với tổ chức, họ tổ chức các cuộc điều tra, thăm dò dư luận để nắm bắt được ý kiến
Sự bùng nổ của nền tảng Web 2.0 như blog, di n đàn thảo luận, mạng ngang hàng, và nhiều loại truyền thông xã hội khác giúp cho người tiêu dùng có thể d dàng chia s kinh nghiệm và quan điểm về bất kì sản phẩm hoặc dịch vụ nào Với sự phong phú của các nguồn tài nguyên về quan điểm, việc sử dụng công nghệ thông tin để tìm kiếm và hiểu được ý kiến của con người là một cơ hội và thách thức rất lớn
Khai phá quan điểm là lĩnh vực nghiên cứu mà cố gắng để làm cho hệ thống tự động xác định quan điểm của con người từ văn bản được viết b ng ngôn ngữ tự nhiên Khai phá quan điểm nghiên cứu về ý kiến, tình cảm, quan niệm chủ quan, đánh giá, thái độ, thẩm định, cảm xúc… được thể hiện trong văn bản Những điều đó được thể hiện qua các nhận xét, blog, các cuộc thảo luận, tin tức, bình luận, phản hồi… hay các tài liệu khác [5] Khai phá quan điểm dựa trên ngôn ngữ tính toán, truy vấn thông tin, khai thác văn bản, xử lý ngôn ngữ tự nhiên, học máy, thống kê và phân tích dự đoán
1.2 Các khái niệm trong khai phá quan điểm
Liu [4] đưa ra định nghĩa quan điểm: Một quan iểm bao gồm 5 yếu tố (ei , a ij ,
s ijkl , h k , t l ) trong ó e i là tên của chủ thể, a ij là ặc tr ng của e i , s ijkl là quan iểm v ặc
tr ng a ij của e i , h k là nguồn của quan iểm và t l là th i iểm mà quan iểm ó ợc biểu ạt bởi h k Quan iểm s ijkl có thể tích cực, tiêu cực, trung lập hoặc biểu diễn bởi thang nh gi
Trang 14Hình 1.1 Một quan iểm nhận xét v sản phẩm iPhone trên Blog
Ví dụ: Một quan điểm về điện thoại iPhone trên Blog như trong Hình 1.1 được
biểu di n dưới một số bộ năm như sau:
(iPhone, GENERAL , + , Abc123 , 5-1-2008)
(iPhone, touch_screen, +, Abc123, 5-1-2008)
(iPhone, voice_quality, +, Abc123, 5-1-2008)
(Blackberry, keys, -, Abc123, 5-1-2008)
Theo Bing Liu [2], các quan điểm có thể thể hiện về bất cứ điều gì, ví dụ như một sản phẩm, một cá nhân, một tổ chức, một chủ đề… Ông sử dụng thuật ngữ đối tượng (Object) để biểu thị các chủ thể được đề cập.Theo đó, ông đưa ra một số khái niệm trong khai phá quan điểm bao gồm: Đối tượng, các đặc trưng, đoạn đánh giá, quan điểm, người đánh giá
Đối tượng 1.2.1.
Dùng để chỉ thực thể (người, sản phẩm, sự kiện, chủ đề, …) được đánh giá Mỗi đối tượng có một tập các thành phần (components) hay thuộc tính (attributes) gọi chung là các đặc trưng (features) Mỗi thành phần hay thuộc tính lại có một tập các
thành phần hay thuộc tính con Như vậy, một đối tượng O được biểu di n bởi một cặp
[T, A] trong đó T là một cấu trúc phân cấp thành phần cha, thành phần con, A là tập
các thuộc tính của đối tượng O [3]
Ví dụ: Máy ảnh có một tập thành phân: ống kính, pin và các thuộc tính: kích cỡ, khối lượng, chất lượng ảnh Thành phần pin có các thuộc tính con: kích cỡ, thời gian…
Theo định nghĩa này, một đối tượng có thể biểu di n như một cây phân cấp Gốc của cây chính là đối tượng đó, mỗi node không phải gốc là một thành phần hoặc
thành phần con của đối tượng, mỗi cạnh chỉ một quan hệ part-of Mỗi node được gán
một tập các thuộc tính, mỗi quan điểm có thể biểu di n thông qua một node bất kỳ và các thuộc tính của node đó
Trang 15Đoạn đánh giá 1.2.2.
Gọi một tài liệu quan điểm là d, trong trường hợp tổng quát nhất, d bao gồm một tập các câu tuần tự d = {s 1 , s 2, … s m }.Đoạn đánh giá về một đặc trưng f của đối
tượng O trong d là một tập các câu liên tiếp trong d di n tả quan điểm tích cực hay tiêu cực về đặc trưng f Đoạn đánh giá bao gồm tối thiểu ít nhất một câu có thể biểu di n
quan điểm về một đối tượng hoặc thuộc tính của đối tượng Ngoài ra, một câu đơn cũng có thể biểu di n quan điểm trên một hoặc nhiều đặc đặc trưng
Ví dụ: “Chất l ợng âm thanh của chiếc iện thoại này tốt, nh ng tuổi thọ pin
lại ngắn”
Các đặc trưng 1.2.3.
Nếu một đặc trưng f hoặc bất kì từ đồng nghĩa nào với nó xuất hiện trong câu s, thì f là đặc trưng hiện (Explicit feature) trong s Ngược lại, ta nói f là đặc trưng ẩn
(Implicit feature) [3]
Ví dụ:
Máy ảnh này đắt quá: Đặc trưng “giá” là đặc trưng ẩn
Màu sắc của chiếc áo này đẹp ghê: Đặc trưng màu sắc là đặc trưng hiện
Người đưa ra quan điểm 1.2.4.
Người đưa ra quan điểm (Opinion holder) là người hoặc tổ chức thể hiện quan điểm Người đưa ra quan điểm còn gọi là nguồn của quan điểm Trong trường hợp đánh giá sản phẩm, di n đàn, blog thì người đưa ra quan điểm thường là các tác giả của đánh giá hay bài viết đó [3]
Ví dụ: “John bày tỏ sự bất ồng ý kiến của mình v hiệp ớc”
Người đưa ra quan điểm là “John”
Quan điểm 1.2.5.
Một quan điểm trên một đặc trưng f là một nhận xét, thái độ, cảm xúc hay sự đánh giá tích cực hoặc tiêu cực trên đặc trưng f từ một người đưa ra quan điểm
Chiều hướng của một quan điểm trên đặc trưng f có thể là tích cực, tiêu cực
hoặc trung lập Quan điểm hiện (explicit opinion) là một câu thể hiện quan điểm mang tính chủ quan, di n trả trực tiếp quan điểm tích cực hay tiêu cực của tác giả Quan
điểm ẩn (implicit opinion) về một đặc trưng f là câu thể hiện quan điểm tích cực hay
tiêu cực một cách không tường minh [3]
Trang 161.3 Các thách thức trong khai phá quan điểm
Phong cách viết khác nhau 1.3.1.
Thực tế, các bình luận hay quan điểm nhập vào bởi những người khác nhau thì
họ có cách viết khác nhau, từ cách thức sử dụng ngôn ngữ, chữ viết tắt và kiến thức của họ là một thách thức riêng của mỗi người Mọi người đều không bày tỏ ý kiến theo cùng một cách Người ta có thể sử dụng các thuật ngữ trong một câu tiêu đề xuất hiện trên một tờ báo trực tuyến và xuất hiện trong một di n đàn trực tuyến là rất khác nhau (điều này phụ thuộc vào bối cảnh mà quan điểm đó được thể hiện) Trên thực tế, hầu hết trong xử lý văn bản truyền thống thì sự khác biệt nhỏ giữa hai phần của văn bản không thay đổi ý nghĩa nhiều Tuy nhiên trong khai phá quan điểm, "bộ phim hay" là rất khác với "bộ phim không hay" [22]
Quan điểm thay đổi theo thời gian 1.3.2.
Một thách thức khác cần phải xét đến là vấn đề làm thế nào để có thể theo dõi các quan điểm thay đổi theo thời gian Tâm trạng của một người nào đó có thể thay đổi nhưng điều đó không nhất thiết r ng quan điểm về một sản phẩm hoặc dịch vụ nhất định sẽ thay đổi theo Nếu một sản phẩm cải thiện sau một thời gian có thể là vì nhiều người đang hài lòng với nó và vì họ có thể bị thuyết phục sau một cuộc thảo luận dài trong một di n đàn về sản phẩm [22]
Độ mạnh của quan điểm 1.3.3.
Xác định độ mạnh của một quan điểm là một thách thức phải đối mặt trong khai phá quan điểm Nhiều nỗ lực đã được thực hiện để xác định các yếu tố quyết định sức mạnh của một ý kiến trong một bối cảnh Bổ sung thêm việc phân lớp các từ thành các mức độ xu hướng quan điểm khác nhau, một số từ bổ nghĩa có thể được dùng để xác định độ mạnh của quan điểm(“rất”, “một chút”, “hết sức”, “hơi”…) Cụm từ “rất hài lòng” và “hơi hài lòng” sẽ được phân lớp thành rất tích cực và kém tích cực nếu “rất”
và “hơi” được phân tích và sử dụng để xác định mức độ đối lập [22]
Các câu với đánh giá pha trộn 1.3.4.
Một thách thức lớn đối với khai phá quan điểm xuất hiện khi mọi người thể hiện đánh giá tích cực và tiêu cực trong cùng một câu Điều này chủ yếu là kết quả khi mọi người đang giao tiếp thông qua các phương tiện truyền thông không nghi thức như blog và các di n đàn Mọi người có nhiều ý kiến khác nhau trong cùng một câu Những câu như vậy có thể gây khó khăn để phân tích cú pháp hoặc khai phá quan điểm [22]
Trang 171.4 Các i toán trong khai phá quan điểm
Theo Bing Liu [2], khai phá quan điểm có ba bài toán điển hình nhất đó là:
Bài toán phân lớp quan điểm
Tổng hợp ý kiến (Quan điểm)
Khai phá quan điểm so sánh
Phân ớp quan điểm 1.4.1.
Với bài toán này có thể coi khai phá quan điểm như bài toán phân lớp văn bản Bài toán phân lớp một văn bản đánh giá là tích cực hay tiêu cực Ví dụ: với một đánh giá sản phẩm, hệ thống xác định xem nhận xét về sản phẩm ấy là tốt hay xấu Phân lớp này thường là phân lớp ở mức tài liệu Thông tin được phát hiện không mô tả chi tiết
về những gì mọi người thích hay không thích
Mô hình bài toán:
Tập đánh giá D = {di}
Hai lớp đánh giá Pos (Tích cực) và Neg (Tiêu cực)
Bộ phân lớp sẽ phân di vào một trong hai lớp Pos/Neg
Ví dụ: Với một đánh giá về điện thoại Samsung galaxy S4, hệ thống sẽ xác định quan điểm của đánh giá này là khen hay chê (nên mua hay không nên mua)
Khai phá quan điểm so sánh 1.4.2.
Ngoài cách biểu di n các quan điểm b ng cách trực tiếp nhận xét về đối tượng còn có một cách đánh giá là b ng cách so sánh đối tượng muốn nhận xét với một đối tượng khác Ví dụ, khi một người nói một cái gì đó là tốt hay xấu, người ta thường yêu
cầu “so với cái gì?” Vì vậy, một trong những cách quan trọng nhất của đánh giá đối
tượng là so sánh trực tiếp nó với một đối tượng tương tự khác
Ví dụ:
“Kiểu d ng iện thoại Samsung galaxy S4 ẹp hơn galaxy S3” ở đây đặc trưng
kiểu dáng của Samsung galaxy S4 là đối tượng được nhận xét
Khai phá v tổng hợp ý kiến dựa trên đặc trưng 1.4.3.
Bài toán này đi chi tiết vào mức câu để làm rõ đối tượng mà người đưa ra quan điểm thích hay không thích Đối tượng ở đây có thể là sản phẩm, dịch vụ, một chủ đề, một cá nhân hay tổ chức
Ví dụ, trong đánh giá sản phẩm, người đánh giá đưa ra các bình luận tích
cực/tiêu cực về một đặc trưng của sản phẩm Như trong câu “tuổi thọ pin của chiếc
Trang 18camera này hơi ngắn” thì đối tượng được đưa ra bình luận ở đây là “tuổi thọ pin” và
quan điểm này là quan điểm tiêu cực Có hai bài toán đặt ra:
Bài toán 1: Xác định và trích chọn các đặc trưng của đối tượng mà người
dùng đánh giá Ví dụ: “hiệu năng xử lý của chiếc laptop này rất cao” thì đặc trưng của đối tượng “laptop” ở đây là “hiệu năng xử lý”
Bài toán 2: Xác định và xem quan điểm của người đánh giá về đặc trưng
của đối tượng đó là tích cực, tiêu cực, hay trung lập Ví dụ: Trong đánh giá của người dùng về hiệu năng xử lý của laptop thì quan điểm đưa ra là tích cực
1.5 Ứng dụng của khai phá quan điểm
Ứng dụng trong các trang we đánh giá 1.5.1.
Rõ ràng, một máy tìm kiếm hướng quan điểm có thể phục vụ tốt cho việc thu thập và tự động tổng hợp các quan điểm, nhận xét Thay vì có các trang web thu thập nhận xét của mọi người như www.epinions.com ta có thể hình dung ra một trang web
tự động thu thập những thông tin trên một cách nhanh chóng Chủ đề không chỉ bó hẹp
ở những bài đánh giá sản phẩm mà còn có thể bao gồm các ý kiến về vấn đề chính trị,
xã hội [5] …
Ngoài ra, các ứng dụng có thể được xem xét liên quan đến những trang thu thập các bài phê bình Việc tóm tắt những bài phê bình của người dùng cũng được xem là một bài toán quan trọng Ta có thể hình dung các sai sót khi người dùng xếp hạng sản phẩm sẽ được sửa chữa: Nhiều khi người dùng vô tình xếp hạng sản phẩm quá thấp trong khi nhận xét của họ lại đánh giá cao sản phẩm đó
Ứng dụng như một công nghệ th nh phần 1.5.2.
Khai phá quan điểm cũng có vài trò quan trọng như một công nghệ khả dụng cho các hệ thống khác Một tiềm năng mà ta có thể áp dụng trong việc mở rộng các hệ thống khuyến cáo, giúp cho hệ thống không đưa ra các sản phẩm nhận được nhiều phản hồi tiêu cực để khuyến cáo người dùng [5]
Trong các hệ thống trực tuyến, các quảng cáo được hiển thị ở góc màn hình cần được kiểm tra xem có phù hợp với nội dung trang web hay không Ví dụ trong một trang web có nội dung chuyên về gan mà hiển thị các quảng cáo về các sản phẩm rượu
là không hợp lý, nếu hiện thị quảng cáo về các loại thuốc trị viêm gan sẽ phù hợp với nội dung hơn Trong các hệ thống tinh vi, các quảng cáo về sản phẩm tương ứng sẽ được đưa lên nếu như phát hiện được trong nội dung có những nhận xét tích cực về
Trang 19sản phẩm đó Và sẽ tuyệt vời hơn nữa nếu đổi quảng cáo khác khi sản phẩm có những đánh giá tiêu cực
Hệ thống hỏi đáp là một lĩnh vực khác mà khai phá quan điểm có thể chứng tỏ
sự hữu ích Ví dụ, các câu hỏi hướng quan điểm có thể yêu cầu nhiều xử lý khác nhau Lita và cộng sự [15] đề nghị r ng đối với các câu hỏi định nghĩa, ngoài việc cung cấp câu trả lời, việc cung cấp các thông tin khác như làm thế nào để một thực thể được hiển thị sẽ rất tốt để thông báo cho người dùng
Ứng dụng trong kinh doanh thông minh và chính phủ thông 1.5.3.
minh
Khai phá quan điểm rất thích hợp cho các ứng dụng thông minh Thực vậy, kinh doanh thông minh là yếu tố chính đ ng sau sự quan tâm của các công ty, doanh nghiệp đến lĩnh vực này [5]
Ta xem xét một ví dụ sau: Một nhà sản xuất máy vi tính lớn đang thất vọng về doanh thu thấp bất thường của mình Công ty đưa ra câu hỏi “Tại sao khách hàng không mua máy tính của chúng ta?” Nhưng thông tin cụ thể như trọng lượng, giá thành của đối thủ là mục tiêu chính để khảo sát Ngoài ra, các đánh giá chủ quan về thiết kế, dịch vụ khách hàng… cũng cần được xem xét
Các công nghệ phân tích cảm nghĩ có khả năng rút trích những ý kiến từ các văn bản phi cấu trúc do con người viết ra Đó sẽ là những công cụ tuyệt vời để đảm nhận những tác vụ xử lý thông minh doanh nghiệp liên quan đến các trường hợp nói ở trên Sẽ rất khó để trực tiếp khảo sát người tiêu dùng máy tính chưa hề tiếp xúc với công ty Thay vào đó, ta có thể sử dụng một hệ thống dò tìm các trang blog cá nhân, các trang hộ trợ đánh giá như www.epinions.com Sau đó, hệ thống sẽ tạo ra bản tóm tắt những ý kiến phê bình của cá nhân hoặc sẽ liệt kê các điểm có cùng chung một quan điểm Việc này giúp cho người phân tích không phải đọc quá nhiều bài phê bình
có nội dung giống nhau Bên cạnh việc quản lý thương hiệu và quan hệ khách hàng, các doanh nghiệp cũng muốn theo dõi các quan điểm của khách hàng, để có thể thực hiện dự doán xu hướng của người dùng phục vụ cho việc bán bàng hoặc các công việc liên quan [5]
Chính phủ thông minh là một dạng ứng dụng cũng rất hữu ích Như ta đã biết, ý kiến là thứ mà các chính trị gia rất quan tâm Một số công trình tập trung vào việc tìm hiểu các cử tri đang nghĩ gì Hoặc chính phủ muốn khảo sát ý kiến của người dân về một dự luật mới [5]
Trang 20Ứng dụng trong các ĩnh vực khác 1.5.4.
Mối quan tâm đến quan điểm trong khoa học máy tính cũng có liên quan rất lớn đến các lĩnh vực khác Như chúng ta đều biết, các ý kiến rất quan trọng trong chính trị Một vài nghiên cứu trọng tâm vào việc nắm bắt được suy nghĩ của những người bầu
cử : “Cử tri đang nghĩ gì? ”, số lượng cử tri ủng hộ hay phản đối là bao nhiêu [5]
Khai phá quan điểm có vai trò quan trọng như một giải pháp công nghệ chính trong eRulemaking, cho phép phân tích quan điểm mà mọi người đệ trình về các chính sách hay dự thảo điều chỉnh của chính phủ [5]
Các tương tác với xã hội học hứa hẹn nhiều thành quả rực rỡ Ví dụ, vấn đề làm thế nào để các ý tưởng hay cải cách được nhân rộng, liên quan đến câu hỏi “Ai là người có ý kiến tích cực hay tiêu cực đối với ý tưởng hay cái cách đó”, và ai sẽ tiếp thu ít hay nhiều từ các thông tin truyền tải từ một nguồn đã đưa
1.6 Tóm tắt Chương một
Trong chương này luận văn giới thiệu khái quát bài toán khai phá quan điểm, các khái niệm liên quan trong khai phá quan điểm, các khó khăn cũng như thử thách trong khai phá quan điểm, các bài toán và ứng dụng trong khai phá quan điểm Trong chương tiếp theo, luận văn sẽ đi sâu vào trình bày các phương pháp trong bài toán tổng hợp ý kiến
Trang 21Chương 2 CÁC PHƯƠNG PHÁP TỔNG HỢP Ý KIẾN 2.1 Giới thiệu
Bài toán Tổng hợp ý kiến (Tổng hợp quan điểm) là một bài toán điển hình trong khai phá quan điểm Trong vài năm gần đây, nhiệm vụ tổng hợp ý kiến đã có một sự thu hút lớn đối với cộng đồng xử lý ngôn ngữ tự nhiên (NLP) và khai phá văn bản Do
có rất nhiều nhóm nghiên cứu khác nhau có quan điểm khác nhau về khái niệm “Tổng hợp ý kiến”, vì vậy luận văn coi r ng những nghiên cứu nh m tạo ra một bản tổng hợp ngăn gọn, d hiểu của một lượng lớn ý kiến, quan điểm gọi là “Tổng hợp ý kiến” [9]
Hình thức đơn giản nhất của một bản tổng hợp ý kiến là kết quả dự đoán chiều hướng cảm xúc Ngoài hình thức như vậy, hình thức mới của tổng hợp ý kiến bao gồm tổng hợp cấu trúc, cung cấp một phân tích được sắp xếp theo các khía cạnh chủ đề, rất nhiều hình thức khác nhau của bản tổng hợp nguyên bản và trực quan hóa theo thời gian Các hình thức tổng hợp khác nhau của tổng hợp ý kiến bổ sung cho nhau b ng cách cung cấp các mức độ hiểu khác khau Ví dụ, dự đoán chiều hướng cảm xúc các ý kiến của một sản phẩm có thể đưa ra một quan điểm rất chung của người dùng cảm nhận về sản phẩm Nếu người dùng cần chi tiết hơn thì tổng hợp ý kiến dựa trên đặc trưng hoặc tổng hợp nguyên bản sẽ rất cần thiết [9]
2.2 Các nghiên cứu iên quan đến tổng hợp ý kiến
Nghiên cứu của Bing Liu năm 2006 [2] bao gồm các kỹ thuật khác nhau trong khai phai phá quan điểm và tổng hợp ý kiến Trong cuốn sách này, Liu định nghĩa khái niệm “ quan điểm” và “ khai phá quan điểm” qua đó giới thiệu các khái niệm cơ bản liên quan đến chúng Sau đó, ông mô tả các kỹ thuật trong khai phá quan điểm bao gồm phân lớp quan điểm, tổng hợp ý kiến và phát hiện rác quan điểm Một phần lớn trong cuốn sách được dành để mô tả định nghĩa và kỹ thuật phân lớp quan điểm và chỉ một phần nhỏ của cuốn sách thảo luận về công việc sinh ra bản tông hợp dựa trên phân lớp quan điểm Hơn nữa, phần lớn các công việc tổng hợp ý kiến được thảo luận là các
kỹ thuật dựa trên tập luật và phương pháp Heuristic, bỏ qua một số phương pháp xác suất đã được xuất bản trước đó
Năm 2010, Bing Liu viết một chương khác về “Phân tích ý kiến chủ quan” [3] Trọng tâm của chương sách hoàn toàn về các kỹ thuật phân lớp quan điểm, không bao gồm các kỹ thuật về tổng hợp ý kiến Trong luận văn này, luận văn tập trung vào các
kỹ thuật trong tổng hợp ý kiến vượt qua cả vấn đề phân lớp quan điểm, hay sử dụng phân lớp ý kiến như một thành phần trong tổng hợp ý kiến
Nghiên cứu của Pang và Lee năm 2008 [5] về khai phá quan điểm và phân tích
ý kiến cung cấp một cách bao quát hơn về các nhiệm vụ liên quan đến tổng hợp ý kiến
Trang 22Nghiên cứu này trọng tâm vào khai phá quan điểm, rộng hơn là trọng tâm vào tổng hợp ý kiến Trong nghiên cứu của Pang [5], các phương pháp được mô tả ở một mức rất cao, vấn đề phân lớp và các công việc liên quan khác với cách nhìn nhận của Kim
và cộng sự [9] Tổng hợp ý kiến được phân ra là đơn văn bản, đa văn bản, phương pháp tiếp cận nguyên bản hay trực quan
Trong báo cáo của Kim và cộng sự [9], tổng hợp ý kiến được phân chia các kỹ thuật thành ba bước riêng biệt (trích xuất đặc trưng, dự đoán cảm xúc, sinh bản tổng hợp) và cố gắng phân chia các kỹ thuật sử dụng trong mỗi bước để tạo ra một cái nhìn vừa bao quát vừa chi tiết về những kỹ thuật này Với việc tập trung vào một phạm vi nhỏ, Kim và cộng sự [9] có thể sử dụng nhiều phân chia phức tạp cho tổng hợp ý kiến Điều này cho phép người đọc so sánh giữa các phương pháp Kim và cộng sự [9] cũng cung cấp nhiều hướng đánh giá cho tổng hợp ý kiến, vấn đề chưa đề cập trong các nghiên cứu khác
2.3 Phân oại tổng hợp ý kiến
Theo định nghĩa và phạm vi nghiên cứu, tổng hợp ý kiến có thể phân loại dựa trên việc yêu cầu một tập các khía cạnh đặc trưng và không yêu cầu một tập các khía cạnh đặc trưng Chúng ta gọi là tổng hợp dựa trên đặc trưng và tổng hợp không dựa trên đặc trưng [9] Hình 2.1 mô tả tổng quan về các bước trong tổng hợp ý kiến dựa trên đặc trưng
Hình 2.1 Ba b ớc của tổng hợp ý iến dựa trên ặc tr ng
Tổng hợp ý kiến dựa trên đặc trưng chia các văn bản đầu vào thành các đặc trưng, còn gọi là khía cạnh hay chủ đề con, và sinh bản tổng hợp của mỗi khía cạnh
Trang 23[9] Ví dụ, tổng hợp của sản phẩm “iPod” có các đặc trưng là „tuổi pin‟, thiết kế, giá…
B ng cách phân đoạn văn bản đầu vào thành các đơn vị nhỏ hơn, tổng hợp dựa trên đặc trưng có thể hiển thị chi tiết hơn theo một cách cầu trúc Phân chia đặc trưng có thể hữu ích hơn khi quan điểm tổng thể khác biệt so với quan điểm của từng khía cạnh bởi vì tổng hợp dựa trên đặc trưng có thể biểu di n quan điểm riêng biệt cho mỗi đặc trưng [9] Các phương pháp tiếp cận dựa trên đặc trưng rất phổ biến và được nghiên cứu rất nhiều trong những năm qua [12,13]
Tổng hợp ý kiến không dựa trên đặc trưng bao gồm các loại tổng hợp khác mà không chia dữ liệu thành các chủ đề nhỏ Tổng hợp ý kiến không dựa trên đặc trưng giả sử r ng văn bản ý kiến được chia theo đặc trưng trước hoặc đơn giản đưa ra một tổng hợp chung mà không xem xét đến các khía cạnh [9] Cách tiếp cận như vậy đề cập đến nhiều khái niệm đa dạng từ tổng hợp văn bản để trực quan hóa thông tin [8]
2.4 Tổng hợp ý kiến dựa trên đặc trưng
Kiểu phổ biến của tổng hợp ý kiến là tổng hợp dựa trên đặc trưng Phương pháp này liên quan đến việc tạo ra bản tổng hợp ý kiến dựa trên một tập các chủ đề (gọi là đặc trưng) Các đặc trưng này thường là các chủ đề tùy ý mà được xem là quan trong đối với văn bản ý kiến [9] Nhìn chung, tổng hợp quan điểm theo khía cạnh chia làm 3 bước riêng biệt:
Xác định đặc trưng, thuộc tính
Dự đoán cảm xúc
Sinh bản tóm tắt
Bước xác định đặc trưng, thuộc tính được sử dụng để tìm các chủ đề quan trọng hàng đầu trong văn bản được tóm tắt Bước dự đoán cảm xúc được sử dụng để xác định định hướng tình cảm (tích cực hay tiêu cực) về các khía cạnh được tìm thấy trong bước đầu tiên Cuối cùng, bước tổng hợp được sử dụng để trình bày các kết quả 2 bước trước đó một cách hiệu quả hơn [9]
Các phương pháp và kỹ thuật khác nhau đã được đề xuất để giải quyết những thách thức trong mỗi bước Trong các phần sau đây, luận văn sẽ mô tả kỹ thuật cốt lõi được sử dụng trong bước xác định đặc trưng, dự đoán cảm xúc, tóm tắt quan điểm Trong Hình 2.2, Kim và cộng sự trình bày các kỹ thuật được sử dụng trong mỗi bước [9]
Trang 24Hình 2.2 C c ỹ thuật tổng hợp ý iến dựa trên ặc tr ng
Trang 25Nhận diện đặc trưng 2.4.1.
Xác định thuộc tính đặc trưng của thực thể liên quan đến việc xác định chủ đề nổi bật trong văn bản tổng hợp Mục đích của bước này là để tìm thấy những đề mục nhỏ Trong một số trường hợp, các chủ đề được cho là đã biết và do đó bước này là không cần thiết [9]
Ví dụ: Nếu chúng ta muốn tạo ra một bản tổng hợp ý kiến về 'iPod', một số các đặc trưng phổ biến là tuổi thọ pin, chất lượng âm thanh , d sử dụng
ệ ế đặ ư / ộ í
2.4.1.1.
Hầu hết các phương pháp tiếp cận trong [13, 17] cố gắng để xác định các đặc trưng trong văn bản ý kiến với sự giúp đỡ của kỹ thuật dựa trên NLP Gán nhãn từ loại (POS) và phân tích cây cú pháp là điểm khởi đầu rất phổ biến cho việc tìm kiếm đặc trưng
Ví dụ: Các khía cạnh thuộc tính thường là cụm danh từ, ngay cả phương pháp POS rất cơ bản cũng cho phép mọi người tìm thấy các khía cạnh ứng cử viên
Trong nghiên cứu của Lu và cộng sự [14] phương pháp phân tích cú pháp đã được sử dụng để xác định đặc trưng cho các ý kiến ngắn Trong các ý kiến ngắn, hầu hết các ý kiến được thể hiện trong các cụm từ ngắn gọn như “well packaged” hay
“excellent seller” Với suy nghĩ này, người ta cho r ng mỗi cụm từ được phân tích thành một cặp thuật ngữ chính và bổ ngữ, thuật ngữ chính là về một khía cạnh hoặc tính năng, và bổ ngữ bày tỏ một số ý kiến hướng tới khía cạnh này Các thuật ngữ chính trong văn bản sau đó được nhóm lại để xác định k khía cạnh quan trọng nhất [9]
VD: Fast [bổ ngữ] shipping [thuật ngữ chính]
Popescu và Etzioni vào năm 2005 [17] đã sử dụng hệ thống KnowItAll, một hệ thống trích xuất thông tin độc lập miền lĩnh vực trên nền tảng web để trích xuất các thuộc tính rõ ràng cho các lớp sản phầm được đưa ra từ các dữ liệu đã phân tích cú pháp Công việc này sử dụng một cách tiếp cận phức tạp hơn để trích xuất đặc trưng so với các cách làm khác Đầu tiên, hệ thống đệ quy xác định tất cả các thành phần (ví dụ
như nắp máy quét) và các thuộc tính của lớp sản phẩm nhất định (ví dụ như kích thước
máy quét) cho đến khi các ứng cử viên không được tìm thấy Sau đó, hệ thống tìm các khái niệm liên quan và trích xuất các bộ phận và thuộc tính của chúng Để tìm các thành phần và thuộc tính, các cụm danh từ được trích xuất từ đánh giá, và các cụm từ
mà đáp ứng một độ hỗ trợ tối thiểu được giữ lại Sau đó hệ thống đánh giá các thuộc tính của KnowItAll, đánh giá mỗi cụm danh từ b ng chỉ số PMI tính toán giữa cụm từ
và phân biệt các liên kết với lớp sản phẩm Các bộ phận sau đó được phân biệt với các thuộc tính b ng cách sử dụng từ điển WordNet [9]
Trang 26Ví dụ: Máy quét, máy quét có, máy quét đi kèm với, … cho các lớp quét
Các phương pháp tiếp cận NLP như gán nhãn POS và phân tích cú pháp khá hiệu quả cho việc trích trọn thuộc tính Đây là các kỹ thuật được nghiên cứu rất tốt, và
có độ chính xác cao Một vấn đề tiềm năng là tính thực ti n của các cách tiếp cận Tốc
độ của phân tích cú pháp hoặc gắn th vẫn chưa đủ "hiệu quả" cho các xử lý quy mô lớn Ngoài ra, kỹ thuật NLP ở mức nông như vậy có thể không đủ phát hiện tất cả các tính năng Điều này là bởi vì các tính năng không phải lúc nào cũng là danh từ, và
thường không được quy định rõ ràng trong văn bản Ví dụ câu “m y nghe nhạc mp3
nhỏ”, ngầm đề cập đến tính năng “size”, nhưng không có đề cập đến từ “size” trong
câu Điều này có thể đòi hỏi một số kiến thức hiểu biết về tri thức miền ứng dụng hoặc
kỹ thuật NLP đã nói ở phần trên Cách tiếp cận này không hạn chế việc chỉ một số từ
và cụm từ có thể trở thành thuộc tính ứng cử Thay vào đó, các thông tin khác như
th ng tin bổ trợ được sử dụng để xác định một từ hoặc cụm từ cụ thể có là đặc trưng
hay không Một số đặc trưng không có triển vọng thậm chí còn bị cắt tỉa với việc sử dụng các thông tin dự phòng và luật dư thừa Phương pháp phát hiện các đặc trưng này cho thấy hiệu xuất hợp lý đặc biệt là với đánh giá sản phẩm [9]
Hu và Liu [7] sử dụng phương pháp khai phá luật kết hợp để thực hiện công việc trích chọn thuộc tính Phương pháp của họ dựa trên ý tưởng r ng mỗi phân khúc câu có chứa nhiều nhất là một đặc trưng độc lập Đầu tiên, mỗi câu nhận xét được chia thành một tập hợp các phân đoạn câu trên cơ sở tách ra b ng “.”, “,”, “và”, “nhưng” Sau đó tất cả các từ chỉ đặc trưng được gán nhãn thủ công Với tập dữ liệu đã được phân đoạn và gán nhãn, khai phá luật kết hợp được thực hiện học các luật A1A2…An
[thuộc tính] để dự đoán các thuộc tính, dựa trên các từ còn lại trong phân đoạn câu
và th POS của chúng Vì khai phá luật kết hợp không tính toán đến thứ tự của A1,
A2… An trong câu, nhiều luật có thể được cắt tỉa dựa trên sự không thống nhất giữa các mô hình với ngữ pháp tiếng Anh Đặc trưng trên một tập dữ liệu đầu vào mới được sau đó được chiết xuất b ng cách sử dụng những luật đã được đào tạo Trong trường hợp hai luật dẫn đến hai thuộc tính khác nhau cho các phân đoạn cùng một câu, các thuộc tính thường xuyên xảy ra hơn được chọn
Zhuang và cộng sự [21] sử dụng một cách tiếp cận khác để trích xuất đặc trưng trong miền ý kiến phim ảnh Vì nhiều đặc trưng của họ xung quanh di n viên của một
bộ phim, họ xây dựng một danh sách các đặc trưng b ng cách kết hợp tất cả các di n
Trang 27viên từ mỗi phim có nhận xét Một tập các biểu thức chính quy sau đó được dùng để xác định xem các từ trong một nhận xét khớp với một trong các từ trong danh sách đặc trưng
Ku và cộng sự 2006 [10] giới thiệu một cách khá đơn giản để trích xuất đặc trưng Họ coi các tần số ở mức đoạn văn cũng như là các tần số mức văn bản để tìm ra các đặc trưng Trong khi hầu hết các công trình trước đây chỉ sử dụng tần số tài liệu hoặc tần số các từ bên trong tài liệu, Ku và cộng sự đã phân tích tần số trên các đoạn văn và tần số bên trong các đoạn
Một vấn đề của cách tiếp cận khai phá là nó có thể làm việc khác nhau đối với các miền ứng dụng khác nhau Đôi khi tri thức kinh nghiệm được sử dụng để tìm kiếm đặc trưng cần phải định nghĩa lại đối với các miền ứng dụng khác Vì vậy, các tham số giống như ngưỡng hỗ trợ cần phải được phù hợp cho các ứng dụng khác vì một quá trình thống nhất và ổn định không thể đảm bảo với một cài đặt toàn cục [9]
Dự đoán chiều hướng quan điểm 2.4.2.
Bước phát hiện thuộc tính thường được theo sau là bước dự đoán cảm xúc trên các văn bản có chứa thuộc tính được phát hiện trước đó Bản thân dự đoán cảm xúc là một lĩnh vực nghiên cứu được nhiều sự quan tâm [9]
Mục đích của dự đoán cảm xúc trong bối cảnh hiện nay là cho phép phát hiện định hướng cảm xúc (tích cực hay tiêu cực) vào các đặc trưng, thuộc tính Những người khác nhau có thể có quan điểm khác nhau về các đặc trưng tương tự [9]
Ví dụ: Một số người có thể thấy r ng tuổi thọ pin của iPod là tốt, trong khi những người khác có thể thấy r ng nó không kéo dài lâu Như vậy, kết quả của các dự đoán dựa trên khía cạnh tâm lý sẽ giúp người dùng phân loại các quan điểm dựa trên khía cạnh
ự đ ự ư
2.4.2.1.
Nghiên cứu của Lu và cộng sự 2009 [14] là một trong một những nghiên cứu sử dụng phương pháp học máy để tổng kết quan điểm dựa trên khía cạnh Họ đề xuất hai
phương pháp để phân loại mỗi cụm từ nhóm vào k đặc trưng quan trọng trong một
đánh giá r(f) Đầu tiên họ cho r ng đánh giá của mỗi đặc trưng phù hợp với xếp hạng tổng thể của nó Nói cách khác, mỗi cụm từ được đề cập trong một bình luận chia s những đánh giá tương tự như đánh giá tổng thể các ý kiến Với giả định này, xếp hạng khía cạnh có thể được tính toán bởi xếp hạng tổng hợp của tất cả các cụm từ về mỗi khía cạnh
Trong phương pháp thứ hai, thay vì mù quáng gán cùng một tỷ lệ cho mỗi cụm
từ như đánh giá tổng thể của bình luận, họ học phân loại mức độ sử dụng thông tin
Trang 28toàn cục về xếp hạng tổng thể của tất cả các ý kiến Sau đó, mỗi cụm từ được phân loại theo bộ phân lớp đã được đào tạo Họ chủ yếu phân loại từng cụm b ng cách chọn tỉ lệ lớp có xác suất cao nhất sinh các bổ ngữ của các cụm từ, về cơ bản là một phân loại Naive Bayes với việc đồng nhất trước khi mỗi lớp được đánh giá Việc xếp hạng sau
đó được tổng hợp b ng cách tính tỉ lệ trung bình của mỗi cụm từ trong một khía cạnh Phương pháp dự đoán này được đưa ra làm việc tốt hơn nhiều hơn so với chỉ sử dụng xếp hạng tổng thể
Việc chuẩn bị một lượng dữ liệu học lớn là một thách thức trong việc sử dụng phương pháp học máy, nó thậm chí còn khó khăn hơn việc tìm dữ liệu cho miền lĩnh vực chung, và mô hình học trong một miền lĩnh vực có thể không làm việc tốt trong miền lĩnh vực khác [9]
ự ự ư đ / ế ợ
2.4.2.2.
Kỹ thuật này rất phổ biến trong ngữ cảnh tổng hợp ý kiến [10,13,21] Kỹ thuật này thường dựa vào một từ điển cảm xúc Từ điển thường chứa một danh sách các từ tích cực và tiêu cực được sử dụng để so sánh với các từ trong văn bản ý kiến.Ví dụ, nếu một câu ý kiến có nhiều từ n m trong từ điển tích cực, chúng ta có thể phân loại
nó như có một định hướng tích cực Những danh sách từ này thường được sử dụng kết hợp với một bộ quy tắc hoặc có thể được kết hợp với các kết quả của phân tích cú pháp hoặc gắn th POS
Để xác định các ý kiến về các khía cạnh và chiều hướng quan điểm Hu và Liu [7] đề xuất một phương pháp đơn giản nhưng hiệu quả dựa trên từ điển liên quan Họ bắt đầu với một bộ khoảng 30 tính từ hạt giống cho mỗi chiều hướng được xác định trước (tích cực và tiêu cực) Sau đó, họ sử dụng các mối quan hệ tương đồng và trái nghĩa được định nghĩa trong từ điển liên quan cho việc phân lớp chiều hướng tích cực hay tiêu cực đến một tập hợp lớn của các tính từ Vì vậy, chiều hướng của một ý kiến
về một khía cạnh đã được quyết định bởi chiều hướng của tính từ xung quanh nó
Zhuang và cộng sự [21] sử dụng quan hệ phụ thuộc để xác định các quan điểm ứng với các từ đặc trưng Để xác định chiều hướng quan điểm, họ sử dụng một chiến lược tương tự của Hu và Liu [8] Họ định ra 100 từ quan điểm tích cực và tiêu cực từ tập dữ liệu đã gán nhãn sau đó sử dụng WordNet để gán chiều hướng quan điểm cho các từ khác Hơn nữa, chiều hướng quan điểm của một từ bị đảo ngược nếu có mối
quan hệ phủ định như là “not” hay “anti” trong đó
Phương pháp từ điển làm việc tốt với nhiều miền ứng dụng như đánh giá sản phẩm khi mọi người thường di n đạt ý kiến của họ tường minh hơn Tuy nhiên trong nhiều miền ứng dụng khó hơn như phim ảnh, mọi người thường nói rất hàm ý thì phương pháp này đạt hiệu suất thấp vì ngữ cảnh thường bị bỏ qua Hơn nữa, hiệu suất của phương pháp này phụ thuộc vào chất lượng của từ điển dữ liệu đã dùng Để đạt
Trang 29hiệu suất cao, các từ điển khác nhau được định nghĩa cho các miền ứng dụng khác nhau [9]
Sinh ản tổng hợp 2.4.3.
Sử dụng kết quả của phát hiện thuộc tính khía cạnh và dự đoán cảm xúc, bước sau đó rất quan trọng để tạo ra và trình bày tổng hợp ý kiến cuối cùng trong một định dạng hiệu quả và d hiểu Điều này thường bao gồm tập hợp các kết quả của hai bước đầu tiên và tạo ra một bản tổng hợp xúc tích tóm tắt
2.4.3.1 Tổng hợp thống kê
Trong khi có rất nhiều định dạng khác nhau của bản tổng hợp, nhiều nhất thường được sử dụng định dạng là một bản tổng hợp hiển thị số liệu thống kê được giới thiệu bởi Hu và Liu [8], Zhuang và cộng sự [21]
Hình 2.3 Ví dụ v tổng hợp ý iến dựa trên thống ê
Tổng hợp thống kê trực tiếp sử dụng kết quả từ hai bước trước đó - một danh sách các khía cạnh và kết quả dự đoán tình cảm Qua đó hiển thị số các ý kiến tích cực
và tiêu cực đối với mỗi khía cạnh Hình 2.3 mô tả một phương pháp tổng hợp thống kê được Liu và cộng sự sử dụng [12] Tổng hợp thống kê được áp dụng rộng rãi ngay cả trong thế giới thương mại Hình 2.4 mô tả một ví dụ về cấu trúc tổng hợp trên trang tìm kiếm Bing Trong việc tổng hợp ý kiến về đối tượng máy ảnh Sony Camera DVD
650, các đặc trưng được liệt kê và tính toán số các ý kiến nhận xét về các đặc trưng đó
Trang 30Hình 2.4 Cấu trúc tổng hợp ý iến trên trang tìm iếm Bing
Theo một cách khác, các ý kiến được phân lớp dựa trên các đặc trưng và chiều hướng quan điểm Hình 2.5 là một ví dụ cho cách tổng hợp này
Hình 2.5 Phân lớp c c ý iến dựa trên ặc tr ng và h ớng quan iểm
Trang 31Với các phương pháp mô hình chủ đề, một bản tóm tắt ở mức độ các từ thường được cung cấp cho mỗi chủ đề bởi vì danh sách các từ và xác suất của chúng là một đầu ra ngẫu nhiên [19] Một bản tóm tắt mức câu có thể cung cấp một mức độ sâu hơn
về sự hiểu biết một chủ đề B ng cách lựa chọn câu được đứng đầu mỗi thể loại, ta có thể để hiển thị các câu đại diện tiêu biểu nhất Ku và cộng sự 2006 [10] xếp hạng câu dựa trên chỉ số TF.IDF của các từ và chọn các câu liên quan để hiển thị bản tổng hợp
2.4.3.3 Xếp hạng tổng hợp
Lu và cộng sự [14] đề xuất một phương pháp tóm tắt tiên tiến xếp hạng tổng hợp trong đó kết hợp tóm tắt thống kê và lựa chọn văn bản Dựa trên việc tìm kiếm các khía cạnh b ng cách phân cụm và sử dụng mô hình chủ đề đưa ra kết quả dự đoán cảm xúc trung bình của các cụm từ cho từng khía cạnh như là đánh giá cảm xúc cuối cùng cho từng khía cạnh đó, Hình 2.6 mô tả cho cách tổng hợp này
Hình 2.6 Ph ơng ph p sinh bản tổng hợp cấu trúc của Lu và cộng sự
2.4.3.4 Tổng hợp với thời gian iểu
Ku và cộng sự [10] cho thấy xu hướng ý kiến theo một dòng thời gian Tổng hợp ý kiến tập trung vào việc tìm kiếm các số liệu thống kê dữ liệu hiện tại Trong
Trang 32thực tế, ý kiến thay đổi theo thời gian Tổng hợp ý kiến với một thời gian giúp chúng
ta thấy xu hướng ý kiến về một mục tiêu d dàng, và nó cũng có thể cho chúng ta biết
ý tưởng để phân tích Để tìm ra những thay đổi ý kiến của nhân dân, chúng ta có thể phân tích sự kiện xảy ra với sự thay đổi ý kiến quyết liệt
Hình 2.7 Tổng hợp ý iến theo th i gian
Hình 2.7 cho thấy thay đổi ý kiến đối với bốn ứng cử viên bầu cử, và chúng ta
có thể d dàng xác định r ng có một sự thay đổi quan điểm mạnh mẽ vào ngày bầu cử
2.5 Tổng hợp ý kiến không dựa trên đặc trưng
Tổng hợp quan điểm không dựa trên khía cạnh bao gồm tất cả các loại tổng hợp
ý kiến khác, chúng không phân chia các văn bản đầu vào thành các khía cạnh và chủ
đề nhỏ Phương pháp này giả định các văn bản ý kiến đã được phân chia theo các khía cạnh hoặc đơn giản chỉ là cung cấp một bản tổng quát mà không cần xem xét đến các khía cạnh [9]
Tổng hợp cơ ản 2.5.1.
Sử dụng kết quả dự đoán từ phân loại cảm xúc, tổng hợp quan điểm cơ bản có thể được tạo ra Phân loại tình cảm quyết định chiều hướng cảm xúc của đầu vào văn bản trên một đơn vị phân loại (câu, tài liệu, ) B ng cách đếm và báo cáo số ý kiến tích cực và ý kiến tiêu cực, chúng ta có thể d dàng tạo ra một bản tổng hợp ý kiến thống kê đơn giản
Bản tóm tắt này thể hiện sự phân bố ý kiến tổng thể của dữ liệu đầu vào mà không có bước xác định khía cạnh Tuy nhiên, loại hình này của tổng chỉ có thể hiển thị kết quả phân tích tâm lý tại một mức độ rất thô Trong khi định dạng được sử dụng
Trang 33trong phân loại ý kiến đơn giản đã được áp dụng rộng rãi, như một bản tóm tắt có thể không đủ để giúp mọi người hiểu các chi tiết cụ thể trong ý kiến Điều này thúc đẩy các nghiên cứu tổng hợp quan điểm dựa trên khía cạnh
Tổng hợp văn ản 2.5.2.
2.5.2.1 Hội nhập quan điểm
Lu và Zhai [14] sử dụng chiến lược khác nhau để xử lý văn bản tùy thuộc vào các loại nguồn khác nhau Hình 2.8 mô tả một ví dụ về phương pháp tổng hợp này
Hình 2.8 Ví dụ v hội nhập quan iểm
Họ phân chia văn bản ý kiến thành hai loại, ý kiến chuyên gia và dùng thử bình thường kiến chuyên gia là bài báo mà thường là cũng có cấu trúc và d dàng để tìm thấy tính năng Ví dụ, chuyên gia bình luận CNET hay các bài viết trên Wikipedia là những bài viết ý kiến chuyên gia Mặc dù ý kiến chuyên gia là khá đầy đủ nhưng không được cập nhật thường xuyên, do đó chúng thường không phải là những nhận xét mới Các ý kiến thông thường là các bài viết không có cấu trúc khác Hầu hết các bài viết trên blog cá nhân và đánh giá của người dùng được coi là ý kiến bình thường Họ
có thể có thông tin không quan trọng, nhưng họ có xu hướng phải được cập nhật thường xuyên hơn, do đó, chúng phản ánh tin tức gần đây rất tốt
Hội nhập quan điểm là để kết hợp hai nguồn ý kiến và cho ra một bản tổng hợp hoàn thiện Đầu tiên, họ trích xuất thông tin cấu trúc (dữ liệu đặc trưng) từ ý kiến của chuyên gia để phân cụm các tài liệu chung B ng cách sử dụng một mô hình chủ đề bán giám sát sử dụng kỹ thuật PLSA, họ tận dụng lợi thế của hai nguồn dữ liệu khác nhau Các đặc trưng trích xuất từ ý kiến chuyên gia được dùng như tri thức tiền
Trang 34nghiệm cho bước thứ hai là phân tích các quan điểm thông thường kiến tương tự được tích hợp vào ý kiến chuyên gia, và thông tin về mỗi đặc trưng không có trong ý kiến chuyên gia được thêm vào bản tổng hợp như là các ý kiến bổ sung Thêm vào đó, các thông tin từ các ý kiến thông thường về các đặc trưng được thêm vào trên các đặc trưng mới thêm Bởi vì có thể chèn thêm bất kỳ loại ý kiến chuyên gia nào, nghiên cứu này có thể áp dụng cho bất kỳ lĩnh vực nào [9]
Phương pháp đã đề xuất sử dụng một kiểu ý kiến chuyên gia làm dữ liệu đầu vào Tuy nhiên, có thể có mâu thuẫn giữa các ý kiến chuyên gia với các cấu trúc đặc trưng khác nhau Việc làm sạch dữ liệu và phương pháp liên kết có thể hữu ích cho việc phân tích và kết hợp các cấu trúc của các nguồn ý kiến chuyên gia khác nhau Vì vậy, chúng ta có thể có danh sách đặc trưng hoàn thiện hơn
2.5.2.2 Tổng hợp tương phản
Các phương pháp tổng hợp ý kiến hiện tại thường sinh ra hai tập câu: Tích cực
và tiêu cực Các phương pháp dựa trên đặc trưng thường chia các câu dựa trên các đặc trưng con Tuy nhiên, người dùng vẫn cần chia theo từng câu để hiểu ý kiến một cách chi tiết hơn Đặc biệt, có thể có các câu có chiều hướng quan điểm lẫn lộn rất khó để phân lớp rõ ràng
Ví dụ: Cho hai câu “Tuổi của pin thì dài trong khi chúng tôi ít khi sử dụng nút bấm” và “tuổi của pin thì ngắn trong khi chúng tôi sử dụng nút bấm rất nhiều” sẽ được phân lớp tích cực và tiêu cực riêng, tuy nhiên họ đang nói cùng một sự việc
Kim và Zhai [8] đề xuất một phương pháp cho phép hiện thị ý kiến tương phản (COS) rất hiệu quả Tổng hợp tương phản tiếp tục tổng hợp đầu ra của bản tổng hợp đã tồn tại Đưa các câu tích cực và tiêu cực làm đầu vào, phương pháp này sinh ra cặp câu tương phản Để có một tổng hợp tương phản, các cặp câu phải biểu di n các câu đầu vào tương phản tốt để cho thấy hiệu quả hơn Họ tập hợp các vấn đề thành một nền tảng tối ưu và đề xuất hai phương pháp xấp xỉ để biểu di n cặp câu so sánh Phương
pháp thứ nhất phân cụm mỗi câu tích cực và tiêu cực thành k cụm và tìm ra các cặp
tương phản Phương pháp này tìm ra cặp tương phản trước tiên và lựa chọn cặp đại diện trong số đó Họ chủ yếu sử dụng các hàm tương đồng từ và cũng thực nghiệm với phương pháp tương đồng ngữ nghĩa giữa các từ
Nghiên cứu này đề xuất vấn đề tổng hợp mới, tổng hợp ý kiến tương phản
B ng việc tổng hợp các câu đã phân lớp, nó giảm được khối lượng dữ liệu mà người dùng nên đọc Thêm vào đó, b ng cách thể hiện các cặp tương phản, chúng ta sẽ nắm được các điểm quan trọng và so sánh hiệu quả hơn Tuy nhiên, các kỹ thuật cơ bản sử dụng trong COS rất đơn giản Họ đa phần sử dụng độ tương đồng từ B ng cách sử dụng các kỹ thuật NLP tinh vi, độ chính xác của giải thuật được cải thiện Ví dụ, độ đo khoảng cách liên kết cây có thể sử dụng cho các kỹ thuật tương đồng câu Ngoài ra, họ
Trang 35có thể chọn các từ quan điểm cẩn thận hơn là chỉ chọn các tính từ và các từ phù định cho độ đo tương đồng
2.5.2.3 Tổng hợp văn ản trừu tượng
Bởi vì khó khăn trong việc sinh ra văn bản tổng hợp, tổng hợp trừu tượng ít phổ biến trong tổng hợp văn bản Phần lớn các kỹ thuật thường sử dụng trích xuất từ khóa cụm từ đơn giản hoặc lựa chọn trích xuất câu
Không giống các nghiên cứu về tổng hợp ý kiến khác, Ganesan và cộng sự [6]
đề xuất một phương pháp tổng hợp ý kiến trừu tượng dựa trên phương pháp đồ thị Do bản chất của ý kiến (dư thừa và phân tán), phương pháp tương phản có thể không bao quát hết các ý kiến chính nếu chọn sai tập hợp câu Điều này trở nên đặc biệt quan trọng khi kích thước của bản tóm tắt được giới hạn, chỉ một lượng nhỏ các câu được chọn Trong trường hợp này, rất khó để thu được các câu mà tổng hợp tất cả các ý kiến Ngoài ra, phương pháp tương phản có xu hướng khá dài và có thể không phù hợp với một tập nhỏ
Trong nghiên cứu của Ganesan [6], bước đầu tiên là sinh ra một đồ thị từ trong văn bản của dữ liệu đầu vào, mỗi nút biểu di n một từ, một cạnh biểu di n kết nối giữa hai từ Sử dụng ba thuộc tính ràng buộc của cấu trúc dữ liệu đồ thị (ràng buộc dư thừa, các cấu trúc xếp chồng, khoảng cách khe), các thành phần trong đồ thị mà thực thi như các bản tổng hợp đại diện được tính điểm và đưa vào danh sách Bản đại diện đứng đầu sau đó được dụng để sinh ra bản tổng hợp cuối cùng
Người ta thấy r ng với cách tiếp cận này có thể tạo ra một bản tổng hợp ý kiến xúc tích và d đọc, không dư thừa dữ liệu Vì phương pháp này độc lập với miền ứng dụng, dựa trên cú pháp, và không cần tập ngữ liệu học nên phương pháp này rất thực
tế và bao quát Tuy nhiên, do sự phụ thuộc vào thứ tự các từ trong văn bản, sự tương đồng ngữ nghĩa giữa các câu là khó đề cập được Ví dụ: “very good battery life” và
“fantastic battery life” có thể coi là hai câu riêng biệt với nghĩa khác nhau Nâng cao hơn nữa, việc hiểu ngôn ngữ tự nhiên ở một mức sâu hơn là rất cần thiết
2.5.2.4 Tổng hợp đa ngôn ngữ
Theo một cách nhìn khác, Balahur và Montoyo giới thiệu tổng hợp ý kiến trong dịch máy Bước tiền xử lý giống với các kỹ thuật tổng hợp ý kiến chung Sau khi phân tích đặc trưng từ văn bản tiếng Anh, họ đối sánh các khái niệm với tiếng Tây Ban Nha
sử dụng EuroWordNet
Kỹ thuật này hoàn toàn phụ thuộc vào EuroWordNet, vì vậy hiệu suất của hệ thống hoàn toàn phụ thuộc vào hiệu suất của WordNet Bởi vì WordNet không chứa tất cả các từ và có thể có lỗi, kết nối từ b ng các thông tin trên web có thể là môt giải pháp khả thi
Trang 36Mô hình hóa 2.5.3.
Trong khi phần lớn các công trình đã giới thiệu trước đây thể hiện tổng hợp như một bảng tổng hợp thống kê với các đoạn văn bản đại diện hay các câu, cũng có những nghiên cứu khác tìm cách hiển thị kết quả theo một cách khác để trực quan với người đọc hơn
Chen và cộng sự [9] biểu di n quan điểm trong một chủ đề với các cấu trúc đồ thị khác nhau Họ phân cụm với thông tin phân cực, phối hợp từ, biểu di n ý kiến dựa trên cây quyết định
Mishne và cộng sự xây dựng MoodViews [16] là một công cụ trực quan hóa cho phân tích cảm xúc trong blog Có ba ứng dụng nhỏ, Moodgrapher, Moodteller và Moodsignals Moodgrapher biểu di n tổng hợp mức độ tâm trạng dựa trên các th tâm trạng theo từng người Moodteller là một công cụ tương tự sử dụng xử lý ngôn ngữ tự nhiên để tìm kiếm tâm trạng MoodSignal tìm kiếm lý do của một sự kiện đặc biệt mà biểu di n như là một đầu trong đồ thị tâm trạng
Một loạt các khía cạnh phân tích có thể giúp hiểu được phân phối của ý kiến Ví
dụ, người dùng có thể nói cho dù những ý kiến tích cực nhiều hơn những ý kiến tiêu cực hay không Trực quan hóa không chỉ hữu ích cho người dùng chung, người muốn hiểu được quan điểm mà còn cho các nhà nghiên cứu, người cần có bản tổng hợp kết quả trực quan hơn Ví dụ, biểu đồ phân cực của Chen và cộng sự [9] biểu di n một sự thay đổi lớn trong các quan điểm tiêu cực B ng cách phân tích hiện tượng, các nhà nghiên cứu có thể tìm ra r ng có nhiều giải thích cụ thể hơn cho các bài nhận xét trong các quan điểm tiêu cực, kết quả là hiệu suất phân lớp có thể khác nhau giữa ý kiến tích cực và tiêu cực
Tổng hợp dựa trên thực thể 2.5.4.
Stoyanov và Cardie [18] đã giới thiệu một loại tổng hợp khác Tổng hợp dựa trên thực thể cho thấy các thực thể trong văn bản và mối quan hệ của chúng với chiều hướng của quan điểm Tóm tắt được bao gồm nguồn ý kiến, mục tiêu, và ý kiến của các nguồn mục tiêu
Ví dụ: Hình 2.9 có ba câu "Tom thích táo”, “Jane ghét táo”, “Tom yêu Jane” Đối với câu đầu tiên “Tom” là một nguồn, “táo” là một mục tiêu, và “like” cho thấy ý kiến của “Tom” với “táo”
Trang 37Hình 2.9 Ví dụ tổng hợp dựa trên thực thể
Đối với các thực thể dựa trên bản tóm tắt, tìm kiếm và quản lý các thực thể là một vấn đề quan trọng bởi vì các thực thể được sử dụng như là nguồn và đích chính Trong các văn bản thực tế, bởi vì nhiều thực thể được tham chiếu như một đại từ, vấn
đề là tìm kiếm tham chiếu đúng, đó là giải quyết đồng tham chiếu được nghiên cứu ở bước đầu tiên Stoyanov và Caride [18] đề xuất kỹ thuật đồng tham chiếu để kết nối các nguồn cùng đề cập tới một thực thể Họ sử dụng các luật sở hữu cho tập dữ liệu ý kiến và kỹ thuật đồng tham chiếu các cụm danh từ chung để nhận diện chủ đề
Tổng hợp thực thể được đề xuất nhưng chỉ có giải pháp đồng tham chiếu được nghiên cứu nhiều Để có bản tổng hợp hoàn chỉnh, cần phải có các kỹ thuật khác cho các bước tiếp theo như là xác định quan điểm, xác định chiều hướng và xếp hạng quan điểm
2.6 Tóm tắt Chương hai
Trong chương này, luận văn đã giới thiệu các phương pháp tổng hợp ý kiến của các tác giả đã đề xuất trong thời gian gần đây Trong chương tiếp theo, luận văn đi vào giới thiệu bài toán, đưa ra mô hình đề xuất cho việc Tổng hợp ý kiến trong hội nghị
Trang 38Chương 3 BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý
TRONG HỘI NGHỊ 3.1 Bài toán
Hình 3.1 Tiến trình tổng hợp ý iến trong hội nghị
Luận văn này đề xuất bài toán tổng hợp ý kiến góp ý trong hội nghị qua việc phân tích một tình huống cụ thể là các hội nghị của Ban chấp Hành Trung ương Đảng Trong các hội quy mô lớn có các chủ đề được đưa ra để bàn luận Mỗi chủ đề lớn sẽ có một loạt các tiêu chí cho trước làm căn cứ đề các đại biểu thảo luận và đưa ra ý kiến Một hội nghị sẽ có rất nhiều các đại biểu tham gia họp vì vậy sẽ được chia thành nhiều nhóm thảo luận riêng biệt, mỗi nhóm sẽ có một thư ký có nhiệm vụ ghi lại ý kiến thảo luận của các đại biểu trong nhóm Tập hợp các thư ký từ các nhóm được gọi là ban thư
ký Ban thư ký có nhiệm vụ tổng hợp các ý kiến từ các nhóm để đưa ra bản tổng hợp cuối cùng của toàn hội nghị Vì số lượng các đại biểu tham gia hội nghị là rất lớn nên rất khó khăn cho ban thư ký tổng hợp ý kiến về các chủ đề dựa trên bộ tiêu chí cho trước của từng chủ đề Tiến trình tổng hợp ý kiến của ban thư ký được mô tả như hình 3.1
Trang 39Vì vậy, luận văn muốn xây dựng một hệ thống tự động tổng hợp ý kiến trong hội nghị với số lƣợng lớn các đại biểu tham gia thảo luận Hệ thống này sẽ giúp cho ban thƣ ký thu thập, tự động tổng hợp ý kiến và tạo ra một bản tổng hợp thô theo các tiêu chí Bản tổng hợp thô này sẽ đƣợc ban thƣ ký tiếp tục duyệt lại để đƣa ra một bản tổng hợp ý kiến cuối cùng
3.2 Chức năng mong muốn của hệ thống
Hình 3.2 Chức năng của hệ thống tổng hợp ý iến
Quá trình tổng hợp ý kiến có sự hỗ trợ của Hệ thống tổng hợp ý kiến đƣợc mô
tả nhƣ hình 3.2 Hệ thống tự động tổng hợp ý kiến trong hội nghị sau khi xây dựng sẽ
hỗ trợ một số công việc chính là thu thập ý kiến, tổng hợp ý kiến và gợi ý cho ban thƣ
ký
Thu thập ý kiến 3.2.1.
Thay vì phải ghi chép lại từng ý kiến của các đại biểu b ng tay, sau đó các thƣ
ký lại nhập các ý kiến một cách thủ công thì hệ thống sẽ hỗ trợ ban thƣ ký làm giảm thời gian, công sức trong nhiệm vụ này Hệ thống sẽ cho phép các thƣ ký nhập ý kiến theo một trong hai cách: Nhập riêng l từng ý kiến của các đại biểu hoặc nhập một bản bao gồm tất cả các ý kiến Form nhập ý kiến đƣợc mô tả nhƣ Hình 3.3
Trang 40Hình 3.3 M tả form nhập ý iến
Trong trường hợp nhập riêng l từng ý kiến, tên đại biểu và chủ đề góp ý có thể được lựa chọn từ danh sách, tiêu đề có thể có hoặc không Trong trường hợp nhập nhiều ý kiến, nội dung của mỗi ý kiến n m trên một dòng, các trường dữ liệu khác có thể chỉ định hoặc không
Tổng hợp ý kiến 3.2.2.
Nhiêm vụ chính của hệ thống là việc hỗ trợ tổng hợp ý kiến Với số lượng đại biểu tham gia hội nghị là tương đối lớn (hàng trăm người) thì việc tổng hợp ý kiến một cách thủ công là một nhiệm vụ khó khăn đối với ban thư ký Chính vì vậy, hệ thống xây dựng sẽ hỗ trợ ban thư ký đưa ra một bản tổng hợp các ý kiến dưới dạng “thô” Bản tổng hợp này sẽ liệt kê các ý kiến dựa trên các chủ đề, tiêu chí cho trước để ban thư ký tiếp tục hoàn thiện và đưa ra bản tổng hợp cuối cùng Bản tổng hợp “thô” được
mô tả như Hình 3.4