Một phân lớn trong cuốn sách được đành để mô tả định nghĩa và kỹ thuật phân lớp quan điểm và chỉ một phân nhỏ cửa cuốn sách thảo luận về công việc sinh ra bản tông hợp dựa trên phân lớp
Trang 1
ĐẠI HỌC QUỐC GIA HA NOI TRUONG DAI HOC CONG NGHỆ
PHAM VAN HA
HE THONG TY DONG TONG HOP Y KIEN GOP Y
TRONG HOI NGHI
LUAN VAN TIIAC SĨ CÔNG NGIIỆ TIIONG TIN
TIÀ NỘI - 2014
Trang 2
ĐẠI HỌC QUỐC GIÁ HÀ NỘI
TRUONG DAI HOC CONG NGHE
PHAM VAN HA
HE THONG TU DONG TONG HOP Y KIEN GOP Y
TRONG HOI NGHI
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thẳng thông tin
LUẬN VĂN THIẠC SĨ CÔNG NGIIỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BỦI QUANG HƯNG
PGS.TS VŨ DUY LỢI
HẢ NỘI - 2014
Trang 3LỜI CAM ĐOAN
Tơi xi cam đoan kết quả đạt được trong luân văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tơi Trong tồn bộ nội dung của luận văn, những, điều được
trình bày hoặc là của cá nhân tải hoặc là được tổng hợp từ nhiền nguồn tài Hệu Tắt ca
các tài hiệu tham khâo đều cĩ xuất xử rõ ràng và được trích dẫn hợp pháp,
“Tơi xm hồn tốn clu trách nhiệm và chị mọi hình thức kỹ luật theo quy đmh
cho lời cam doan của minh
Hà Nội, ngày 10 tháng Ù6 năm 2014
Người cam dòn
Phạm Văn Hà
Trang 43
LỜI CẢM ƠN
"Trước tiên, tôi xin gửi lời cắm ơn chân thánh và sự biết on sau sie tdi TS Bat
Quang Img và PGS.TS Vũ Duy Loi da tan tình giúp đỡ tôi vẻ cả chuyên môn,
nghiên cửu và định hưởng phát triển trong suốt quá trình làm luận văn
Tôi cũng xin gửi lời cúm ơn tới các Thấy, Cô giáo của Khoa Công nghệ thông
tin, vi da truyền đạt những kiến thức bổ ích, hiện đại vẻ lĩnh vực ITệ thống thông tin
mà tôi học tập Tôi xin bày tổ sự biết ơn sâu sắc tới ThŠ Tran Mai Vũ đang công tác
tại Phòng thí nghiệm Công nghệ trí Huức (KTT.sb) đã giúp đõ, hỗ trợ lôi trong quá Irình
nghiên cứu, hoàn thành dé tai nay
Cuối cùng, với gia đinh, tôi xin gửi lời biết ơn sâu sắc vì gia định đã luôn ở bên cạnh tôi, mang lại cho lỗi nguồn động viên tỉnh thân to lớn và lạo tuợi điền kiện thuận
oi cho tôi trong quá trình hoc tập và hoàn thành luận văn này
Mặc dù đã rất cổ gắng nhưng luận văn sẽ không tránh khỏi những thiểu sót, Rất mong nhận được ¥ kién động góp quỷ bảu của Thầy, Cô giáo vá các bạn để luận văn được hoàn thiện hơm
Xin tran trang cam on!
Hà Nội, Tháng 06 — Nam 2014
Phạm Van Ia
Trang 5LOI CAM ĐOAN co eeeeiie
LỚI CÁM ÔN
MỤC LỤC snneerrreeree
BANG CAC KY IDGEU VA CIIU VIET TAT
TDANH MUC CAC HINA VE
DANH MUC CAC BANG BIEU
1.3 Các thách thức trong khai phá quan điểm
1.3.1 Phong cach viết khác nhau
1.3.2 Quan điểm thay đối theo thời gian
1.3.3 Độ mạnh của qua điểm
1.3.4 Các câu với đảnh giá pha trộn
1.4 Các bài toán trong khai phá quan điểm
1.4.1 Phân lớp quan điểm
1.4.2 Khai pha quan điểm số sánh
1.4.3 Khai phả và tổng hợp ý kiến đựa trên đặc trưng
1.5 Ứng dụng của khai phá quan điểm
1.5.1 Ung dung trong các trang web đánh giá
1.5.2 Ung dung như một công nghệ thành phản
Trang 62.4 Tổng hợp ý kiến dựa trên đặc trưng
3.3.1, Pha thu thập đữ liệu —
3.3.2 Pha tiên xử lý đữ liệu
3.3.3 Pha xác dịnh chủ dẻ của ÿ kiến H111 n0 1 0n.110011111xxxe
3.3.4 Pha gam nhóm ý kiên
3.3.5, Pha phản lớp ý kiến H111 n0 1 0n.110011111xxxe
3.3.6 Pha sinh bản Tóm tắt
Trang 73.4 Phuong pháp danh gia
3.41 Đánh giá pha xác định chủ để
3.4.2, Danh giả pha phân lớp ý kiến H111 n0 1 0n.110011111xxxe
Chương 4 THỰC NGHIÊM VÀ ĐÁNH GIA
4.1 Môi trường thực nghiệm
4.2 Công cụ phần mềm
4.3 Dữ liệu thực nghiệm
4-4 Chương trình thực nghiệm
4.5 Kết quả thực nghiệm
4.5.1 Kết quả đánh giá bước xác định chủ để
4.5.2 Kết quả đánh giá bộ phần lớp Naivel3ayes tự xây dựng 4.5.3 Kết quả đánh giá bộ phân lớp sử đụng mã nguồn mở Weka
4.6 Một số giao điện mình họa
4.6.1 Giao điện chính
46.2 Giao điện thêm mới ý kiến
4.6.3 Giao diện tổng hợp ÿ kiến ¬
KET LUAN VA DINH HUGNG
TAL LIỆU THAM KHẢO co — -
PHU LUC.
Trang 8BANG CÁC KÝ HIỆU VÀ CHỮ VIÉT TẮT
COS Contrastive Opinion Summarization | Tổng hợp quan điểm tương phản
CSDL | Database System Cơ sở đữ liệu hệ thông,
HTML | Hyper Text Markup Laguage Ngôn ngữ đánh đầu siêu văn bản t8 Integrated Development Mỗi trường phát tiễn tích hợp
Environment
IDF _| Inverse Document Frequency — Sempre rong
JSON JavaScript Object Notation Ký hiệu đổi tượng JavaScript
NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên
ESA, Probabilistic Latent Semantic Bhản Mới ado: sult ng natite dn
Analysis
PMI Pointwise Mutual Infomation Thông tin tương hỗ trên điểm
Pos Positive Tích cực
SMO Sequential Minimal Optimization Tối thiểu tuân tự
XML | eXtensible Markup Language Ngôn ngữ đánh dâu mở rộng
Trang 9
DANH MỤC CÁC HÌNH VẼ
Tĩnh 1.1 Một quan điểm nhận xét về sản phẩm iPhone trén Blog 12
Hình 2.1 Ba bước của tổng hợp ý kiến đựa trên đáo trưng, 20
Hình 2.2 Các kỹ thuật tổng hợp quan điểm đựa trên đặc trưng |9| 22 Hình 2.3 Ví dụ về tổng hợp ý kiến đựa trên thống kê 27 Hình 2.4 Câu trúc tổng hợp ý kiến trên trang tim kiém Bing _—-
1Tỉnh 2.5 Phân lớp các ý kiến dựa trên đặc trung và hướng quan điểm 28 Ilinh 2.6 Phuong pháp sinh bản tổng hợp cầu tnic ctia Lu va céng sur 29
Hình 2.9 Ví dụ tông hop dựa trên thục thể 0000222 wd Tlinh 3.1 Tin trinh téng hep ý kiến trong hội nghị 138
Tlinh 3.2 Chức năng của hệ thống tổng hợp ý kiến 7
Hình 3-4 Bản tổng hợp ý kiểu dưới dang thé 39
Hình 3.5 Kiến trúc dễ xuất của hệ thông hỗ trợ tổng hop ý kiến 40 llinh 3.6 Mô hình đề xuất cho hệ thông hỗ trợ tổng hợp ở kiến we AL
Tlinh 3.7 Cau tric mét ¥ kién pop y ota ngudi dan 43 Ilinh 3.8 Cau trúc một ý kiến góp ý của DBQII 44
Hình 4.1 Biểu để đánh giá độ chính xác của bước xác định chủ đẻ 59 Hình 4.2 Biểu đỗ đánh giá phân lớp NaiveBayos tự xây dựng,
Tĩnh 4.3 Biểu đồ thể hiện kết quả của tập dữ liệu thứ nhất
Tĩnh +.4 Biểu đồ thể
lên kết quả của tập đứt liệu thứ hai
Hình 4.5 Biến đồ th kết quê của tập dữ liệu thứ ba 62 Hinh 4.6 Biểu đồ so sánh độ chính xác giữa các tập đữ liệu 6 Hình 4.7 Biểu để so sánh độ hồi tưởng giữa các tập dữ liệu „64 Tĩnh 4.8 Biểu đồ so sánh độ đo F-measure giita cdc tp dif liệu .64
1lỉnh 4.9 5o sánh thời gian thực hiện thuật toán 65 Hình 4.10 Giao điện chính của chương trình thử nghiệm 66
Hình 4.12 Giao điện tổng hợp ý kiếu H111 n0 1 0n.110011111xxxe wT
Trang 10DANH MUC CAC BANG BIEU
Bang 3.1 Trích xuất các thông tin ý kiến ngwoi dan
Bang 3.2 Trích xuất các thông tin ý kiến của ĐBQH
Bằng 3.3 Mô lâ dữ liệu ý kiến
Tông 3.4 Mô lã bằng dữ liêu Comment hu trét cae ý kiến
chại biêu
Bằng 3.5 Mô lâ bỗng dữ liệu Delegalc hưu trữ thông tin
Bằng 3.6 Bảng các luật xác định chủ để của câu dầu liên
Bảng 3.7 Bảng các luật xác dịnh chủ dễ của các cầu tiếp theo
Bảng 3.8 Mô lâ bằng dữ liện Serlence
Bảng 3.9 Mô lã bằng đữ liệu subeomuuent
Bằng 3.10 Ma trận nhằm lân đánh giá các đô đo
Bằng 4.1 Câu túnh tráy tính thử nghiệm:
Trang 11MO DAU
1 Dal van đề, định hướng nghiên cứu
Su bing nả của nên tảng Web 2.0 như blog, diễn đàn, mạng xã hội và nhiều loại truyền thông khác giúp cho người tiêu dùng có thế chia sẻ quan điểm về bật ki sản phẩm hoặc dịch vụ nào Ý kiến của khách hàng năm một phân quan trong trong việc
hình thánh quan điểm ý kiến của cáo khách hàng khác và ảnh hướng tới chính sách
quảng bá thương hiệu của các công tự, Với sự phong phú của các nguồn tài nguyên về
quan điểm như hiện nay đã thúc đây “Khai phá quan điểm” phát hiển và nhận được
nhiểu sự quam tâm trong lhời gian gần đây Công việc khai phá văn bản không chỉ
dừng lại ở việc phân tích côu chữ cũa văn bản, giúp rnảy linh thực sự “hiểu” nội dụng,
văn bản nói gì, mả còn cho biết người viết có quan điểm như thế nảo trong văn ban đó
Tổng hợp ý kiến (Opinen sunmarization) là bài loản quan trọng trong khai phá quan điểm, đang thu hút được sự quan tâm của cộng đồng nghiên cứu khai phá đữ liệu, học máy, truy hải thông tin, vả xử lý ngôn ngữ tự nhiên Mục địch chính của tổng hợp
ý kiến [2,3.5,9] la tự đông tổng hợp các ý kiến về một đối tượng hay vấn đề thành một bản tổng hợp ý kiến ngắn gọn Các phương pháp tổng hợp ÿ kiến được giới thiệu [3,5,9] dựa trên các mô hình thống kê đã cho những kết quá rất khá quan va md ra cơ hội ứng dung cho nhiều bài toán thực tế
'Trong các hội nghị quy mô lớn có các chú để lớn được đưa ra để bàn luận Vi số lượng các dại biểu tham gia hội nghị là rất lớn nên rất khó khăn cho ban thu ký tổng,
hop ý kiến về các chủ dễ dựa trên bộ tiêu chỉ cho trước của từng chủ dễ Chính vì vậy,
để giải quyết tỉnh trang khỏ khăn trong các hội nghị như biện nay, luận vẫn đề xuất
xây đựng một “Hệ thẳng tự động ting hop ý hiển trong hội nghị” Hệ thông này sẽ
giúp ích trong việc thu thập ý kiến từ các đại biết
giâm thiếu gánh nặng của ban thư ký trong việc 3
tự động tống hợp các ý kiên, làm
\y dụng bản tổng hợp ý kiến hội
nghị Dây là một khổi công việc lớn, cản nhiều thời gian và công sức Dễ tài này là
bước khối đâu cho công việc này:
2 Mục tiêu của luận văn
Mục tiêu chưng của lưận văn là hướng tới xây đụng một hệ thông cho phép tự
động tổng hợp các ý kiến đóng góp cho một hội nghị với số người thara đự lớn (hàng,
trăm người) Hệ thông này sẽ tự động thu thập, tổng hợp ý kiến sóp ÿ, bước đầu tạo ra
lông hop thé”, sau dỏ thư ký hội nghị sẽ dựa trên bán tổng hợp thỏ này dễ
tiếp tục tông hợp tiếp thành băn tổng hợp ÿ kiến hoàn chính
một bản.
Trang 1210
Dây là một để tải khó cần nhiều thời gian vả công súc thực hiện Dễ đám báo chất lượng và trong khá năng cho phép, đề tải chỉ giới hạn ớ những phần cơ bán và ban đầu về hệ thống tự động tổng hợp ý kiến trong hội nghị, bao gồm:
©) Tim hiểu các phương pháp của bài loan tang hợp ý kiến
«_ Để xuất mỏ hình cho bải toán tổng hợp ý kiến trong hội nghị
«_ Thực nghiệm và đánh giá các phương pháp
« Xây dựng thữ nghiệm một hệ thống để phục vụ công việc tông hợp ý kiến
gếp ý trong hội nghị
3 Nội dung của luận văn
Luận văn thực hiện xuyên suốt trong quả trinh từ khi hình thành các khải niệm, ý tưởng nghiên cứu, cho dén khi xây dựng mỏ hình tong hop, dé xuất và dánh giá phương pháp tổng hợp ý kiến Nởi dung chính bao gồm gác phân sau:
Mé dau: Bal ra vẫn đề, mục tiêu và giải pháp cho bài toán tổng họp ý kiến đóng gớp trong hội nghi
Chương 1: Giới thiệu tổng quan - các khái ruêm cơ bản về khai phá quan
điểm vả bài toán tổng hợp quan điểu
Chương 2: Trình bày các phương pháp cho bài Loán tống hợp ý kiến
chung
Chương 3: Dễ xuất mô hình cho bải toán tổng hợp ý kiến trong hội nghị
Chương 4z Thục nghiệm và đánh giá các phương pháp, xây dung demo
cho việc xú lý và phân lớp các ý kiến mới
Két luận & định hướng: Tổng kết lại những kiến thức đã tích lũy, kinh nghiệm được áp địng trong suốt quá trình thực hiện luận văn Đưa ra được các hướng phát triển trong tương lai
Trang 13i
Chuwong 1 TONG QUAN VE KHAI PHA QUAN DIEM
1.1 Tidi thigu
Một phản quan trong trong việc thu thập thông tin là luôn tìm ra “Những điều
người khác nghĩ” Khi bạn muốn mua một chiếc máy tỉnh xách tay HP Pavilon DV6
ban đặt ra các câu hổi “Máy HP có tốt không? Dòng Pavilon của HP dùng thế nào? Pin
dùng có lâu không? ” Chính nhận xét của những người đã dùng máy tính HP sẽ là câu trả lời cho các câu héi mà bạn thắc mắc [5]
Theo cuộc kháo sát hơn 2000 người Mỹ trưởng thánh cho thấy 81% người đúng,
Internet (chiếm tỷ lệ 60% người Mỹ) dã thục hiện việc tìm hiểu vẻ một sản phẩm thông qua Tnlernet Cé từ 7394 đến 87% số người nói rằng các nhận xét về sẵn phẩm!
có sự ảnh hưởng quan lọng đến việ lựa chọn mua sản phẩm của họ [5] Như vậy,
quan điểm của người khác giúp chúng ta có thêm thông từụ khi quyết định một vấn đề,
né ảnh hưởng rất lớn dén hành vi của chúng ta Bật cứ khi nào chủng ta phải dua ra một quyết định, chíng ta thường phải thảm khảo những ý kiến của những người khác
'Với cả nhân, chúng †a tham khảo từ gia đình và bạn bẻ Với tổ chức, họ tổ chức các cuộc diều tra, thăm đò dự luận dễ nắm bắt được ý kiến
Sự bừng nỗ của nên tảng Web 2.0 như blog diễn đản thao luận, mạng ngang hàng, và nhiều loại truyền thông xã hội kháo giứp cho người tiêu đủng có thế để đàng
chia sẻ kinh nghiệm và quan điểm về bắt kì sản phẩm hoặc dich vụ nào Với sự phong
phú cửa các nguồn tài nguyên về quan điểm, việc sử dụng công nghệ thông tin để tim
kiếm và hiểu được ý kiến của con người là một cơ hội và thách thức rất lớn
Khai pha quan điểm lá lĩnh vực nghiên cứu má cố gắng để làm cho hệ thống tự động xác định quan điểm của con người tử văn bản được viết bằng ngôn ngữ tự nhiên Khai pha quan điểm nghiên cửu về ÿ kiến, tỉnh cảm, quan niém chủ quan, đánh gia, thải độ, thâm dịnh, cảm xúc dược thể hiện trong văn bản Những điều dỏ được thê
hiện qua các nhận xt, blog, các cuộc thảo luận, tin tức, bình luận, phản hỏi hay các
tải liệu khác [5] Khai phá quan điểm đựa trên ngốn ngữ tính toán, truy vẫn thông tin,
khai thác văn bân, xứ lý ngôn ngữt ny nhiên, học máy, thông kẻ và phân tích dự đoán
12 Các khái niệm trong khai phá quan điểm
Liu [4] dua ra dinh nghĩa quan điểm: Ä⁄ôf guan điểm bao gỗm 5 yếu tổ (e, đụ, Syiy Rip WD trong đó e, là tên của chủ thé, ay là đặc trưng của e, sụa là guan diễm về dặc trưng a, của e, hụ là nguôn của quan điểm và ù là thời điểm mà quan điểm đỏ được biểu đạt bởi hạ Quan điềm sua có thể (ích cực, tiêu cực, trung lập hoặc biểu diễn bởi
thang dành giá.
Trang 1412:
Id: Abc123 on 5-1-2008 “/ bought an iPhone a few days ago It is such a nice phone The touch screen is really cool The voice quality is clear too It is much better than
my old Blackberry, which was a terrible phone and so difficult to type with its tiny keys However, my mother was mad with me as | did not tell her before | bought the phone She also thought the phone was too expensive, .”
Hình 1.1 Một quan điểm nhận xét về sản phẩm iPhone trên Blog
Ví dụ: Một quan điểm về điện thoại iPhone trên Blog như trong Hình 1.1 được
biểu diễn dưới một số bộ năm như sau
(iPhone, GENERAL , + , Abe123,, 5-1-2008)
(hone, touch_screen, +, Abc123, 5-1-2008)
(Phone, voice_quality, +, Abc123, 5-1-2008)
(Blackberry, keys, -, Abc123, 5-1-2008)
Theo Bing Liu [2], cde quan diém có thê thể hiện vẻ bắt cứ điều gì, ví dụ như
một sản phẩm, một cá nhân, một tô chức, một chủ đè Ông sử dụng thuật ngữ đổi
tuong (Object) đề biêu thị các chủ thẻ được đề cập.Theo đó, ông đưa ra một số khải niệm trong khai phả quan điểm bao gồm: Đồi tượng, các đặc trưng, đoạn đảnh giả, quan điểm, người đánh giá
1.2.1 Đối tượng
Dùng để chỉ thực thể (người, sản phẩm, sự kiện, chủ đề ) được đánh giá Mỗi
đổi tượng có một tập các thành phản (components) hay thuộc tính (attributes) gọi chung là các đặc trưng (features) Mỗi thành phản hay thuộc tính lại có một tập các
thành phan hay thuộc tỉnh con Như vậy, một đổi tượng Ø được biểu diễn bởi một cặp
TT, 4] trong đỏ 7 là một câu trúc phân cấp thành phân cha, thành phan con, 4 1a tap
các thuộc tính của đổi tượng Ø [3]
Vi du: May anh co mét tập thành phân: ông kinh, pin và các thuộc tỉnh: kich cỡ,
khối lượng, chất lượng anh Thanh phan pin cỏ các thuộc tính con: kích cỡ, thời
gian
Theo định nghĩa nảy, một đối tượng có the bieu diễn như một cây phân cấp Góc của cây chỉnh là đổi tượng đỏ, mỗi node không phải gốc là một thành phần hoặc thành phần con của đổi tượng, mỗi cạnh chỉ một quan hé part-of, Mỗi node được gán
một tập các thuộc tính, mỗi quan điểm có thê biểu diễn thông qua một node bất ky va
các thuộc tính của node đỏ.
Trang 151.2.2 Doan đánh gia
Goi mét tai ligu quan điểm là đ, trong trường hợp tổng quat nhat, d bao gém
mot tập các cau tuin tud /5„ s; s„#.Đoạn đánh siá về một đặc trung ƒ của đối tượng @ trong đ là một tập các câu liên tiếp trong ở diễn tá quan điểm tích cực hay tiêu cực về đặc inmg f Đoạn đánh giá bao gồm tối thiểu ít! nhật một câu có thê biểu diễn
Nếu một đặc trung ƒ hoặc bất kỉ từ đồng nghĩa nảo với nó xuất hiện trong câu ø,
thi f là đặc trưng hiện (Uxplicit feature) trong s Ngược lại, ta nói ƒ là đặc trưng Ân (huplicit feature) [3)
Vidu
May anh nay dat qua: Đặc trưng “giả” là dặc trưng ẩn
Mẫu sắc của chiếc áo này dẹp ghế: Đặc trưng máu sắc lá dặc trưng hiện
1.2.4 ®gười đưa ra quan điểm
Người đưa ra quan điểm (Opinien holder) là người hoặc tổ chức thê hiện quan
điểm Người đưa ra quan điểm càn gợi là nguồn của quan điểm Trong trường hợp
đánh giá sản phẩm, diễn đản, blog thì người đưa ra quan điểm thường lả cáo tác giã
của đảnh giá hay bài viết đỏ [3]
Vi dw “John bày tỏ sự bãi đồng ý kiến của mình về lriệp ước `
Neguési dua ra quan diém 1a “John”
diém an (implicit opinion) vé mot dic trưng / là câu thể hiện quan điểm tích cục hay
tiêu cục ruột cách không tường mảnh [3]
Trang 1614
1.3 Các thách thức trong khai phá quan diém
1.3.1 Phong cách viết khác nhau
Thực tế, các bình luận hay quan điểm nhập vào bởi những người khác nhau thi
họ cô cách viết khác nhau, từ cách thức sử dụng ngôn ngữ, chữ viết tắt và kiến thức của họ lả một thách thức riêng của môi người Mọi người dếu không bảy tố ý kiến theo củng một cách Người tạ cỏ thẻ sử dụng các thuật ngữ trong một câu tiểu dễ xuất hiện trên một tờ báo trực tuyển và xuất hiện trong một diễn đầm trực tuyến là rất khác nhau (điều này phụ thuộc vào bối cảnh mà quan điểm đó được thể hiện) Trên thực tế, hầu
hết trong xử lý văn bản truyện thẳng thì sự kháo biệt nhỏ giữa hai phản của văn bản
không thay đối ý nghĩa nhiễu Tuy nhiên trong khai phá quan điểm, "bộ phim hay" là rất khác với “bộ phim không hay" [22]
1.3.2 Quan điểm thay đổi theo thời gian
Mội thách thức khác cầu phải xét đến là vấn để làm thế nảo để có thể theo dõi các quan điểm thay đổi theo thời gian Tâm trạng cửa một người não đó có thể thay đôi
nhưng điên đỏ không nhật thiết ring quan điểm vẻ một sản phẩm hoặc dịch vụ nhất định sẽ thay đổi theo Nên một san phẩm cải thiện sau một thời gian có thể là vì nhiều
người đang hai lòng với nó và vì họ có thê bị thuyết phục sau một cuộc thảo luận đài
trong một diễn đàn về sản phẩm [22]
1.3.3 Dộ mạnh của quan điểm
Xác định độ mạnh của một quan ciểm là một thách thức phải dối suặt trong khai
phá quan điểm Nhiều nễ lực đã được thực hiện để xác định các yêu tố quyết định sức
mạnh của một ý kiên trong mệt bếi cảnh Bỗ sung thêm việc phân lớp các từ thành cáo mức độ xu hưởng quan điểm khác nhau, một số từ bỗ nghĩa cỏ thể được dùng để xác định độ mạnh của quan điểm( “rất”, “một chút”, “hết sức”, “hơi” ) Cụm từ “rất hải lòng” và “hơi hài lòng” sẽ được phân lớp thành rất tích cực vá kém tích cực nếu “rất”
và “hơi” dược phân lích và sử dụng dễ xác dịnh mức dộ ddi lập |22|
1.3.4 Các câu với đánh giá pha trộn
Một thách thức lớn đổi với khai phá quan điểm xuất hiện khi mọi người thế hiện đánh giá tích cực và tiêu cực rong cùng một câu Diễu này chủ yếu là kết quả khi moi ngudi đang giao tiếp thông qua các phương tiện truyền thông không nghĩ thức nhự blog vả các diễn đản Mọi người có nhiều ý kiến khác nhau trong củng một câu Những cầư như vậy có thể gây khó khăn dễ phân tích cú pháp hoặc khai pha quan
điểm |22]
Trang 1715
1.4 Các bài toán trong khai phá quan diễm
‘Theo Bing Liu [2], khai phá quan điểm có ba bài toán diễn hình nhất đó là
«_ Bài toán phân lớp quan điểm
e Tổng hợp ý kiến (Quan điểm)
®_ Khai phá quan điểm so sảnh
1.41 Phân lớp quan điểm
‘Vai bai toan này có thê cơi khai phá quan điểm như bải toán phân lớp văn bản
Tài toán phân lớp một văn bán đánh giá là tích cực hay tiêu cực Vĩ đụ: với một đánh
giả sẵn phẩm, hệ thông xác định xem nhận xét vẻ sản phẩm ấy là tốt hay xấu Phân lớp này thường là phân lớp ở mức tải liệu Thông tin dược phát hiện không mô tả chị tiết
vẻ những gi mợi người thích hay không thích
M6 hinh bai toán:
« Tap danhgiaD - {4}
e Hai lớp đánh giá Pos (Tích cực) va Neg (Tiêu cực)
« Bộ phản lớp sẽ phân dị vào một trong hai lép Pos/Neg
Ví dụ: Với một đánh giá về điện thoại Samsung galaxy S4, hệ thẳng sẽ xác định quan điểm của đánh giá này là khen hay chê (nên rnua hay không nền mua)
ï tượng,
gỒn có nội các] xánh đổi lượng muốn nhận xét với mội đối
vậy, một trong những cách quan trọng nhất của đánh giá đối
tượng là so sảnh trực tiếp nò với một đối tượng, tượng tự khác
Ví dụ:
“Kiểu dáng điện thoại Samsung galaxy S4 dep hon galaxy S3" ä đây đặc trưng kiểu dàng của Samsung galaxy 84 là dối tượng dược nhận xét
1.4.3 Khai phá và tong hop ý kiến dựa trên đặc trưng
Bài toán này đi chỉ tiết vào mức câu để làm rõ đối tượng mã người đưa ra quan điểm thích hay không thích Dôi tượng ở đây có thể là sản phẩm, dịch vụ, một chủ đề, Tmột ca nhân hay tô chức
Ví dụ, trong đánh giá sâu phẩm, người đánh giá dưa ra các bình luận tích cực tiêu cực về một đặc trưng của sân phẩm Như trong câu “tuổi thọ pứn của chiếc
Trang 1816
camera này hơi ngắn” thì đôi tượng được đưa ra bình luận ở đây là “tuổi thọ pin” và quan điểm nay là quan điểm tiêu cực Có hai bài toán đặt ra:
© — Bài toán 1: Xác định và trích chọn các đặc trưng của đối tượng mả người
dùng đánh giá Ví dụ: “hiệu năng xử lý của chiếc laptop này rất cao" thì
đặc trưng của đổi tương “Japtop” ở đây là “hiệu năng xử ly”
© — Bài toán 2: Xác định và xem quan điểm của người đánh giá về đặc trưng
của đối tượng đó lả tích cực, tiêu cực, hay trung lập Vi dụ: Trong đánh giá
của người dùng về hiệu năng xử lý của laptop thì quan điểm đưa ra lả tích
cực
1.5 Ứng dụng của khai phá quan điểm
1.5.1 Ứng dụng trong các trang web đánh gi:
R6 rang, một máy tìm kiểm hướng quan điểm có thẻ phục vụ tốt cho việc thu thập và tự đông tổng hợp các quan điểm, nhận xét Thay vì có các trang web thu thập
nhận xét của mọi người như www.epinions.eom ta có thể hình dung ra một trang web
tự động thu thâp những thông tin trên một cách nhanh chóng Chủ đẻ không chỉ bỏ hẹp
ở những bải đánh giá sản phẩm mả còn có thể bao gồm các ÿ kiển về vấn đề chính trị,
xã hôi [5]
Ngoài ra, các ứng dụng có thể được xem xét liên quan đến những trang thu thập
các bài phê bình Việc tóm tắt những bài phê bình của người dủng cũng được xem là một bài toán quan trọng Ta có thể hình dung các sai sót khi người dùng xếp hạng sản phẩm sẽ được sửa chữa: Nhiều khi người dùng vô tỉnh xếp hạng sản phẩm quá thắp
trong khi nhân xét của họ lại đánh giá cao sản phẩm đó
5.2 Ứng dụng như một công nghệ thành phần
Khai pha quan điểm cũng có vài trò quan trọng như một công nghệ khả dụng cho các hệ thống khác Một tiêm năng mả ta có thê áp dụng trong việc mở rộng các hệ thống khuyên cáo, giúp cho hệ thông không đưa ra các sản phẩm nhận được nhiều phản hỏi tiêu cực đề khuyến cáo người dùng [5]
Trong các hệ thông trực tuyên, các quảng cáo được hiện thị ở góc mản hình can
được kiểm tra xem cỏ phủ hợp với nội dung trang web hay không, Ví dụ trong một trang web có nội dung chuyên về gan mà hiển thị các quảng cáo về các sản phẩm rượu
lả không hợp lý, néu hiện thị quảng cáo về các loại thuốc trị viêm gan sẽ phủ hợp với
nội dung hơn Trong các hệ thống tỉnh vi, các quảng cao vé san phẩm tương ứng sẽ
được đưa lên nẻu như phát hiện được trong nội dung có những nhân xét tích cực về
Trang 19
17
sản pham đó Và sẽ tuyệt vời hơn nữa nêu đổi quảng cáo khác khi sản phẩm cỏ những,
đánh giá tiêu cực
Hệ thông hỏi đáp là một lĩnh vực khác ma khai phá quan diem có thẻ chứng tỏ
sự hữu ích Ví dụ, các câu hỏi hưởng quan điểm có thể yêu câu nhiều xử lý khác nhau Lita và cộng sự [15] để nghị rằng đổi với các câu hỏi định nghĩa, ngoài việc cung cấp câu trả lời, việc cung cấp các thông tin khác như làm thế nảo để một thực thể được hiển thị sẽ rất tốt để thông báo cho người dùng,
1.5.3 Ung dụng trong kinh doanh thông minh và chính phủ thông
minh
Khai phá quan điểm rất thích hợp cho các ứng dụng thông minh Thực vay, kinh doanh thông minh lả yêu tô chỉnh đẳng sau sự quan tâm của các công ty, doanh
nghiệp đến lĩnh vực nảy [S]
Ta xem xét một ví dụ sau: Một nhà sản xuất máy vi tính lớn đang thất vọng vẻ
doanh thu thấp bất thường của mình Công ty đưa ra câu hỏi “Tại sao khách hang
không mua máy tính của chúng ta?° Nhưng thông tin cụ thể như trọng lượng, giá
thành của đối thủ là mục tiêu chính để khảo sát Ngoài ra, các đảnh giá chủ quan về thiết kế, dịch vụ khách hàng cũng cần được xem xét
Các công nghệ phân tich cảm nghĩ có khả năng rút trích những ý kiến từ các
van ban phi cau tric do con người viết ra Đỏ sẽ là những công cụ tuyệt vời dé dam nhận những tác vụ xử lý thông minh doanh nghiệp liên quan đến các trường hợp nói ở trên Sẽ rất khó đề trực tiếp khảo sát người tiêu dùng máy tính chưa hẻ tiếp xúc với công ty Thay vào đó, ta có thể sử dụng một hệ thông dỏ tìm các trang blog cá nhân, các trang hộ trợ đánh giá như www.epinions.com Sau đó, hệ thông sẽ tạo ra bản tóm
tắt những y kién phé bình của cá nhân hoặc sẽ liệt kê các điểm cỏ củng chung một quan diem Việc này giúp cho người phân tích không phải đọc quả nhiêu bải phê bình
có nội dung giống nhau Bên cạnh việc quản lý thương hiệu và quan hệ khách hàng,
các doanh nghiệp cũng muốn theo dõi các quan điểm của khách hàng, để có thẻ thực
hiện dự doán xu hướng của người dùng phục vụ cho việc bản bảng hoặc các công việc liên quan [Š]
Chinh phủ thông minh là một dạng ứng dụng cũng rất hữu ích Như ta đã biết, ý
n là thứ mà các chỉnh trị gia rất quan tâm Một só công trình tập trung vào việc tìm hiểu các cử tri đang nghĩ gì Hoặc chính phủ muốn khảo sát ý kiến của người dân vẻ
một dự luật mới [5]
Trang 2018
1.5.4 Ứng dụng trong các lĩnh vực khác
Mỗi quan tâm đến quan diém trong khoa học máy tính cũng có liên quan rất lớn
đến các lĩnh vực khác, Như chúng ta đều biết, các ý kiến rất quan trọng trong chính trị Một vải nghiền cửu trong tam vao việc nằm bắt được suy nghĩ của những người bầu
số lượng cử trí ũng hộ hay phân đối là bao nhiêu |5
Trong chương này luận vẫn giới thiệu khói quất bài toán khai phá quan điểm,
cá khái muệm lên quan ương khái phá quan điểm, cáo khó khăn cứng như thử thách
trong khai phá quan điểm, các bài toán và ứng đụng trong khai phá quan điểm Trong
chương tiếp theo, luận văn sẽ đi sâu vào trinh bày các phương pháp trong bải toán tổng, hợp ý kiến
Trang 21có rất nhiền nhỏm nghiên cứu khảe nhan có quan điểm khác nhan vẻ khái niệm “Tổng, hợp ý kiến", vì vậy luận văn coi rằng những nghiên cửa nhằm tạo ra một bản tổng hợp ngăn gọn, đễ hiếu cña mệt lượng lớn ý kiến, quan điểm gọi la “Tổng hop y kién” [9]
Hình thức đơn giản nhật của một bản tổng hợp ý kiến là kết quả đự đoán chiều
hướng cẩm xúc Ngoài hình thức như vậy, bình thức mới của tổng hợp ý kiến bao gồm tổng hợp cầu trúc, cưng cấp mệt phân tích được sắp xếp theo các khía cạnh/ chủ đề, rất nhiều hình thúc khác nhau của bản tổng hợp nguyên bản và trục quan héa theo thời
gian Các bình thúc tổng hợp khác nhau của tổng hợp ý kiến bổ sung cho nhau bằng cach cung cấp các mức dộ hiệu khác khau Ví dụ, dự doán chiêu hướng cắm xúc các ý kiển của một sân phẩm có thể dưa ra một quan diễm rất clnmg, của người dùng cảm nhận về sản phẩm Nếu người dùng, cần chỉ tiết hơn thì tổng hợp ý kiến dựa trên đặc
trưng hoặc tổng hợp nguyên bảu sẽ rái cần thiết [9]
2.2 Các nghiên cứu liên quan dễn tổng hợp ý kiến
Nghiễn cửu của Bìng Lầu năm 2006 [2] bao gồm các kỹ thuật khác nhau trong,
Ki phe ph quan điềm vi tg hap ¥ Kin, Toons cnn seh ay, Tin ida ghia Ks
nigm “ quan diém” va “ khai phá quan điểm” qua đó giới thiêu các khải niêm cơ bản
liên quam đến chúng Sau đỏ, ông mô tả các kỹ thuật trong khai phá quan điểm bao
gdm phân lớp quan điểm, tổng hợp ý kiến và phát hiện rác quan điểm Một phân lớn trong cuốn sách được đành để mô tả định nghĩa và kỹ thuật phân lớp quan điểm và chỉ một phân nhỏ cửa cuốn sách thảo luận về công việc sinh ra bản tông hợp dựa trên phân lớp quan diễm Hon nữa, phần lớn các công việc tổng hợp ý kiến dược thảo luận lá các
kỹ thuật đựa trên tập luật và phương pháp Heuristic, bổ qua một số phương pháp xác
suất đã được xuất bản trước đẻ
Năm 2010, Bg Liu viét một chương khác vẻ “Phân tích ý kiến chủ quan” [3] Trọng tâm của chương sách hoàn toàn về các kỹ thuật phân lớp quan điểm, không bao gồm các kỹ thuật về tông hợp ý kiến Trong luận văn này, huận vẫn lập trung vào các
kỹ thuật trong tổng hợp ý kiến vượt qua cả vấn dé phân lớp quan điểm, hay sử dựng
phân lớp ý kiến như một thành phản trong tổng hợp ý kiến
Nghiên cứu của Pang và Lee năm 2008 |5| vẻ khai phá quan diễm vả phân tích
š kiến cung cấp một cách bao quát hơn về cáo nhiềm vụ liên quan đến Lông hợp ý kiến
Trang 2220
Nghiên cứu nảy trọng tâm vao khai phá quan điểm, rộng hon la trong tam vao tong
hợp ý kiến Trong nghiên cứu của Pang [5], các phương pháp được mô tả ở một mức
rat cao, ván đẻ phân lớp và các công việc liên quan khác với cách nhìn nhận của Kim
vả công sự [9] Tổng hợp ý kiến được phân ra là đơn văn bản, đa văn bản, phương pháp tiếp cận nguyên bản hay trực quan
Trong báo cáo của Kim vả cộng sự [9], tổng hợp ý kiến được phân chia các kỹ thuật thành ba bước riêng biệt (trích xuất đặc trưng, dự đoán cảm xúc, sinh bản tổng hợp) và cô gắng phân chia các kỹ thuật sử dụng trong mỗi bước đẻ tạo ra một cái nhìn vừa bao quát vừa chỉ tiết về những kỹ thuật này Với việc tập trung vào một phạm vi
nhỏ, Kim vả công sự [9] có thể sử dụng nhiéu phan chia phức tạp cho tong hợp y kien
Điều này cho phép người đọc so sánh giữa các phương pháp Kim vả công sự [9] cũng
cung cấp nhiều hướng đánh giá cho tổng hợp ý kiến, van đề chưa đề cập trong các
nghiên cứu khác
2.3 Phân loại tổng hợp ý kiến
Theo định nghĩa và phạm vi nghiên cửu, tông hợp y kien có thẻ phân loại dựa
trên việc yêu câu một tập các khia cạnh/đặc trưng va không yêu cầu một tập các khia
cạnh/đặc trưng Chúng ta gọi là tổng hợp dựa trên đặc trưng và tổng hợp không dựa trên đặc trưng [9] Hinh 2.1 mô tả tổng quan vẻ các bước trong tổng hợp ý kien dua
trên đặc trưng,
Identify salient topics soak cf Uae,
Sentiment Prediction battery life is great > +ve Determine polarity of text containing tong Cattery Wei eve
topics
+ Aggregate polarity ratings Sound Qualty: ÝY#ŸYW?Y
+ Present opinion summaries
Hình 2.1 Ba bước của tổng hợp ý kiển dựa trên đặc trưng
Tổng hợp ý kiến dựa trên đặc trưng chia các văn bản đầu vao thanh các đặc trưng, còn gọi là khia cạnh hay chủ đẻ con, và sinh bản tong hợp của mỗi khia cạnh
Trang 232
[9] V1 dụ, tổng hợp của săn phẩm "+Pad” có các đặc trưng là “tuổi pin, thiết kế, gid [Bing cách phân đoạn văn bản đầu vao thành các đơn vị nhỏ hơn, tổng hợp dua trên đặc trung có thể hiển thị chỉ tết hơn theo một cách cầu trúc Phân chia đặc trưng có thể hữu ích hơn khi quan diễm tổng thể khác biệt so với quan diém của từng khia cạnh bổi vì tổng hợp dựa lrên đặc trưng có thể k diễn quam điểm riêng Lidl cho mai dic trưng [9] Các phương pháp tiếp cận đựa trên đặc trưng rất phổ biến và được nghiên cứu rất nhiều trong những năm qua [12,13]
Tổng hợp ý kiến không dựa trên đặc trưng bao gẫm các loại tổng hợp khác mà
hh các chủ để nhỏ Tổng hợp ý kiên không dựa trên đặc trưng
n được chia theo đặc trmg trước hoặc đơn giãn đưa ra một
không chúa dữ liệu th
giả sử rằng văn bản ý
tổng hợp chung mà không xem xét đến các khía cạnh [9] Cách tiếp cận như vậy đề cập đến nhiêu khái niệm đa đạng từ tổng hợp văn bản để trục quan héa théng tin [8] 2.4 Tổng hợp ý kiến dựa trên đặc trưng
Kiểu phổ biến của tổng hợp ý kiến là tổng hợp dựa trên đặc trưng Phương pháp này liên quan đến việc tạo ra bản tổng hợp ý kiến dựa trên một tập các chủ đề (gọi là đặc trưng) Các đặc trưng này thường là các chủ đề mà được xem lả quan trong dối với văn bản ý kiến |9| Nhìn chung, tổng hợp quan điểm theo khía cạnh chia làm 3
bước riêng biệt:
e Xác định đặc trưng thuộc tính
* Dự doán cảm xúc
© Sinh ban tom tit
ước xác định đặc trưng, thuộc tính được sử dụng đẻ tìm các chủ đẻ quan trong hàng đâu trong van ban được tóm tắt Bước đự đoán cảm xúc được sử dụng để xác định định hướng tỉnh cảm (tích cực hay tiêu cực) vẻ các khía cạnh được tìm thấy trong
bước đầu tiên Cuối cùng, bước tổng hợp được sử dụng đề trình bảy các kết quả 2
bước trước đó một cách hiệu quã hơn [9]
Các phương pháp và kỹ thuật khác nhau đã được để xuất đề giải quyết những thách thức trong mỗi bước Trong các phân sau đây, luận văn sẽ mô tả kỹ thuật cốt lõi
Trang 24
Aspect Feature Wenilication | Sentancat Prediction Sumnay Generation
TS 2E NUP-based Technique, Teexienn-based Use soe) Sttistieal summary,
200, 2006) Perform POS tagging and sentiment words wid then use | Sentiment diswibution of each
+ ‘WordNet to generate more spect with classified Mining Use assvoiation nile | sentiment words, sentences Graph minjng lo Find all rules representation proposed by
[Hu and Liv 2006), [Xa etal 2006) “Mining, Uae the Gequency of | Lexieuu-baved, Use seniimeat | Text Selvction Senicnce
tems in parngraphs and acrnss | words w assign opinion scores | selection based on TF-IDE paragraphs to sentences seores of wands
‘Summary with timeline, Show opinion changes over» tinvetine
Tra] Semeteiinqwe used [Fn | Kmuwnin sdvanee, ‘Statistical summary Open
ual Liv 2004: 209045) Orientation assigned tu cobverver, Genemite
comes trom *Pros' or Com* | compuriann of several
[vera 20097 LP-Rsd IecRnlque Tearning-based technique, | Text Selection, Shiow the most
1demify head tem and cluster | Use overall rings and a ‘oseuiting phrase in each heuer itm k interesting | Naive Bayes classitice sopeet,
sentiment rating af phrases within each aspect,
‘Text selection Choise phras with highest supypert sac mpect
[Meretal 2007] Tategrated Approach Joint ionic and sentiment Text selestion Top sawed
‘modeling wsing Topic Sectimont Misture (TSM) sentence by topic modeling Model an extract multiple aubtnpics and sertiments in result,
azcollection af big articles Summary with w timeline
TPopexcu ned Etavoni
2008)
TZNuang etal 20007
NIPobaved technique, KnowltAll sysiom to cxteacr features
Other
NLP-based technique Dependency parring to Ions an! modifiors wo scorer opinion phrases
‘Statistical: Une retaxation laboling to predict sentiment
‘viestation of opinion Taint topic aed
modeling wsiter Muhi-Gram LDA (MG-LDA} Extract
ba taples
Tesivon-based Une seed sentiment words and then use WordNet to yensrate more sentiment words
Show opinion changes over 8
words foreach topic
Siutisiealsuipniary
Sentiment distribution of each vuspect class and comespondiny sentences for each aspect ind neni
Hinh 2.2 Các kỹ thuật tông hợp ý kiến dựa trên đặc trưng
Trang 25y b9
2.4.1 Nhận diện đặc trưng
Xáo định thuộc tính/ đặc trưng của thực thế liên quan đến việc xác định chủ đề
nỗi bật trong văn bản tổng hợp Mục địch của bước nay là để tha thấy những để mục nhỏ Trong, một số trưởng hợp, các chủ đề được cho là đã biết và do do bước nảy là
không cần tuết |9|
Ví dụ: Nếu chúng ta muốn tạo ra một bán tổng hợp ÿ kiến về 'iPoxl, một số các đặc trưng phố biển là tuổi thọ pin, chất lượng âm thanh , đề sử dụng,
3.4.1.1 Kỹ thuật NLP trong việc âm kiếm đặc trưng “thuộc tính
Hầu hết các phương pháp tiếp cận trong [13, 17] cổ gắng dễ xác định các đặc
trưng trong văn bản ý kiến với sự giúp đở của kỹ thuật dựa trên NLP Gán nhãn từ loại
(POS) va phân tích cây củ pháp là diễm khởi dầu rất phố biến cho việc tìm kiểm đặc trưng
Ví dụ: Các khia cạnh / thuộc tính thường là cạm danh tử, ngay cã phương pháp
POS rất cơ bản cũng cho phớp mợi người tìm thấy các khía cạnh ứng cử viêu
Trong nghiên cửu của lu và cộng sự [14] phương pháp phản tích củ pháp đã được sử đụng để xáo định đặc trưng cho các ý kiến ngắn Trong các ý kiến ngắn, hẳu
được thể hiện trong các cựn từ ngắn gọn như “well packegod” hay
Với suy nghĩ này, người la cho rằng mỗi cụm từ được phân tích
thành một cặn thuật ngữ chính và bố ngữ, thuật ngữ chính là về một khía cạnh hoặc
tính năng, và bổ ngữ bảy tỏ một số ý kiến hướng tới khia cạnh này Các thuật ngữ chính trong văn bản sau đó được nhóm lại đề xác định k khía cạnh quan trọng nhất [9]
VD: Fast [bỗ ngữ| siipping [thuật ngữ chính]
Popescu va Ftzioni vào năm 2005 [17] đã sử đụng hệ thống KnowTtATi, một hệ
thống trích xuất thông tin độc lập miễn lĩnh vực trên nên tăng web để trích xuất các
thuộc tính rõ ràng cho các lớp sản phẩm được đưa ra từ các đữ liệu đã phân tích cú
pháp Công việc nảy sử dụng một cách tiếp cận phúc tạp hơn dễ trịch xuất đặc trưng, sơ với các cách làm khác Đâu tiên, hệ thông đệ quy xác dịnh tất cả các thành phần (ví dụ như nắp máy quét) và các thuộc tính của lớp sân phẩm nhất định (ví đụ như kích thước mây quét) cho đến khi các ứng cử viên không được tìm thấy Sau đó, hệ thông tìm các
khái niệm liên quan và trích xuất các bộ phận và thuộc tt cũa chứng, Để tìm các
thành phần và thuộc tính, um đánh lừ được trích xuất từ đánh giá, và
i Sau đó hệ thống đánh giá các thuộc ằng chỉ số PMI tính toán giữa cụm từ:
ma dap ứng một độ hỗ trợ tối thiểu được giữ Ì
tính của KnowItAll, đánh gia mỗi cụm danh từ
yà phân biệt các liên kết với lớp san phẩm Các bộ phận sau dó được phân biệt với các thuộc tính bằng cảch sử dụng tử diễn WordNet [ở]
Trang 26
24
Ví dụ: Máy quét, máy quét có, máy quét đi kèm với, cho các lớp quét
Các phương pháp tiếp cận NLP như gán nhãn POS và phân tích cú pháp khá hiệu quả cho việc trích trọn thuộc tính Đây là các kỹ thuật dược nghiên cứu rất tốt, và
cô dộ chính xác cao Một vẫn dễ tiểm năng là tỉnh thực tiễn cũa các cách tiếp cận Tóc
dộ của phân tích củ pháp hoặc gắn thể vẫn chưa dủ "hiệu quả" cho các xử lý quy mô
lớn Ngoài ra, kỹ thuật NI,P ở mức nông như vậy có thể không đã phát hiện tẤt cả các
tính răng Điều mày là bởi vi các tính năng không phải lúc nào cũng là danh từ, và thường không được quy định rõ ràng trong văn bản Ví dụ câu “tnáp nghe nhạc mp3
hở”, ngâm đề cập đến tính năng “se”, nhưng không có đề cập đến từ “size” trong,
câu Diễu này có thể đòi hỏi một số kiến thức hiển biết về trị thức miễn ứng đựng hoặc
sự giứp đỡ từ một số từ điển bản thê học [9]
341.2 Các kĩ thuật khai phá đễ tìm kim đặc trưng/ thuộc tính:
Một phương pháp thường được sứ dụng để nhận diện đặc trung lả tiếp cận khai phá [1,13,17] Kĩ thuật khai phá tập mục phổ biển có thể bú đắp những điểm yếu của
kỹ thuật NLP đã nói ở phần trên Cách tiếp cận nảy không hạn chế việc chí một số từ
và cụm từ có thể trở thánh thuộc tính ứng cử Thay vảo đó, các thông tia khác nÌưự
thông tin hé ire duge sit dung dé xác định một từ hoặc cụm từ cụ thể có là đặc trưng, hay không Một số đặc trưng không có triển vọng thậm chỉ côn bị cắt tĩa với việc sử
dụng các thông tin đự phòng và luật đư thừa Phương pháp phát hiện các đặc trưng này
cho thay hiệu xuất hợp ly đặc biệt là với đánh giá sản phẩm [9]
Hu va Lin [7] sử đụng phương pháp khai phá hiật kết hợp để thực hiện công, việc trích chọn thuộc tính Phương pháp của họ đựa trên ý tưởng rắng mỗi phân khúc câu có chứa nhiều nhất là một đặc trưng độc lập Đần tiên, mỗi cân nhận xét được chia
thành một tập hợp các phân đoạn câu trên cơ sở tách ra bằng °.”, “,”, “và”, “nhưng”
Sau đỏ tất cá cáo từ chỉ đặc trưng được gản nhấn thủ công, Với tập đữ liệu đã được
phân đoạn và gản nhãn, khai phá luật kết hợp được thực hiện học các luật ALA; A„
>> [thuộc tỉnh] dễ dự doán các thuộc tính, dựa trên các từ còn lại trong phan doan edu
và thẻ POS của chúng Vi khai phá luật kết hợp không tính toán dến thử bự của Ái, Aas A„ trong câu, nhiên luật có thế được cắt tỉa đựa trên sự không thông nhất giữa các mỏ hình với ngữ pháp tiếng Anh Đặc trưng trên một tập đữ liện đầu vào mới được sau đó được chiết xuất bằng cách sử đụng những luật đã được đào tạo Trong trường, hợp hai luật dẫn đến hai thuộc tỉnh khác nhau cho các phân đoạn cing mét câu, các
thuộc tính thường xuyên xảy ra hơn được chọn
Zhuang và cộng sự [21] sử đựng mệt cách tiếp cận khae dé trích xuất đặc trưng, trong miễn ÿ kiến phim ảnh Vì nhiều đặc trưng của họ xung quanh điển viên của một
bộ phữa, họ xây dựng một danh sách các đặc trung bảng cách kết hợp tắt cá các điển
Trang 27
van và tân số bên trong các đoạn
Một vẫn dẻ của cách tiếp cận khai phá là nó có thể làm việc khác nhau dối với
các miễn ứng dụng khác nhau Đôi khi trí thức kinh nghiệm được sử dụng để tìm kiểm
các tham số
đặc trưng cần phải định ng ác miền ứng dụng khác Vì
giống như ngưỡng hỗ trợ cần phải được phủ họp cho các ứng đụng khác vì một quá trình thông nhật và ồn định không thé dim bao với một cải đặt toàn cục [9]
2.4.2 Dự đoán chiều hướng quan điểm
Bước phát luện thuộc tính thường dược theo sau là bude dy doan cam xúc trên
cáo văn bản có chứa thuộc lính được phái liệu trước đó Bản thân dự đoán cầm xúc la Tnột lĩnh vực nggiển cứu được hieu sự quan tâm |9]
những người khác có thể thấy rằng nó không kéo đản làu Như vậy, kết quả
thấy rằng tuổi tho pin cia iPod 1a t61, trong khi
Nghiên cứu cửa Trụ và
dung phương pháp học máy đề tống kết quan điểm dựa trên khia cạnh Họ để xuất hai
ông sự 2009 [14] là một trong một những nghiên cứu sử
phương pháp đề phân loại mỗi cụm từ nhóm vào È đặc trưng quan trọng trong một đánh giá r(f) Dâu tiên họ cho rằng đánh giả của mdi đặc trưng phủ hợp với xếp hạng,
\g thể của nó Nói cách khác, mỗi cụm từ được để cập trong một bình luận chia sé những dành giả tương tự như dánh giá tổng thê các ý kiến Với giả định này, xếp hạng khía cạnh có thể được tính toán bởi xếp hang tổng hợp của tất cả các cụm từ về mỗi
khía cạnh
'Trong phương pháp thử hai, thay vì mủ quảng gân củng một tý lệ cho mỗi cụm
từ như đánh giá tổng thế của bình luận, họ học phân loại mức độ sử dụng thông tín
Trang 2826
toàn cục về xếp hạng tổng thể của tất cả các ý kiến Sau đỏ, mỗi cụm từ được phân loại
theo bộ phân lớp đã được đào tạo LIọ chú yêu phân loại từng cựm bằng cách chọn tí lệ
lớp có xác suất cao nhất sinh các bổ ngữ của các cụm từ, về cơ bản là một phân loại Naive Baycs với việc đồng nhất trước khi mỗi lớp dược dánh giá Việc xếp hạng sau
đó dược tang hợp bằng cách tính tỉ lệ trung bình của mỗi cụm từ trơng ruột khia cạnh
Thương pháp đụ đoán này được đưa ra làm việc tết hơn nhiễu hơn so với chỉ sử đụng,
xếp hạng tổng thể
Việc chuẩn bị một lượng đữ liệu học lớn là một thách thức trong việc sử dụng
phương pháp học máy, nó thậm chí còn khó khăn hơn việc tìm đít liệu cho m
vực chung, và mô hinh học trong môi miễn lính vực có thế không lam việc tốt trong miễn lĩnh vực khác [9]
2423 Dự bảo câm xúc dựa trên phương pháp từ điễn/ luật kết hợp
Ky thuật này rất phố biển trong ngữ cảnh tống hợp ý kiến [L0,L3,21] Kỹ thuật
này thường đựa vào một từ điển cảm xúc Từ điển thưởng chứa một danh sách cáo từ tích oực vả tiêu cục được sử đụng để so sánh với các từ trang văn bản ý kiến Ví dụ,
néu mét câu ÿ kiển co nhiều tr nim trong từ điển tích cực, chúng ta cỏ thể phân loại
nó như có một định hướng tích cực Những danh sách tử này thường dược sứ dụng kết hợp với một bộ quy tắc hoặc có thể được kết hợp với các kết quá của phân tích cú pháp hoặc gắn thẻ POS
Để xác định các ý kiến về các khia cạnh vả chiểu hưởng quan điểm Hu và Liu L7I để xuất một phương pháp đơn giãn nhưng hiệu (quả đựa lrên từ điển liên quan Họ
định
bắt đầu với một bộ khoảng 30 lính từ hạt giống cho mỗi chiêu hướng được
trước (tích cực và tiêu cực) Sau đó, họ sử dụng các mối quan hệ Lương đồng và trái
nghĩa được định nghĩa trong từ điển liên quan cho việc phân lớp chiều hướng tích cực
hay tiêu cực đến một tập hợp lớn của các tính từ Vì vậy, chiều hướng của một ý kiến
vẻ một khia cạnh đã được quyết định bởi chiều hưởng của tính từ xung quanh nó
Zhuang và cệng sự [21] sử đụng quan hệ phụ thuộc dé xác định các quan điểm từng với các từ đặc trưng Dễ xác định chiều hướng quan điểm, họ sử dụng một chiến
lược tương tự của IIu vả Liu [R] Lọ định ra LŨO từ quan điểm tích cục và tiêu cực từ
tập đữ liệu đã gán nhãn sau đó sứ dụng WordNet để gắn chiếu hưởng quan điểm cho các từ khác Hơn nữa, chiều hướng quan điểm của một từ bị dão ngược nếu có mỗi
quan hé phi dink nhw 1a “nor” hay “anti” trong dé
Phương pháp từ diễn làm việc tốt với nhiều miễn ứng dụng như đánh giả sẵn phẩm khi mọi người thường diễn đạt ý kiến của họ tường mình hơn Tuy nhiền trong, nhiêu miễn ứng đụng khó bơn như phim ảnh, mọi người thường noi rat ham ý thì phương pháp này đạt liệu suất thấp vì ngữ cảnh thường bị bố qua Hơn nữa, hiệu suất
của phương pháp này phụ thuộc vào chất lượng của tr điển dữ Hiệu đã đùng Để đại
Trang 2937
hiệu suất cao, các từ điện khác nhau được định nghĩa cho các miễn ứng dụng khác
nhau [9]
2.4.3 Sinh bản tổng hợp
Sử dụng kết quả của phát hiện thuộc tính/ khía cạnh và dự đoán cảm xúc, bước
sau đỏ rất quan trọng đề tạo ra vả trình bảy tổng hợp ý kiến cuối củng trong một định dạng hiệu quả vả dễ hiểu Điều nảy thường bao gồm tập hợp các kết quả của hai bước đầu tiên vả tạo ra một bản tông hợp xúc tích tóm tắt
2.4.3.1 Tổng hợp thống kê
Trong khi có rất nhiều định dạng khác nhau của bản tổng hợp, nhiều nhất thường được sử dụng định dạng là một bản tổng hợp hiển thị số liệu thống kê được giới thiệu bởi Hu và Liu [8], Zhuang và cộng sự [21]
Hình 2.3 Vi du vé tong hop ý kiến dựa trên thông kê
Tổng hợp thông kê trực tiếp sử dụng kết quả từ hai bước trước đó - một danh
sách các khía cạnh và kết quả dự đoán tình cảm Qua đó hiển thị số các ý kiến tích cực
vả tiểu cực đối với mỗi khía cạnh Hình 2.3 mô tả một phương pháp tổng hợp thống kê được Liu và công sự sử dụng [12] Tổng hợp thông kê được áp dụng rộng rãi ngay cả trong thể giới thương mại Hình 2.4 mô tả một ví dụ vẻ cấu trúc tổng hợp trên trang tìm kiém Bing Trong việc tổng hợp ý kiến về đổi tượng máy ảnh Sony Camera DVD
650, các đặc trưng được liệt kê và tính toán số các ý kiến nhận xét vẻ các đặc trưng đó.
Trang 30SHARE [I] Facebook QJ Twitter [Messenger EE] Email
Product Summary Where to Buy User Reviews Expert Reviews {Structured Summary
See al
USER REVIEWS yall | Nghi tưng | ores tos
Excellent camcorder,
‘Sony DOR-DVD850 DVD, Flash Media Camcorder — | have onmed this camera for
several years and am very pleased with it overall The zoom feature contict is right
“where your finger would be resting, making it easy to access and use, As you move
past optical
#*#*### mogneto214 -5/28/2010
wow viewpoints.com
Nice little purchase
| purchased this camcorder s0 that | could create videos for my websites | was
disappointed in only one thing, and that is that I thought | was getting the model that
also had baal in memory Despite that, however, | am very happy with this ite,
##'## SanDoo -4/16/2010
#4|eurx vilmaft,comi
Hình 2.4 Cầu trúc tổng hợp ý kiến trên trang tìm kiém Bing
Theo một cách khác, các ý kiển được phân lớp dựa trên các đặc trưng vả chiêu hưởng quan điểm Hình 2.5 là một ví dụ cho cách tông hợp nảy
a Feature: picture ——— =
F natin, ¿a2 ————— Support
‘Overall this is a good camera with a really good
3 The pictures are absolutely amazing the camera captures the minutest of details
takes incredible pictures
a Afternearly Boo pictures | have found that this camera
a The pictures come out hazy if your hands shake even fora moment during the entire process of taking a
it room during day time, pictures praduced by
Trang 312.4.3.2 Lựa chọn văn bản
Trong khi tông hợp thong kê giúp người dùng hiểu tổng thẻ ý kiến của mọi
người, đôi khi đọc văn bản thực tế là cân thiết đẻ hiểu chỉ tiết cụ thể hơn
Do khối lượng lớn các ỷ kiến về một chủ đẻ, hiển thị một danh sách đây đủ của câu không phải là hữu ích Đề giải quyết vẫn đề này, nhiều nghiên cứu gan day [10,
17,19,21] có gắng hiển thị phần nhỏ hơn của văn bản như là bản tóm tắt Họ sử dụng
mức độ chí tiết khác nhau của bản tổng hợp bao gồm cả cấp độ từ, cụm từ vả câu
Với các phương pháp mô hình chủ đề, một bản tóm tắt ở mức độ các từ thường được cung cấp cho môi chủ đẻ bởi vì danh sách các từ vả xác suất của chúng là một
đầu ra ngầu nhiên [19] Một bản tóm tắt mức câu có thể cung cấp một mức độ sâu hơn
về sự hiểu biết một chủ đẻ Bằng cách lựa chọn câu được đứng đầu mỗi thẻ loại, ta có
thể để hiển thị các câu đại diện tiêu biêu nhất Ku vả công sự 2006 [10] xếp hạng câu
dựa trên chỉ số TE.IDF của các tử và chọn các câu liên quan đẻ hiền thị bản tổng hợp
2.4.3.3 Xếp hạng tổng hợp
Lu va céng sự [14] đề xuất một phương pháp tóm tắt tiên tiên xếp hạng tổng
hợp trong đỏ kết hợp tóm tắt thông kê và lựa chọn văn bản Dựa trên việc tìm kiếm các
khía cạnh bằng cách phân cụm vả sử dụng mô hình chủ đẻ đưa ra kết quả dự đoán cảm
xúc trung bình của các cụm từ cho từng khía cạnh như là đánh giá cảm xúc cuối cùng cho từng khía cạnh đó, Hình 2.6 mô tả cho cách tổng hợp nảy
Representative Aspect Aspect Rating Biase
“Support Information
Hình 2.6 Phương pháp sinh bản tổng hợp cấu trúc của Lu và cộng sự
2.4.3.4 Tổng hợp với thời gian biểu
Xu và công sự [10] cho thầy xu hướng ý kiến theo một dòng thời gian Tổng hợp ý kiến tập trung vào việc tim kiếm các số liệu thống kê dữ liệu hiện tại Trong
Trang 3230
thực tế, ý kiến thay đổi theo thời gian Tổng hợp ÿ kiên với một thời gian giúp chúng
ta thấy xu hướng ý kiến về một mục tiêu dễ dàng, và nó cũng cỏ thể cho chúng ta biết
ý tưởng đề phân tích Đề tìm ra những thay đổi ý kiến của nhân dân, chúng ta có thẻ phân tích sự kiện xảy ra với sự thay đổi ý kiến quyết liệt
Hình 2.7 Tổng hợp ý kiến theo thời gian
Hình 2.7 cho thấy thay đổi ý kiến đổi với bổn ứng cử viên bầu cử, vả chúng ta
có thê đề đảng xác định rằng cỏ một sự thay đôi quan điểm mạnh mẽ vảo ngảy bầu cử
2.5 Tổng hợp ý kiến không dựa trên đặc trưng
Tổng hợp quan điểm không dựa trên khia cạnh bao gồm tất cả các loại tổng hợp
ý kiến khác, chúng không phân chia các văn bản đầu vào thảnh các khía cạnh và chủ
đề nhỏ Phương pháp nảy giả định các văn bản ý kiên đã được phân chia theo các khia cạnh hoặc đơn giản chỉ lả cung cấp một bản tổng quát mả không cần xem xét đến các
khía cạnh [9]
2.5.1 Tổng hợp cơ bản
Sử dụng kết quả dự đoán từ phân loại cảm xúc, tổng hợp quan điểm cơ bản có thể được tạo ra Phân loại tình cảm quyết định chiều hướng cảm xúc của đầu vảo văn bản trên một đơn vị phân loại (câu, tải liệu, .) Bằng cách đêm và báo cáo số ý kiến tích cực và ý kiến tiêu cực, chúng ta có thể đễ dàng tạo ra một bản tổng hợp ý kiến thông kê đơn giản
Bản tóm tắt này thẻ hiện sự phân bố ỷ kiến tổng thể của dữ liệu đầu vào mả không có bước xác định khia cạnh Tuy nhiên, loại hình nảy của tổng chỉ có thể hiển thị kết quả phân tich tâm lỷ tại một mức đô rât thỏ Trong khi định dạng được sử dụng
Trang 3331
trong phân loại ý kiến đơn giản đã được ap dụng rộng rãi, như một ban tom tat co the không đủ để giúp mọi người hiểu các chỉ tiết cụ thẻ trong ý kiến Điều nảy thúc đây các nghiên cửu tông hợp quan điểm đựa trên khia cạnh
2.5.2 Tổng hợp văn bản
2.5.2.1 Hội nhập quan điểm
Lu và Zhai [L4] sử dụng chiến lược khác nhau để xử lý văn bản tùy thuộc vảo các loại nguôn khác nhau Hình 2.8 mô tả một ví dụ về phương pháp tổng hợp này
| coe Raw review sentences
Hình 2.8 ĩ dụ về hội nhập quan điểm
Họ phân chia văn bản ỷ kiến thảnh hai loại, ý kiến chuyên gia và dùng thử bình thường, Ý kiến chuyên gia lả bài bảo mả thường là cũng cỏ cấu trúc và đễ dàng đề tìm thấy tính năng Ví đụ, chuyên gia bình luận CNET hay các bải viết trên Wikipedia lả những bải viết ý kiến chuyên gia Mặc dủ ý kiến chuyên gia la kha đây đủ nhưng,
không được cập nhật thường xuyên, do đó chủng thường không phải là những nhận xét mới Các ý kiến thông thường là các bài viết không có câu trúc khác Hầu hết các bài viết trên blog cá nhân và đánh giá của người dùng được coi là ý kiến bình thường Họ
có thể có thông tin không quan trọng, nhưng họ có xu hướng phải được cập nhật
thường xuyên hơn, do đó, chúng phản anh tin tite gan day rat tot
Hội nhập quan điểm là để kết hợp hai nguồn ÿ kiến và cho ra một bản tong hop
hoàn thiện Đâu tiên, họ trích xuất thông tin cầu trúc (dữ liệu đặc trưng) từ ý kiến của
chuyên gia dé phân cụm các tải liệu chung Bằng cách sử dụng một mô hình chủ đẻ
bán giám sát sử dụng kỹ thuật PLSA, họ tận dụng lợi thế của hai nguồn dữ liệu khác nhau Các đặc trưng trích xuất từ ý kiến chuyên gia được dủng như tri thức tiên
Trang 3432
nghiệm cho bước thứ hai là phân tích các quan điểm thông thường, Ý kiến tương tự được tích hợp vào ý kiến chuyên gia, vả thông tin về mỗi đặc trung không cỏ trong ý kiến chuyên gia được thêm vào bản tổng hợp như là cóc ý kiến bỗ sung Thêm váo đó,
các thông lin từ các ý kiến thông thường về các đặc trưng được thêm vào trêu các đặc trưng mười thêm Bởi vì có L
m thêm bắt kỳ loại ý kiến chuyển gìa nào, nghiền cứu
này có thế áp dung cho bat kỳ lĩnh vực nào [9]
Phương pháp đã dễ xuất sử dụng một kiểu ý kiến chuyên gia làm đữ liệu dau
vào Tuy nhiên, có thể có mâu thuần giữa các ý kiên chuyên gia với các cất tị trúc đặc
tưng khác nhau Việc làm sạch dữ liệu và phương pháp liên kết có thế hữu ich cho
việc phân tích và kết hợp các cấu trúc của các nguồn ý kiến chuyên gia khác nhau Vì
vậy, chủng ta có thể có đanh sách đặc trung hoàn thiện hơn
2.5.2.2 Tổng hợp tương phân
Các phueng pháp tắng hợp ý kiến hiện tại thường sinh ra hai tập câu: Tích cực
và tiêu cực Các phương pháp đựa trên đặc trưng thường chia cáo câu dựa trên cáo đặo
trưng con Tuy nhiên, người dừng vẫn cân chia theo từng cản đề hiểu ý kiên một cách
chỉ tiết hơn Dặc biệt, có thể có các câu có chiêu hưởng quan điểm lấn lộn rất khó để
phan lap 16 rang
Ví dụ: Cho hai câu “Tuổi của pin thí đái trong khi chứng tỏi ít khi sử dụng nút
bắm” và “tuổi của pim thì ngắn trong khi chứng tôi sử dụng mút bắm rất nhiều” sẽ được
phân lớp tích cực và tiêu cực riêng, tuy nhiền họ dang nói củng một sự việc
im và Zhai [8] đề xuất một phương pháp cho phép hiện thị ý kiến tương phản
(COS) rat higu quả Tổng hợp tương phản tiếp tục tổng hợp đầu ra của bản tong hop di
tên tại Đưa các câu tích cực và tiêu cực lâm đầu vào, phương, pháp này sinh ra cặp câu
tương phản Để có một tổng hợp tương phản, các cắp càu phải biểu điển các câu dâu
vào tượng phản tắt để cho thấy hiệu quả hơn Họ lập hợp các vấn để thành một nên
ting ti uu va dé xuất hai phương pháp xấp xi để biểu điễn cặp câu sơ sánh, Phương
pháp thử nhất phân cụm mỗi cân tích cực và tiếu cực thành & cum và tìm ra các cắp
tương phản Phương pháp này tìm ra cặp tương phản trước tiên và lựa chọn cặp đại
diện trong số đó Họ chủ yêu sử dựng các hàm tương đồng từ và cũng thực nghiệm với phương pháp tương dồng ngữ nghĩa giữa các tử
Nghiên cứu này để xuất vấn để tổng hợp mới, tống hợp ý kiến tương phan Bằng việc tổng hợp các câu đã phản lớp, nó giám được khối lượng đừ liệu má nguời dùng nên đọc Thêm vào dỏ, bằng cách thể hiện các cặp tương phản, chúng ta sẽ nam dược các diém quan trọng và so sảnh hiệu quả hơn Tuy nhiên, các kỹ thuật sơ bản sử
Trang 35tà a
có thể chọn các từ quan điểm cần thận hơn lả chỉ chọn các tỉnh từ và các từ phủ định cho độ đo tương đồng,
2.5.2.3 Tổng hợp văn bản trừu tượng
Tiỡi vì khó khăn trong việc sinh ra văn bản tổng hợp, tổng hợp trừu tượng ít phổ
biển trong tổng hợp văn bản Phần lớn các kỹ thuật thường sử dụng trích xuất từ khoa/cum từ dơn giản hoặc lựa chọn trích xuất câu
Không giống các nghiên cửu về tổng hợp ý kiến khác, Ganesan và cộng sự [6]
đẻ xuất một phương, pháp tông hợp ý kiến trừu tượng dựa trên phương pháp đề thị Do bản chất của ý kiển (dư thừa và phân tản), phương, pháp tương phản có thể không bao quát hết các ý kiến chính nếu chọn sai lập hợp câu Điều mày trổ nên dặc biệt quan
trọng khi kích uước của bản tôi tắt dược giới lum, chỉ một lượng nhô các câu dược
chọn Trong trường hợp này, rất khó để thụ được các câu mà tổng hợp tái cã các ý kiên Ngoài ra, phương pháp tương phản có xu hướng kha đài và có thể không phủ hợp
với một tập nhỏ
Trong nghiên cứu của Ganesan [6], bước đầu tiên là sinh ra một đổ thị tử trong văn bản của đứ liệu đầu vào, mỗi nút biểu điễn một từ, một cạnh biển điễn kết nội giữa hai từ Sử đụng ba thuộc tính rang buộc của cấu trúc đữ liệu đồ thị (rang buộc đư thửa, các cầu trủc xếp chẳng, khoảng cách khe), các thành phẩn trong đề thị má thục thị như các bản tổng hợp đại điện được tinh điểm và đưa vào danh sách Bản đại điện đứng dầu sau dỏ dược dụng đẻ sinh ra bản tổng hợp cuối củng,
Người ta thấy răng với cách tiếp cận này có thể tạo ra một bản tổng hợp ý kiến
xúc tích và để dọc, không dư thủa dữ liệu Vì phương pháp này độc lập với miễn ứng,
dụng, dựa trên củ pháp, và không cần tập ngữ liệu học nên phương, pháp này rất thực
tế và bao quát Tuy nhiên, do sự phụ thuộc vào thứ tự các từ trong văn bản, sự tương,
đồng ngữ nghĩa giữa các câu lá khó để cập được Ví đụ: “very gooá ballery Tife” va
“fantastic battery Hi” có thể coi là bai câu riêng biệt với nghĩa khác nhau Nâng cao
hơn nữa, việc hiển ngôn ngĩ tr nhiên ở một mức sâu hơn là rất cân thiết
Kỹ thuật này hoán toàn phụ thuộc vào EuroWordNet, vì vậy hiệu suất của hệ
thống hoàn toàn phụ thuộc vào hiệu suất của WordNet, Bởi vì WordNet không chửa tắt cả các tử và có thể có lỗi, kết nổi từ bằng các thông tin trên web có thể là mốt giải
pháp khả thị
Trang 362.5.3 Mô hình hóa
Trong khi phân lớn các công trình đã giới thiệu trước đây thể hiện tổng hợp như
một bảng tổng hợp thống, kê với các đoạn văn bản đại diện hay các cầu, cũng có những, nghiên cứu khác tìm cach hiển thị kết quá theo một cách khác để trực quan với người
dọc hơn
Chen và cộng sự [9] biểu diễn quan điểm trong một chủ đề với các cầu trúc đỗ thị khác nhau Họ phân căm với thông trì phân cực, phôi hợp từ, biểu điển ý kiến dựa
trên cây quyết dink
Mishne và cộng sự xây dựng MoodViews ]16| là một công cụ trực quan hóa cho phân tích cảm xúc trọng blog, Có ba ứng dụng nhé, Moodgrapher, Moodteller va
Moodsignals Moodgrapher biểu điền tổng hop mite dé tim trang dựa trên các thê tâm
trạng theo lừng người Moodleller là rnội công cụ lương tự sử dụng xử lý ngôn ngữ tự
nhiên để tìm kiếm tâm trạng MoodSignal tim kiếm lý do của một sự kiện đặc biệt mà biểu điễn như lä một đầu trong đỏ thị tâm trạng
m Vĩ
dụ, người ding có thể nói cho đà những ý kiến tích cực nhiều hơn những ý kiến tiêu cực hay không Trực quan hỏa không chỉ hữu ich cho người đừng chung, người muôn hiển được quan điểm mà còn cho các nhà nghiên cứu, người cẩn có bản tổng hợp kết
Mội loại các khía cạnh phân tích có thế giúp hiểu được phân phôi của ý
quả trực quan hơn Vị dụ, biểu dễ phân cực của Chen và cộng sự [9] biêu diễn một sự thay dỗi lớn trong các quan điểm tiểu cực Bằng cách phan tích hiện tượng, các nhá
nghiên cửu có thể tim ra rằng có nhiêu giải thích cụ thẻ hơn cho các bải nhận xét trong,
cáo quan điểm tiêu cực, kết quả là hiệu suất phân lớp có thể khác nhau giữa ý kiến tích
Ví dự Hình 2.9 có ba câu "Tom thích tảo”, “Jane ghét tao”, “Lom yéu Jane”
Đôi với câu dầu tiên “Tom” là một nguồn, “táo” là mội mục tiêu, và “like” cho thấy ý kiến của “Tom” với “tán”
Trang 37để là tìm kiểm tham chiều đúng, đỏ là giải quyết đồng tham chiêu được nghiên cứu ở bước đầu tiên Stoyanov và Caride [18] để xuất kỹ thuật đồng tham chiếu đẻ kết nổi
các nguồn củng đề cập tới một thực thẻ Họ sử dụng các luật sở hữu cho tập dữ liệu ý
kiến và kỹ thuật đồng tham chiếu các cụm danh từ chung đẻ nhận diện chủ đẻ,
Tổng hợp thực thẻ được đẻ xuất nhưng chỉ có giải pháp đồng tham chiêu được
nghiên cứu nhiều Để cỏ bản tông hợp hoàn chỉnh, cản phải có các kỹ thuật khác cho các bước tiếp theo như là xác định quan điềm, xác định chiêu hướng vả xép hang quan điểm
2.6 Tóm tắt Chương hai
Trong chương nảy, luận văn đã giới thiệu các phương pháp tổng hợp ý kiến của các tác giả đã đẻ xuất trong thời gian gan đây Trong chương tiếp theo, luận văn đi vào giới thiêu bài toán, đưa ra mô hình đẻ xuất cho việc Tổng hợp ý kiến trong hội nghĩ.
Trang 38Hình 3.1 Tiến trình tông hợp ý kiến trong hội nghị
Luận văn này đề xuất bài toản tổng hợp ý kiến góp y trong hội nghị qua việc phân tich một tình huồng cụ thẻ lả các hôi nghỉ của Ban chap Hanh Trung ương Đảng Trong các hội quy mô lớn có các chủ đề được đưa ra đề bản luận Mỗi chủ đẻ lớn sẽ cỏ một loạt các tiêu chỉ cho trước làm căn cứ đề các đại biêu thảo luận va đưa ra ý kiến Một hội nghị sẽ có rất nhiều các đại biều tham gia họp vỉ vậy sẽ được chia thành nhiều nhóm thảo luân riêng biệt, mỗi nhóm sẽ có một thư ký co nhiệm vụ ghi lại ý kiên thảo
luận của các đại biểu trong nhóm Tập hợp các thư ký từ các nhỏm được gọi là ban thư
ký Ban thư ky có nhiệm vụ tổng hợp các ý kiến từ các nhóm để đưa ra bản tổng hợp cuối cùng của toàn hội nghị Vì số lượng các đại biểu tham gia hội nghị là rất lớn nên rất khó khăn cho ban thư ký tổng hợp ý kiến về các chủ để dựa trên bộ tiêu chỉ cho
trước của từng chủ đề Tiền trình tổng hợp ý kiến của ban thư ký được mô tả như hình
31
Trang 3937
Vi vay, luân văn muôn xây dựng một hệ thông tu dong tong hop ỷ kiến trong
hội nghị với số lượng lớn các đại biểu tham gia thảo luận Hệ thống nảy sẽ giúp cho ban thư ký thu thập, tự động tổng hop y kien va tao ra một ban tong hợp thô theo các tiêu chỉ Bản tổng hợp thô này sẽ được ban thư ký tiếp tục duyệt lại đề đưa ra một bản tổng hợp ý kiến cuối củng,
3.2 Chức năng mong muốn của hệ thống
Hình 3.2 Chức năng của hệ thông tông hợp ý kiến
Quá trình tông hợp ý kiến có sự hỗ trợ của Hệ thống tổng hợp ý kiến được mô
tả như hình 3.2 Hệ thông tự đông tổng hợp ý kiến trong hội nghị sau khi xây dựng sẽ
hô trợ một số công việc chính là thu thập ý kiên, tông hợp ý kiên và gợi ý cho ban thư
ký
3.2.1 Thu thập ý kiến
Thay vi phải ghi chép lại từng ý kiến của các đại biêu bằng tay, sau đỏ các thư
ký lại nhập các ý kiến một cách thủ công thi hé thong sẽ hỗ trợ ban thư ký làm giảm thời gian, công sức trong nhiệm vụ nảy Hệ thống sẽ cho phép các thư ký nhập ý kiến
theo một trong hai cách: Nhập riêng lẻ từng ý kiến của các đại biểu hoặc nhập một bản
bao gồm tắt cả các ý kiến Form nhập ÿ kiến được mô tã như Hình 3.3
Trang 40Tiêu đề: Sửa đổi điều 1 rong chương
Nội dung: Tôixín gốp đều 1 như sau |
es
Hình 3.3 Mô tả form nhập ý kiển
Trong trường hợp nhập riêng lẻ từng ý kiến, tên đại biểu vả chủ đề góp ÿ cỏ thẻ được lựa chọn từ danh sách, tiêu đẻ có thể có hoặc không Trong trường hợp nhập
nhiều ý kiến, nội dung của môi ý kiến nằm trên một dỏng, các trường dữ liệu khác cỏ
thể chỉ định hoặc không
3.2.2 Tổng hợp ý kiến
Nhiêm vụ chính của hệ thông là việc hỗ trợ tổng hợp ý kiến Với số lượng đại
biểu tham gia hội nghị là tương đối lớn (hảng trăm người) thì việc tổng hợp ý kiến một cach thú công là một nhiệm vụ khó khăn đổi với ban thư ký Chỉnh vì vậy, hệ thông
xây dựng sẽ hỗ trợ ban thư ký đưa ra một bản tổng hợp các ý kiển đưới dạng “thô”
Bản tổng hợp này sẽ liệt kê các ý kiến dựa trên các chủ đẻ, tiêu chí cho trước dé ban
thư ký tiếp tục hoàn thiện và đưa ra bản tông hợp cuối củng Bản tổng hợp “thô” được
mô tả như Hình 3.4