1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị

80 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hệ Thống Tự Động Tổng Hợp Ý Kiến Góp Ý Trong Hội Nghị
Tác giả Phạm Văn Hà
Người hướng dẫn TS. Bủi Quang Hưng, PGS.TS. Vũ Duy Lợi
Trường học Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ Thông Tin
Thể loại Luận văn Thạc sĩ công nghệ thông tin
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 80
Dung lượng 2,69 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một phân lớn trong cuốn sách được đành để mô tả định nghĩa và kỹ thuật phân lớp quan điểm và chỉ một phân nhỏ cửa cuốn sách thảo luận về công việc sinh ra bản tông hợp dựa trên phân lớp

Trang 1

ĐẠI HỌC QUỐC GIA HA NOI TRUONG DAI HOC CONG NGHỆ

PHAM VAN HA

HE THONG TY DONG TONG HOP Y KIEN GOP Y

TRONG HOI NGHI

LUAN VAN TIIAC SĨ CÔNG NGIIỆ TIIONG TIN

TIÀ NỘI - 2014

Trang 2

ĐẠI HỌC QUỐC GIÁ HÀ NỘI

TRUONG DAI HOC CONG NGHE

PHAM VAN HA

HE THONG TU DONG TONG HOP Y KIEN GOP Y

TRONG HOI NGHI

Ngành: Công nghệ thông tin Chuyên ngành: Hệ thẳng thông tin

LUẬN VĂN THIẠC SĨ CÔNG NGIIỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BỦI QUANG HƯNG

PGS.TS VŨ DUY LỢI

HẢ NỘI - 2014

Trang 3

LỜI CAM ĐOAN

Tơi xi cam đoan kết quả đạt được trong luân văn là sản phẩm nghiên cứu, tìm hiểu của riêng cá nhân tơi Trong tồn bộ nội dung của luận văn, những, điều được

trình bày hoặc là của cá nhân tải hoặc là được tổng hợp từ nhiền nguồn tài Hệu Tắt ca

các tài hiệu tham khâo đều cĩ xuất xử rõ ràng và được trích dẫn hợp pháp,

“Tơi xm hồn tốn clu trách nhiệm và chị mọi hình thức kỹ luật theo quy đmh

cho lời cam doan của minh

Hà Nội, ngày 10 tháng Ù6 năm 2014

Người cam dòn

Phạm Văn Hà

Trang 4

3

LỜI CẢM ƠN

"Trước tiên, tôi xin gửi lời cắm ơn chân thánh và sự biết on sau sie tdi TS Bat

Quang Img và PGS.TS Vũ Duy Loi da tan tình giúp đỡ tôi vẻ cả chuyên môn,

nghiên cửu và định hưởng phát triển trong suốt quá trình làm luận văn

Tôi cũng xin gửi lời cúm ơn tới các Thấy, Cô giáo của Khoa Công nghệ thông

tin, vi da truyền đạt những kiến thức bổ ích, hiện đại vẻ lĩnh vực ITệ thống thông tin

mà tôi học tập Tôi xin bày tổ sự biết ơn sâu sắc tới ThŠ Tran Mai Vũ đang công tác

tại Phòng thí nghiệm Công nghệ trí Huức (KTT.sb) đã giúp đõ, hỗ trợ lôi trong quá Irình

nghiên cứu, hoàn thành dé tai nay

Cuối cùng, với gia đinh, tôi xin gửi lời biết ơn sâu sắc vì gia định đã luôn ở bên cạnh tôi, mang lại cho lỗi nguồn động viên tỉnh thân to lớn và lạo tuợi điền kiện thuận

oi cho tôi trong quá trình hoc tập và hoàn thành luận văn này

Mặc dù đã rất cổ gắng nhưng luận văn sẽ không tránh khỏi những thiểu sót, Rất mong nhận được ¥ kién động góp quỷ bảu của Thầy, Cô giáo vá các bạn để luận văn được hoàn thiện hơm

Xin tran trang cam on!

Hà Nội, Tháng 06 — Nam 2014

Phạm Van Ia

Trang 5

LOI CAM ĐOAN co eeeeiie

LỚI CÁM ÔN

MỤC LỤC snneerrreeree

BANG CAC KY IDGEU VA CIIU VIET TAT

TDANH MUC CAC HINA VE

DANH MUC CAC BANG BIEU

1.3 Các thách thức trong khai phá quan điểm

1.3.1 Phong cach viết khác nhau

1.3.2 Quan điểm thay đối theo thời gian

1.3.3 Độ mạnh của qua điểm

1.3.4 Các câu với đảnh giá pha trộn

1.4 Các bài toán trong khai phá quan điểm

1.4.1 Phân lớp quan điểm

1.4.2 Khai pha quan điểm số sánh

1.4.3 Khai phả và tổng hợp ý kiến đựa trên đặc trưng

1.5 Ứng dụng của khai phá quan điểm

1.5.1 Ung dung trong các trang web đánh giá

1.5.2 Ung dung như một công nghệ thành phản

Trang 6

2.4 Tổng hợp ý kiến dựa trên đặc trưng

3.3.1, Pha thu thập đữ liệu —

3.3.2 Pha tiên xử lý đữ liệu

3.3.3 Pha xác dịnh chủ dẻ của ÿ kiến H111 n0 1 0n.110011111xxxe

3.3.4 Pha gam nhóm ý kiên

3.3.5, Pha phản lớp ý kiến H111 n0 1 0n.110011111xxxe

3.3.6 Pha sinh bản Tóm tắt

Trang 7

3.4 Phuong pháp danh gia

3.41 Đánh giá pha xác định chủ để

3.4.2, Danh giả pha phân lớp ý kiến H111 n0 1 0n.110011111xxxe

Chương 4 THỰC NGHIÊM VÀ ĐÁNH GIA

4.1 Môi trường thực nghiệm

4.2 Công cụ phần mềm

4.3 Dữ liệu thực nghiệm

4-4 Chương trình thực nghiệm

4.5 Kết quả thực nghiệm

4.5.1 Kết quả đánh giá bước xác định chủ để

4.5.2 Kết quả đánh giá bộ phần lớp Naivel3ayes tự xây dựng 4.5.3 Kết quả đánh giá bộ phân lớp sử đụng mã nguồn mở Weka

4.6 Một số giao điện mình họa

4.6.1 Giao điện chính

46.2 Giao điện thêm mới ý kiến

4.6.3 Giao diện tổng hợp ÿ kiến ¬

KET LUAN VA DINH HUGNG

TAL LIỆU THAM KHẢO co — -

PHU LUC.

Trang 8

BANG CÁC KÝ HIỆU VÀ CHỮ VIÉT TẮT

COS Contrastive Opinion Summarization | Tổng hợp quan điểm tương phản

CSDL | Database System Cơ sở đữ liệu hệ thông,

HTML | Hyper Text Markup Laguage Ngôn ngữ đánh đầu siêu văn bản t8 Integrated Development Mỗi trường phát tiễn tích hợp

Environment

IDF _| Inverse Document Frequency — Sempre rong

JSON JavaScript Object Notation Ký hiệu đổi tượng JavaScript

NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên

ESA, Probabilistic Latent Semantic Bhản Mới ado: sult ng natite dn

Analysis

PMI Pointwise Mutual Infomation Thông tin tương hỗ trên điểm

Pos Positive Tích cực

SMO Sequential Minimal Optimization Tối thiểu tuân tự

XML | eXtensible Markup Language Ngôn ngữ đánh dâu mở rộng

Trang 9

DANH MỤC CÁC HÌNH VẼ

Tĩnh 1.1 Một quan điểm nhận xét về sản phẩm iPhone trén Blog 12

Hình 2.1 Ba bước của tổng hợp ý kiến đựa trên đáo trưng, 20

Hình 2.2 Các kỹ thuật tổng hợp quan điểm đựa trên đặc trưng |9| 22 Hình 2.3 Ví dụ về tổng hợp ý kiến đựa trên thống kê 27 Hình 2.4 Câu trúc tổng hợp ý kiến trên trang tim kiém Bing _—-

1Tỉnh 2.5 Phân lớp các ý kiến dựa trên đặc trung và hướng quan điểm 28 Ilinh 2.6 Phuong pháp sinh bản tổng hợp cầu tnic ctia Lu va céng sur 29

Hình 2.9 Ví dụ tông hop dựa trên thục thể 0000222 wd Tlinh 3.1 Tin trinh téng hep ý kiến trong hội nghị 138

Tlinh 3.2 Chức năng của hệ thống tổng hợp ý kiến 7

Hình 3-4 Bản tổng hợp ý kiểu dưới dang thé 39

Hình 3.5 Kiến trúc dễ xuất của hệ thông hỗ trợ tổng hop ý kiến 40 llinh 3.6 Mô hình đề xuất cho hệ thông hỗ trợ tổng hợp ở kiến we AL

Tlinh 3.7 Cau tric mét ¥ kién pop y ota ngudi dan 43 Ilinh 3.8 Cau trúc một ý kiến góp ý của DBQII 44

Hình 4.1 Biểu để đánh giá độ chính xác của bước xác định chủ đẻ 59 Hình 4.2 Biểu đỗ đánh giá phân lớp NaiveBayos tự xây dựng,

Tĩnh 4.3 Biểu đồ thể hiện kết quả của tập dữ liệu thứ nhất

Tĩnh +.4 Biểu đồ thể

lên kết quả của tập đứt liệu thứ hai

Hình 4.5 Biến đồ th kết quê của tập dữ liệu thứ ba 62 Hinh 4.6 Biểu đồ so sánh độ chính xác giữa các tập đữ liệu 6 Hình 4.7 Biểu để so sánh độ hồi tưởng giữa các tập dữ liệu „64 Tĩnh 4.8 Biểu đồ so sánh độ đo F-measure giita cdc tp dif liệu .64

1lỉnh 4.9 5o sánh thời gian thực hiện thuật toán 65 Hình 4.10 Giao điện chính của chương trình thử nghiệm 66

Hình 4.12 Giao điện tổng hợp ý kiếu H111 n0 1 0n.110011111xxxe wT

Trang 10

DANH MUC CAC BANG BIEU

Bang 3.1 Trích xuất các thông tin ý kiến ngwoi dan

Bang 3.2 Trích xuất các thông tin ý kiến của ĐBQH

Bằng 3.3 Mô lâ dữ liệu ý kiến

Tông 3.4 Mô lã bằng dữ liêu Comment hu trét cae ý kiến

chại biêu

Bằng 3.5 Mô lâ bỗng dữ liệu Delegalc hưu trữ thông tin

Bằng 3.6 Bảng các luật xác định chủ để của câu dầu liên

Bảng 3.7 Bảng các luật xác dịnh chủ dễ của các cầu tiếp theo

Bảng 3.8 Mô lâ bằng dữ liện Serlence

Bảng 3.9 Mô lã bằng đữ liệu subeomuuent

Bằng 3.10 Ma trận nhằm lân đánh giá các đô đo

Bằng 4.1 Câu túnh tráy tính thử nghiệm:

Trang 11

MO DAU

1 Dal van đề, định hướng nghiên cứu

Su bing nả của nên tảng Web 2.0 như blog, diễn đàn, mạng xã hội và nhiều loại truyền thông khác giúp cho người tiêu dùng có thế chia sẻ quan điểm về bật ki sản phẩm hoặc dịch vụ nào Ý kiến của khách hàng năm một phân quan trong trong việc

hình thánh quan điểm ý kiến của cáo khách hàng khác và ảnh hướng tới chính sách

quảng bá thương hiệu của các công tự, Với sự phong phú của các nguồn tài nguyên về

quan điểm như hiện nay đã thúc đây “Khai phá quan điểm” phát hiển và nhận được

nhiểu sự quam tâm trong lhời gian gần đây Công việc khai phá văn bản không chỉ

dừng lại ở việc phân tích côu chữ cũa văn bản, giúp rnảy linh thực sự “hiểu” nội dụng,

văn bản nói gì, mả còn cho biết người viết có quan điểm như thế nảo trong văn ban đó

Tổng hợp ý kiến (Opinen sunmarization) là bài loản quan trọng trong khai phá quan điểm, đang thu hút được sự quan tâm của cộng đồng nghiên cứu khai phá đữ liệu, học máy, truy hải thông tin, vả xử lý ngôn ngữ tự nhiên Mục địch chính của tổng hợp

ý kiến [2,3.5,9] la tự đông tổng hợp các ý kiến về một đối tượng hay vấn đề thành một bản tổng hợp ý kiến ngắn gọn Các phương pháp tổng hợp ÿ kiến được giới thiệu [3,5,9] dựa trên các mô hình thống kê đã cho những kết quá rất khá quan va md ra cơ hội ứng dung cho nhiều bài toán thực tế

'Trong các hội nghị quy mô lớn có các chú để lớn được đưa ra để bàn luận Vi số lượng các dại biểu tham gia hội nghị là rất lớn nên rất khó khăn cho ban thu ký tổng,

hop ý kiến về các chủ dễ dựa trên bộ tiêu chỉ cho trước của từng chủ dễ Chính vì vậy,

để giải quyết tỉnh trang khỏ khăn trong các hội nghị như biện nay, luận vẫn đề xuất

xây đựng một “Hệ thẳng tự động ting hop ý hiển trong hội nghị” Hệ thông này sẽ

giúp ích trong việc thu thập ý kiến từ các đại biết

giâm thiếu gánh nặng của ban thư ký trong việc 3

tự động tống hợp các ý kiên, làm

\y dụng bản tổng hợp ý kiến hội

nghị Dây là một khổi công việc lớn, cản nhiều thời gian và công sức Dễ tài này là

bước khối đâu cho công việc này:

2 Mục tiêu của luận văn

Mục tiêu chưng của lưận văn là hướng tới xây đụng một hệ thông cho phép tự

động tổng hợp các ý kiến đóng góp cho một hội nghị với số người thara đự lớn (hàng,

trăm người) Hệ thông này sẽ tự động thu thập, tổng hợp ý kiến sóp ÿ, bước đầu tạo ra

lông hop thé”, sau dỏ thư ký hội nghị sẽ dựa trên bán tổng hợp thỏ này dễ

tiếp tục tông hợp tiếp thành băn tổng hợp ÿ kiến hoàn chính

một bản.

Trang 12

10

Dây là một để tải khó cần nhiều thời gian vả công súc thực hiện Dễ đám báo chất lượng và trong khá năng cho phép, đề tải chỉ giới hạn ớ những phần cơ bán và ban đầu về hệ thống tự động tổng hợp ý kiến trong hội nghị, bao gồm:

©) Tim hiểu các phương pháp của bài loan tang hợp ý kiến

«_ Để xuất mỏ hình cho bải toán tổng hợp ý kiến trong hội nghị

«_ Thực nghiệm và đánh giá các phương pháp

« Xây dựng thữ nghiệm một hệ thống để phục vụ công việc tông hợp ý kiến

gếp ý trong hội nghị

3 Nội dung của luận văn

Luận văn thực hiện xuyên suốt trong quả trinh từ khi hình thành các khải niệm, ý tưởng nghiên cứu, cho dén khi xây dựng mỏ hình tong hop, dé xuất và dánh giá phương pháp tổng hợp ý kiến Nởi dung chính bao gồm gác phân sau:

Mé dau: Bal ra vẫn đề, mục tiêu và giải pháp cho bài toán tổng họp ý kiến đóng gớp trong hội nghi

Chương 1: Giới thiệu tổng quan - các khái ruêm cơ bản về khai phá quan

điểm vả bài toán tổng hợp quan điểu

Chương 2: Trình bày các phương pháp cho bài Loán tống hợp ý kiến

chung

Chương 3: Dễ xuất mô hình cho bải toán tổng hợp ý kiến trong hội nghị

Chương 4z Thục nghiệm và đánh giá các phương pháp, xây dung demo

cho việc xú lý và phân lớp các ý kiến mới

Két luận & định hướng: Tổng kết lại những kiến thức đã tích lũy, kinh nghiệm được áp địng trong suốt quá trình thực hiện luận văn Đưa ra được các hướng phát triển trong tương lai

Trang 13

i

Chuwong 1 TONG QUAN VE KHAI PHA QUAN DIEM

1.1 Tidi thigu

Một phản quan trong trong việc thu thập thông tin là luôn tìm ra “Những điều

người khác nghĩ” Khi bạn muốn mua một chiếc máy tỉnh xách tay HP Pavilon DV6

ban đặt ra các câu hổi “Máy HP có tốt không? Dòng Pavilon của HP dùng thế nào? Pin

dùng có lâu không? ” Chính nhận xét của những người đã dùng máy tính HP sẽ là câu trả lời cho các câu héi mà bạn thắc mắc [5]

Theo cuộc kháo sát hơn 2000 người Mỹ trưởng thánh cho thấy 81% người đúng,

Internet (chiếm tỷ lệ 60% người Mỹ) dã thục hiện việc tìm hiểu vẻ một sản phẩm thông qua Tnlernet Cé từ 7394 đến 87% số người nói rằng các nhận xét về sẵn phẩm!

có sự ảnh hưởng quan lọng đến việ lựa chọn mua sản phẩm của họ [5] Như vậy,

quan điểm của người khác giúp chúng ta có thêm thông từụ khi quyết định một vấn đề,

né ảnh hưởng rất lớn dén hành vi của chúng ta Bật cứ khi nào chủng ta phải dua ra một quyết định, chíng ta thường phải thảm khảo những ý kiến của những người khác

'Với cả nhân, chúng †a tham khảo từ gia đình và bạn bẻ Với tổ chức, họ tổ chức các cuộc diều tra, thăm đò dự luận dễ nắm bắt được ý kiến

Sự bừng nỗ của nên tảng Web 2.0 như blog diễn đản thao luận, mạng ngang hàng, và nhiều loại truyền thông xã hội kháo giứp cho người tiêu đủng có thế để đàng

chia sẻ kinh nghiệm và quan điểm về bắt kì sản phẩm hoặc dich vụ nào Với sự phong

phú cửa các nguồn tài nguyên về quan điểm, việc sử dụng công nghệ thông tin để tim

kiếm và hiểu được ý kiến của con người là một cơ hội và thách thức rất lớn

Khai pha quan điểm lá lĩnh vực nghiên cứu má cố gắng để làm cho hệ thống tự động xác định quan điểm của con người tử văn bản được viết bằng ngôn ngữ tự nhiên Khai pha quan điểm nghiên cửu về ÿ kiến, tỉnh cảm, quan niém chủ quan, đánh gia, thải độ, thâm dịnh, cảm xúc dược thể hiện trong văn bản Những điều dỏ được thê

hiện qua các nhận xt, blog, các cuộc thảo luận, tin tức, bình luận, phản hỏi hay các

tải liệu khác [5] Khai phá quan điểm đựa trên ngốn ngữ tính toán, truy vẫn thông tin,

khai thác văn bân, xứ lý ngôn ngữt ny nhiên, học máy, thông kẻ và phân tích dự đoán

12 Các khái niệm trong khai phá quan điểm

Liu [4] dua ra dinh nghĩa quan điểm: Ä⁄ôf guan điểm bao gỗm 5 yếu tổ (e, đụ, Syiy Rip WD trong đó e, là tên của chủ thé, ay là đặc trưng của e, sụa là guan diễm về dặc trưng a, của e, hụ là nguôn của quan điểm và ù là thời điểm mà quan điểm đỏ được biểu đạt bởi hạ Quan điềm sua có thể (ích cực, tiêu cực, trung lập hoặc biểu diễn bởi

thang dành giá.

Trang 14

12:

Id: Abc123 on 5-1-2008 “/ bought an iPhone a few days ago It is such a nice phone The touch screen is really cool The voice quality is clear too It is much better than

my old Blackberry, which was a terrible phone and so difficult to type with its tiny keys However, my mother was mad with me as | did not tell her before | bought the phone She also thought the phone was too expensive, .”

Hình 1.1 Một quan điểm nhận xét về sản phẩm iPhone trên Blog

Ví dụ: Một quan điểm về điện thoại iPhone trên Blog như trong Hình 1.1 được

biểu diễn dưới một số bộ năm như sau

(iPhone, GENERAL , + , Abe123,, 5-1-2008)

(hone, touch_screen, +, Abc123, 5-1-2008)

(Phone, voice_quality, +, Abc123, 5-1-2008)

(Blackberry, keys, -, Abc123, 5-1-2008)

Theo Bing Liu [2], cde quan diém có thê thể hiện vẻ bắt cứ điều gì, ví dụ như

một sản phẩm, một cá nhân, một tô chức, một chủ đè Ông sử dụng thuật ngữ đổi

tuong (Object) đề biêu thị các chủ thẻ được đề cập.Theo đó, ông đưa ra một số khải niệm trong khai phả quan điểm bao gồm: Đồi tượng, các đặc trưng, đoạn đảnh giả, quan điểm, người đánh giá

1.2.1 Đối tượng

Dùng để chỉ thực thể (người, sản phẩm, sự kiện, chủ đề ) được đánh giá Mỗi

đổi tượng có một tập các thành phản (components) hay thuộc tính (attributes) gọi chung là các đặc trưng (features) Mỗi thành phản hay thuộc tính lại có một tập các

thành phan hay thuộc tỉnh con Như vậy, một đổi tượng Ø được biểu diễn bởi một cặp

TT, 4] trong đỏ 7 là một câu trúc phân cấp thành phân cha, thành phan con, 4 1a tap

các thuộc tính của đổi tượng Ø [3]

Vi du: May anh co mét tập thành phân: ông kinh, pin và các thuộc tỉnh: kich cỡ,

khối lượng, chất lượng anh Thanh phan pin cỏ các thuộc tính con: kích cỡ, thời

gian

Theo định nghĩa nảy, một đối tượng có the bieu diễn như một cây phân cấp Góc của cây chỉnh là đổi tượng đỏ, mỗi node không phải gốc là một thành phần hoặc thành phần con của đổi tượng, mỗi cạnh chỉ một quan hé part-of, Mỗi node được gán

một tập các thuộc tính, mỗi quan điểm có thê biểu diễn thông qua một node bất ky va

các thuộc tính của node đỏ.

Trang 15

1.2.2 Doan đánh gia

Goi mét tai ligu quan điểm là đ, trong trường hợp tổng quat nhat, d bao gém

mot tập các cau tuin tud /5„ s; s„#.Đoạn đánh siá về một đặc trung ƒ của đối tượng @ trong đ là một tập các câu liên tiếp trong ở diễn tá quan điểm tích cực hay tiêu cực về đặc inmg f Đoạn đánh giá bao gồm tối thiểu ít! nhật một câu có thê biểu diễn

Nếu một đặc trung ƒ hoặc bất kỉ từ đồng nghĩa nảo với nó xuất hiện trong câu ø,

thi f là đặc trưng hiện (Uxplicit feature) trong s Ngược lại, ta nói ƒ là đặc trưng Ân (huplicit feature) [3)

Vidu

May anh nay dat qua: Đặc trưng “giả” là dặc trưng ẩn

Mẫu sắc của chiếc áo này dẹp ghế: Đặc trưng máu sắc lá dặc trưng hiện

1.2.4 ®gười đưa ra quan điểm

Người đưa ra quan điểm (Opinien holder) là người hoặc tổ chức thê hiện quan

điểm Người đưa ra quan điểm càn gợi là nguồn của quan điểm Trong trường hợp

đánh giá sản phẩm, diễn đản, blog thì người đưa ra quan điểm thường lả cáo tác giã

của đảnh giá hay bài viết đỏ [3]

Vi dw “John bày tỏ sự bãi đồng ý kiến của mình về lriệp ước `

Neguési dua ra quan diém 1a “John”

diém an (implicit opinion) vé mot dic trưng / là câu thể hiện quan điểm tích cục hay

tiêu cục ruột cách không tường mảnh [3]

Trang 16

14

1.3 Các thách thức trong khai phá quan diém

1.3.1 Phong cách viết khác nhau

Thực tế, các bình luận hay quan điểm nhập vào bởi những người khác nhau thi

họ cô cách viết khác nhau, từ cách thức sử dụng ngôn ngữ, chữ viết tắt và kiến thức của họ lả một thách thức riêng của môi người Mọi người dếu không bảy tố ý kiến theo củng một cách Người tạ cỏ thẻ sử dụng các thuật ngữ trong một câu tiểu dễ xuất hiện trên một tờ báo trực tuyển và xuất hiện trong một diễn đầm trực tuyến là rất khác nhau (điều này phụ thuộc vào bối cảnh mà quan điểm đó được thể hiện) Trên thực tế, hầu

hết trong xử lý văn bản truyện thẳng thì sự kháo biệt nhỏ giữa hai phản của văn bản

không thay đối ý nghĩa nhiễu Tuy nhiên trong khai phá quan điểm, "bộ phim hay" là rất khác với “bộ phim không hay" [22]

1.3.2 Quan điểm thay đổi theo thời gian

Mội thách thức khác cầu phải xét đến là vấn để làm thế nảo để có thể theo dõi các quan điểm thay đổi theo thời gian Tâm trạng cửa một người não đó có thể thay đôi

nhưng điên đỏ không nhật thiết ring quan điểm vẻ một sản phẩm hoặc dịch vụ nhất định sẽ thay đổi theo Nên một san phẩm cải thiện sau một thời gian có thể là vì nhiều

người đang hai lòng với nó và vì họ có thê bị thuyết phục sau một cuộc thảo luận đài

trong một diễn đàn về sản phẩm [22]

1.3.3 Dộ mạnh của quan điểm

Xác định độ mạnh của một quan ciểm là một thách thức phải dối suặt trong khai

phá quan điểm Nhiều nễ lực đã được thực hiện để xác định các yêu tố quyết định sức

mạnh của một ý kiên trong mệt bếi cảnh Bỗ sung thêm việc phân lớp các từ thành cáo mức độ xu hưởng quan điểm khác nhau, một số từ bỗ nghĩa cỏ thể được dùng để xác định độ mạnh của quan điểm( “rất”, “một chút”, “hết sức”, “hơi” ) Cụm từ “rất hải lòng” và “hơi hài lòng” sẽ được phân lớp thành rất tích cực vá kém tích cực nếu “rất”

và “hơi” dược phân lích và sử dụng dễ xác dịnh mức dộ ddi lập |22|

1.3.4 Các câu với đánh giá pha trộn

Một thách thức lớn đổi với khai phá quan điểm xuất hiện khi mọi người thế hiện đánh giá tích cực và tiêu cực rong cùng một câu Diễu này chủ yếu là kết quả khi moi ngudi đang giao tiếp thông qua các phương tiện truyền thông không nghĩ thức nhự blog vả các diễn đản Mọi người có nhiều ý kiến khác nhau trong củng một câu Những cầư như vậy có thể gây khó khăn dễ phân tích cú pháp hoặc khai pha quan

điểm |22]

Trang 17

15

1.4 Các bài toán trong khai phá quan diễm

‘Theo Bing Liu [2], khai phá quan điểm có ba bài toán diễn hình nhất đó là

«_ Bài toán phân lớp quan điểm

e Tổng hợp ý kiến (Quan điểm)

®_ Khai phá quan điểm so sảnh

1.41 Phân lớp quan điểm

‘Vai bai toan này có thê cơi khai phá quan điểm như bải toán phân lớp văn bản

Tài toán phân lớp một văn bán đánh giá là tích cực hay tiêu cực Vĩ đụ: với một đánh

giả sẵn phẩm, hệ thông xác định xem nhận xét vẻ sản phẩm ấy là tốt hay xấu Phân lớp này thường là phân lớp ở mức tải liệu Thông tin dược phát hiện không mô tả chị tiết

vẻ những gi mợi người thích hay không thích

M6 hinh bai toán:

« Tap danhgiaD - {4}

e Hai lớp đánh giá Pos (Tích cực) va Neg (Tiêu cực)

« Bộ phản lớp sẽ phân dị vào một trong hai lép Pos/Neg

Ví dụ: Với một đánh giá về điện thoại Samsung galaxy S4, hệ thẳng sẽ xác định quan điểm của đánh giá này là khen hay chê (nên rnua hay không nền mua)

ï tượng,

gỒn có nội các] xánh đổi lượng muốn nhận xét với mội đối

vậy, một trong những cách quan trọng nhất của đánh giá đối

tượng là so sảnh trực tiếp nò với một đối tượng, tượng tự khác

Ví dụ:

“Kiểu dáng điện thoại Samsung galaxy S4 dep hon galaxy S3" ä đây đặc trưng kiểu dàng của Samsung galaxy 84 là dối tượng dược nhận xét

1.4.3 Khai phá và tong hop ý kiến dựa trên đặc trưng

Bài toán này đi chỉ tiết vào mức câu để làm rõ đối tượng mã người đưa ra quan điểm thích hay không thích Dôi tượng ở đây có thể là sản phẩm, dịch vụ, một chủ đề, Tmột ca nhân hay tô chức

Ví dụ, trong đánh giá sâu phẩm, người đánh giá dưa ra các bình luận tích cực tiêu cực về một đặc trưng của sân phẩm Như trong câu “tuổi thọ pứn của chiếc

Trang 18

16

camera này hơi ngắn” thì đôi tượng được đưa ra bình luận ở đây là “tuổi thọ pin” và quan điểm nay là quan điểm tiêu cực Có hai bài toán đặt ra:

© — Bài toán 1: Xác định và trích chọn các đặc trưng của đối tượng mả người

dùng đánh giá Ví dụ: “hiệu năng xử lý của chiếc laptop này rất cao" thì

đặc trưng của đổi tương “Japtop” ở đây là “hiệu năng xử ly”

© — Bài toán 2: Xác định và xem quan điểm của người đánh giá về đặc trưng

của đối tượng đó lả tích cực, tiêu cực, hay trung lập Vi dụ: Trong đánh giá

của người dùng về hiệu năng xử lý của laptop thì quan điểm đưa ra lả tích

cực

1.5 Ứng dụng của khai phá quan điểm

1.5.1 Ứng dụng trong các trang web đánh gi:

R6 rang, một máy tìm kiểm hướng quan điểm có thẻ phục vụ tốt cho việc thu thập và tự đông tổng hợp các quan điểm, nhận xét Thay vì có các trang web thu thập

nhận xét của mọi người như www.epinions.eom ta có thể hình dung ra một trang web

tự động thu thâp những thông tin trên một cách nhanh chóng Chủ đẻ không chỉ bỏ hẹp

ở những bải đánh giá sản phẩm mả còn có thể bao gồm các ÿ kiển về vấn đề chính trị,

xã hôi [5]

Ngoài ra, các ứng dụng có thể được xem xét liên quan đến những trang thu thập

các bài phê bình Việc tóm tắt những bài phê bình của người dủng cũng được xem là một bài toán quan trọng Ta có thể hình dung các sai sót khi người dùng xếp hạng sản phẩm sẽ được sửa chữa: Nhiều khi người dùng vô tỉnh xếp hạng sản phẩm quá thắp

trong khi nhân xét của họ lại đánh giá cao sản phẩm đó

5.2 Ứng dụng như một công nghệ thành phần

Khai pha quan điểm cũng có vài trò quan trọng như một công nghệ khả dụng cho các hệ thống khác Một tiêm năng mả ta có thê áp dụng trong việc mở rộng các hệ thống khuyên cáo, giúp cho hệ thông không đưa ra các sản phẩm nhận được nhiều phản hỏi tiêu cực đề khuyến cáo người dùng [5]

Trong các hệ thông trực tuyên, các quảng cáo được hiện thị ở góc mản hình can

được kiểm tra xem cỏ phủ hợp với nội dung trang web hay không, Ví dụ trong một trang web có nội dung chuyên về gan mà hiển thị các quảng cáo về các sản phẩm rượu

lả không hợp lý, néu hiện thị quảng cáo về các loại thuốc trị viêm gan sẽ phủ hợp với

nội dung hơn Trong các hệ thống tỉnh vi, các quảng cao vé san phẩm tương ứng sẽ

được đưa lên nẻu như phát hiện được trong nội dung có những nhân xét tích cực về

Trang 19

17

sản pham đó Và sẽ tuyệt vời hơn nữa nêu đổi quảng cáo khác khi sản phẩm cỏ những,

đánh giá tiêu cực

Hệ thông hỏi đáp là một lĩnh vực khác ma khai phá quan diem có thẻ chứng tỏ

sự hữu ích Ví dụ, các câu hỏi hưởng quan điểm có thể yêu câu nhiều xử lý khác nhau Lita và cộng sự [15] để nghị rằng đổi với các câu hỏi định nghĩa, ngoài việc cung cấp câu trả lời, việc cung cấp các thông tin khác như làm thế nảo để một thực thể được hiển thị sẽ rất tốt để thông báo cho người dùng,

1.5.3 Ung dụng trong kinh doanh thông minh và chính phủ thông

minh

Khai phá quan điểm rất thích hợp cho các ứng dụng thông minh Thực vay, kinh doanh thông minh lả yêu tô chỉnh đẳng sau sự quan tâm của các công ty, doanh

nghiệp đến lĩnh vực nảy [S]

Ta xem xét một ví dụ sau: Một nhà sản xuất máy vi tính lớn đang thất vọng vẻ

doanh thu thấp bất thường của mình Công ty đưa ra câu hỏi “Tại sao khách hang

không mua máy tính của chúng ta?° Nhưng thông tin cụ thể như trọng lượng, giá

thành của đối thủ là mục tiêu chính để khảo sát Ngoài ra, các đảnh giá chủ quan về thiết kế, dịch vụ khách hàng cũng cần được xem xét

Các công nghệ phân tich cảm nghĩ có khả năng rút trích những ý kiến từ các

van ban phi cau tric do con người viết ra Đỏ sẽ là những công cụ tuyệt vời dé dam nhận những tác vụ xử lý thông minh doanh nghiệp liên quan đến các trường hợp nói ở trên Sẽ rất khó đề trực tiếp khảo sát người tiêu dùng máy tính chưa hẻ tiếp xúc với công ty Thay vào đó, ta có thể sử dụng một hệ thông dỏ tìm các trang blog cá nhân, các trang hộ trợ đánh giá như www.epinions.com Sau đó, hệ thông sẽ tạo ra bản tóm

tắt những y kién phé bình của cá nhân hoặc sẽ liệt kê các điểm cỏ củng chung một quan diem Việc này giúp cho người phân tích không phải đọc quả nhiêu bải phê bình

có nội dung giống nhau Bên cạnh việc quản lý thương hiệu và quan hệ khách hàng,

các doanh nghiệp cũng muốn theo dõi các quan điểm của khách hàng, để có thẻ thực

hiện dự doán xu hướng của người dùng phục vụ cho việc bản bảng hoặc các công việc liên quan [Š]

Chinh phủ thông minh là một dạng ứng dụng cũng rất hữu ích Như ta đã biết, ý

n là thứ mà các chỉnh trị gia rất quan tâm Một só công trình tập trung vào việc tìm hiểu các cử tri đang nghĩ gì Hoặc chính phủ muốn khảo sát ý kiến của người dân vẻ

một dự luật mới [5]

Trang 20

18

1.5.4 Ứng dụng trong các lĩnh vực khác

Mỗi quan tâm đến quan diém trong khoa học máy tính cũng có liên quan rất lớn

đến các lĩnh vực khác, Như chúng ta đều biết, các ý kiến rất quan trọng trong chính trị Một vải nghiền cửu trong tam vao việc nằm bắt được suy nghĩ của những người bầu

số lượng cử trí ũng hộ hay phân đối là bao nhiêu |5

Trong chương này luận vẫn giới thiệu khói quất bài toán khai phá quan điểm,

cá khái muệm lên quan ương khái phá quan điểm, cáo khó khăn cứng như thử thách

trong khai phá quan điểm, các bài toán và ứng đụng trong khai phá quan điểm Trong

chương tiếp theo, luận văn sẽ đi sâu vào trinh bày các phương pháp trong bải toán tổng, hợp ý kiến

Trang 21

có rất nhiền nhỏm nghiên cứu khảe nhan có quan điểm khác nhan vẻ khái niệm “Tổng, hợp ý kiến", vì vậy luận văn coi rằng những nghiên cửa nhằm tạo ra một bản tổng hợp ngăn gọn, đễ hiếu cña mệt lượng lớn ý kiến, quan điểm gọi la “Tổng hop y kién” [9]

Hình thức đơn giản nhật của một bản tổng hợp ý kiến là kết quả đự đoán chiều

hướng cẩm xúc Ngoài hình thức như vậy, bình thức mới của tổng hợp ý kiến bao gồm tổng hợp cầu trúc, cưng cấp mệt phân tích được sắp xếp theo các khía cạnh/ chủ đề, rất nhiều hình thúc khác nhau của bản tổng hợp nguyên bản và trục quan héa theo thời

gian Các bình thúc tổng hợp khác nhau của tổng hợp ý kiến bổ sung cho nhau bằng cach cung cấp các mức dộ hiệu khác khau Ví dụ, dự doán chiêu hướng cắm xúc các ý kiển của một sân phẩm có thể dưa ra một quan diễm rất clnmg, của người dùng cảm nhận về sản phẩm Nếu người dùng, cần chỉ tiết hơn thì tổng hợp ý kiến dựa trên đặc

trưng hoặc tổng hợp nguyên bảu sẽ rái cần thiết [9]

2.2 Các nghiên cứu liên quan dễn tổng hợp ý kiến

Nghiễn cửu của Bìng Lầu năm 2006 [2] bao gồm các kỹ thuật khác nhau trong,

Ki phe ph quan điềm vi tg hap ¥ Kin, Toons cnn seh ay, Tin ida ghia Ks

nigm “ quan diém” va “ khai phá quan điểm” qua đó giới thiêu các khải niêm cơ bản

liên quam đến chúng Sau đỏ, ông mô tả các kỹ thuật trong khai phá quan điểm bao

gdm phân lớp quan điểm, tổng hợp ý kiến và phát hiện rác quan điểm Một phân lớn trong cuốn sách được đành để mô tả định nghĩa và kỹ thuật phân lớp quan điểm và chỉ một phân nhỏ cửa cuốn sách thảo luận về công việc sinh ra bản tông hợp dựa trên phân lớp quan diễm Hon nữa, phần lớn các công việc tổng hợp ý kiến dược thảo luận lá các

kỹ thuật đựa trên tập luật và phương pháp Heuristic, bổ qua một số phương pháp xác

suất đã được xuất bản trước đẻ

Năm 2010, Bg Liu viét một chương khác vẻ “Phân tích ý kiến chủ quan” [3] Trọng tâm của chương sách hoàn toàn về các kỹ thuật phân lớp quan điểm, không bao gồm các kỹ thuật về tông hợp ý kiến Trong luận văn này, huận vẫn lập trung vào các

kỹ thuật trong tổng hợp ý kiến vượt qua cả vấn dé phân lớp quan điểm, hay sử dựng

phân lớp ý kiến như một thành phản trong tổng hợp ý kiến

Nghiên cứu của Pang và Lee năm 2008 |5| vẻ khai phá quan diễm vả phân tích

š kiến cung cấp một cách bao quát hơn về cáo nhiềm vụ liên quan đến Lông hợp ý kiến

Trang 22

20

Nghiên cứu nảy trọng tâm vao khai phá quan điểm, rộng hon la trong tam vao tong

hợp ý kiến Trong nghiên cứu của Pang [5], các phương pháp được mô tả ở một mức

rat cao, ván đẻ phân lớp và các công việc liên quan khác với cách nhìn nhận của Kim

vả công sự [9] Tổng hợp ý kiến được phân ra là đơn văn bản, đa văn bản, phương pháp tiếp cận nguyên bản hay trực quan

Trong báo cáo của Kim vả cộng sự [9], tổng hợp ý kiến được phân chia các kỹ thuật thành ba bước riêng biệt (trích xuất đặc trưng, dự đoán cảm xúc, sinh bản tổng hợp) và cô gắng phân chia các kỹ thuật sử dụng trong mỗi bước đẻ tạo ra một cái nhìn vừa bao quát vừa chỉ tiết về những kỹ thuật này Với việc tập trung vào một phạm vi

nhỏ, Kim vả công sự [9] có thể sử dụng nhiéu phan chia phức tạp cho tong hợp y kien

Điều này cho phép người đọc so sánh giữa các phương pháp Kim vả công sự [9] cũng

cung cấp nhiều hướng đánh giá cho tổng hợp ý kiến, van đề chưa đề cập trong các

nghiên cứu khác

2.3 Phân loại tổng hợp ý kiến

Theo định nghĩa và phạm vi nghiên cửu, tông hợp y kien có thẻ phân loại dựa

trên việc yêu câu một tập các khia cạnh/đặc trưng va không yêu cầu một tập các khia

cạnh/đặc trưng Chúng ta gọi là tổng hợp dựa trên đặc trưng và tổng hợp không dựa trên đặc trưng [9] Hinh 2.1 mô tả tổng quan vẻ các bước trong tổng hợp ý kien dua

trên đặc trưng,

Identify salient topics soak cf Uae,

Sentiment Prediction battery life is great > +ve Determine polarity of text containing tong Cattery Wei eve

topics

+ Aggregate polarity ratings Sound Qualty: ÝY#ŸYW?Y

+ Present opinion summaries

Hình 2.1 Ba bước của tổng hợp ý kiển dựa trên đặc trưng

Tổng hợp ý kiến dựa trên đặc trưng chia các văn bản đầu vao thanh các đặc trưng, còn gọi là khia cạnh hay chủ đẻ con, và sinh bản tong hợp của mỗi khia cạnh

Trang 23

2

[9] V1 dụ, tổng hợp của săn phẩm "+Pad” có các đặc trưng là “tuổi pin, thiết kế, gid [Bing cách phân đoạn văn bản đầu vao thành các đơn vị nhỏ hơn, tổng hợp dua trên đặc trung có thể hiển thị chỉ tết hơn theo một cách cầu trúc Phân chia đặc trưng có thể hữu ích hơn khi quan diễm tổng thể khác biệt so với quan diém của từng khia cạnh bổi vì tổng hợp dựa lrên đặc trưng có thể k diễn quam điểm riêng Lidl cho mai dic trưng [9] Các phương pháp tiếp cận đựa trên đặc trưng rất phổ biến và được nghiên cứu rất nhiều trong những năm qua [12,13]

Tổng hợp ý kiến không dựa trên đặc trưng bao gẫm các loại tổng hợp khác mà

hh các chủ để nhỏ Tổng hợp ý kiên không dựa trên đặc trưng

n được chia theo đặc trmg trước hoặc đơn giãn đưa ra một

không chúa dữ liệu th

giả sử rằng văn bản ý

tổng hợp chung mà không xem xét đến các khía cạnh [9] Cách tiếp cận như vậy đề cập đến nhiêu khái niệm đa đạng từ tổng hợp văn bản để trục quan héa théng tin [8] 2.4 Tổng hợp ý kiến dựa trên đặc trưng

Kiểu phổ biến của tổng hợp ý kiến là tổng hợp dựa trên đặc trưng Phương pháp này liên quan đến việc tạo ra bản tổng hợp ý kiến dựa trên một tập các chủ đề (gọi là đặc trưng) Các đặc trưng này thường là các chủ đề mà được xem lả quan trong dối với văn bản ý kiến |9| Nhìn chung, tổng hợp quan điểm theo khía cạnh chia làm 3

bước riêng biệt:

e Xác định đặc trưng thuộc tính

* Dự doán cảm xúc

© Sinh ban tom tit

ước xác định đặc trưng, thuộc tính được sử dụng đẻ tìm các chủ đẻ quan trong hàng đâu trong van ban được tóm tắt Bước đự đoán cảm xúc được sử dụng để xác định định hướng tỉnh cảm (tích cực hay tiêu cực) vẻ các khía cạnh được tìm thấy trong

bước đầu tiên Cuối cùng, bước tổng hợp được sử dụng đề trình bảy các kết quả 2

bước trước đó một cách hiệu quã hơn [9]

Các phương pháp và kỹ thuật khác nhau đã được để xuất đề giải quyết những thách thức trong mỗi bước Trong các phân sau đây, luận văn sẽ mô tả kỹ thuật cốt lõi

Trang 24

Aspect Feature Wenilication | Sentancat Prediction Sumnay Generation

TS 2E NUP-based Technique, Teexienn-based Use soe) Sttistieal summary,

200, 2006) Perform POS tagging and sentiment words wid then use | Sentiment diswibution of each

+ ‘WordNet to generate more spect with classified Mining Use assvoiation nile | sentiment words, sentences Graph minjng lo Find all rules representation proposed by

[Hu and Liv 2006), [Xa etal 2006) “Mining, Uae the Gequency of | Lexieuu-baved, Use seniimeat | Text Selvction Senicnce

tems in parngraphs and acrnss | words w assign opinion scores | selection based on TF-IDE paragraphs to sentences seores of wands

‘Summary with timeline, Show opinion changes over» tinvetine

Tra] Semeteiinqwe used [Fn | Kmuwnin sdvanee, ‘Statistical summary Open

ual Liv 2004: 209045) Orientation assigned tu cobverver, Genemite

comes trom *Pros' or Com* | compuriann of several

[vera 20097 LP-Rsd IecRnlque Tearning-based technique, | Text Selection, Shiow the most

1demify head tem and cluster | Use overall rings and a ‘oseuiting phrase in each heuer itm k interesting | Naive Bayes classitice sopeet,

sentiment rating af phrases within each aspect,

‘Text selection Choise phras with highest supypert sac mpect

[Meretal 2007] Tategrated Approach Joint ionic and sentiment Text selestion Top sawed

‘modeling wsing Topic Sectimont Misture (TSM) sentence by topic modeling Model an extract multiple aubtnpics and sertiments in result,

azcollection af big articles Summary with w timeline

TPopexcu ned Etavoni

2008)

TZNuang etal 20007

NIPobaved technique, KnowltAll sysiom to cxteacr features

Other

NLP-based technique Dependency parring to Ions an! modifiors wo scorer opinion phrases

‘Statistical: Une retaxation laboling to predict sentiment

‘viestation of opinion Taint topic aed

modeling wsiter Muhi-Gram LDA (MG-LDA} Extract

ba taples

Tesivon-based Une seed sentiment words and then use WordNet to yensrate more sentiment words

Show opinion changes over 8

words foreach topic

Siutisiealsuipniary

Sentiment distribution of each vuspect class and comespondiny sentences for each aspect ind neni

Hinh 2.2 Các kỹ thuật tông hợp ý kiến dựa trên đặc trưng

Trang 25

y b9

2.4.1 Nhận diện đặc trưng

Xáo định thuộc tính/ đặc trưng của thực thế liên quan đến việc xác định chủ đề

nỗi bật trong văn bản tổng hợp Mục địch của bước nay là để tha thấy những để mục nhỏ Trong, một số trưởng hợp, các chủ đề được cho là đã biết và do do bước nảy là

không cần tuết |9|

Ví dụ: Nếu chúng ta muốn tạo ra một bán tổng hợp ÿ kiến về 'iPoxl, một số các đặc trưng phố biển là tuổi thọ pin, chất lượng âm thanh , đề sử dụng,

3.4.1.1 Kỹ thuật NLP trong việc âm kiếm đặc trưng “thuộc tính

Hầu hết các phương pháp tiếp cận trong [13, 17] cổ gắng dễ xác định các đặc

trưng trong văn bản ý kiến với sự giúp đở của kỹ thuật dựa trên NLP Gán nhãn từ loại

(POS) va phân tích cây củ pháp là diễm khởi dầu rất phố biến cho việc tìm kiểm đặc trưng

Ví dụ: Các khia cạnh / thuộc tính thường là cạm danh tử, ngay cã phương pháp

POS rất cơ bản cũng cho phớp mợi người tìm thấy các khía cạnh ứng cử viêu

Trong nghiên cửu của lu và cộng sự [14] phương pháp phản tích củ pháp đã được sử đụng để xáo định đặc trưng cho các ý kiến ngắn Trong các ý kiến ngắn, hẳu

được thể hiện trong các cựn từ ngắn gọn như “well packegod” hay

Với suy nghĩ này, người la cho rằng mỗi cụm từ được phân tích

thành một cặn thuật ngữ chính và bố ngữ, thuật ngữ chính là về một khía cạnh hoặc

tính năng, và bổ ngữ bảy tỏ một số ý kiến hướng tới khia cạnh này Các thuật ngữ chính trong văn bản sau đó được nhóm lại đề xác định k khía cạnh quan trọng nhất [9]

VD: Fast [bỗ ngữ| siipping [thuật ngữ chính]

Popescu va Ftzioni vào năm 2005 [17] đã sử đụng hệ thống KnowTtATi, một hệ

thống trích xuất thông tin độc lập miễn lĩnh vực trên nên tăng web để trích xuất các

thuộc tính rõ ràng cho các lớp sản phẩm được đưa ra từ các đữ liệu đã phân tích cú

pháp Công việc nảy sử dụng một cách tiếp cận phúc tạp hơn dễ trịch xuất đặc trưng, sơ với các cách làm khác Đâu tiên, hệ thông đệ quy xác dịnh tất cả các thành phần (ví dụ như nắp máy quét) và các thuộc tính của lớp sân phẩm nhất định (ví đụ như kích thước mây quét) cho đến khi các ứng cử viên không được tìm thấy Sau đó, hệ thông tìm các

khái niệm liên quan và trích xuất các bộ phận và thuộc tt cũa chứng, Để tìm các

thành phần và thuộc tính, um đánh lừ được trích xuất từ đánh giá, và

i Sau đó hệ thống đánh giá các thuộc ằng chỉ số PMI tính toán giữa cụm từ:

ma dap ứng một độ hỗ trợ tối thiểu được giữ Ì

tính của KnowItAll, đánh gia mỗi cụm danh từ

yà phân biệt các liên kết với lớp san phẩm Các bộ phận sau dó được phân biệt với các thuộc tính bằng cảch sử dụng tử diễn WordNet [ở]

Trang 26

24

Ví dụ: Máy quét, máy quét có, máy quét đi kèm với, cho các lớp quét

Các phương pháp tiếp cận NLP như gán nhãn POS và phân tích cú pháp khá hiệu quả cho việc trích trọn thuộc tính Đây là các kỹ thuật dược nghiên cứu rất tốt, và

cô dộ chính xác cao Một vẫn dễ tiểm năng là tỉnh thực tiễn cũa các cách tiếp cận Tóc

dộ của phân tích củ pháp hoặc gắn thể vẫn chưa dủ "hiệu quả" cho các xử lý quy mô

lớn Ngoài ra, kỹ thuật NI,P ở mức nông như vậy có thể không đã phát hiện tẤt cả các

tính răng Điều mày là bởi vi các tính năng không phải lúc nào cũng là danh từ, và thường không được quy định rõ ràng trong văn bản Ví dụ câu “tnáp nghe nhạc mp3

hở”, ngâm đề cập đến tính năng “se”, nhưng không có đề cập đến từ “size” trong,

câu Diễu này có thể đòi hỏi một số kiến thức hiển biết về trị thức miễn ứng đựng hoặc

sự giứp đỡ từ một số từ điển bản thê học [9]

341.2 Các kĩ thuật khai phá đễ tìm kim đặc trưng/ thuộc tính:

Một phương pháp thường được sứ dụng để nhận diện đặc trung lả tiếp cận khai phá [1,13,17] Kĩ thuật khai phá tập mục phổ biển có thể bú đắp những điểm yếu của

kỹ thuật NLP đã nói ở phần trên Cách tiếp cận nảy không hạn chế việc chí một số từ

và cụm từ có thể trở thánh thuộc tính ứng cử Thay vảo đó, các thông tia khác nÌưự

thông tin hé ire duge sit dung dé xác định một từ hoặc cụm từ cụ thể có là đặc trưng, hay không Một số đặc trưng không có triển vọng thậm chỉ côn bị cắt tĩa với việc sử

dụng các thông tin đự phòng và luật đư thừa Phương pháp phát hiện các đặc trưng này

cho thay hiệu xuất hợp ly đặc biệt là với đánh giá sản phẩm [9]

Hu va Lin [7] sử đụng phương pháp khai phá hiật kết hợp để thực hiện công, việc trích chọn thuộc tính Phương pháp của họ đựa trên ý tưởng rắng mỗi phân khúc câu có chứa nhiều nhất là một đặc trưng độc lập Đần tiên, mỗi cân nhận xét được chia

thành một tập hợp các phân đoạn câu trên cơ sở tách ra bằng °.”, “,”, “và”, “nhưng”

Sau đỏ tất cá cáo từ chỉ đặc trưng được gản nhấn thủ công, Với tập đữ liệu đã được

phân đoạn và gản nhãn, khai phá luật kết hợp được thực hiện học các luật ALA; A„

>> [thuộc tỉnh] dễ dự doán các thuộc tính, dựa trên các từ còn lại trong phan doan edu

và thẻ POS của chúng Vi khai phá luật kết hợp không tính toán dến thử bự của Ái, Aas A„ trong câu, nhiên luật có thế được cắt tỉa đựa trên sự không thông nhất giữa các mỏ hình với ngữ pháp tiếng Anh Đặc trưng trên một tập đữ liện đầu vào mới được sau đó được chiết xuất bằng cách sử đụng những luật đã được đào tạo Trong trường, hợp hai luật dẫn đến hai thuộc tỉnh khác nhau cho các phân đoạn cing mét câu, các

thuộc tính thường xuyên xảy ra hơn được chọn

Zhuang và cộng sự [21] sử đựng mệt cách tiếp cận khae dé trích xuất đặc trưng, trong miễn ÿ kiến phim ảnh Vì nhiều đặc trưng của họ xung quanh điển viên của một

bộ phữa, họ xây dựng một danh sách các đặc trung bảng cách kết hợp tắt cá các điển

Trang 27

van và tân số bên trong các đoạn

Một vẫn dẻ của cách tiếp cận khai phá là nó có thể làm việc khác nhau dối với

các miễn ứng dụng khác nhau Đôi khi trí thức kinh nghiệm được sử dụng để tìm kiểm

các tham số

đặc trưng cần phải định ng ác miền ứng dụng khác Vì

giống như ngưỡng hỗ trợ cần phải được phủ họp cho các ứng đụng khác vì một quá trình thông nhật và ồn định không thé dim bao với một cải đặt toàn cục [9]

2.4.2 Dự đoán chiều hướng quan điểm

Bước phát luện thuộc tính thường dược theo sau là bude dy doan cam xúc trên

cáo văn bản có chứa thuộc lính được phái liệu trước đó Bản thân dự đoán cầm xúc la Tnột lĩnh vực nggiển cứu được hieu sự quan tâm |9]

những người khác có thể thấy rằng nó không kéo đản làu Như vậy, kết quả

thấy rằng tuổi tho pin cia iPod 1a t61, trong khi

Nghiên cứu cửa Trụ và

dung phương pháp học máy đề tống kết quan điểm dựa trên khia cạnh Họ để xuất hai

ông sự 2009 [14] là một trong một những nghiên cứu sử

phương pháp đề phân loại mỗi cụm từ nhóm vào È đặc trưng quan trọng trong một đánh giá r(f) Dâu tiên họ cho rằng đánh giả của mdi đặc trưng phủ hợp với xếp hạng,

\g thể của nó Nói cách khác, mỗi cụm từ được để cập trong một bình luận chia sé những dành giả tương tự như dánh giá tổng thê các ý kiến Với giả định này, xếp hạng khía cạnh có thể được tính toán bởi xếp hang tổng hợp của tất cả các cụm từ về mỗi

khía cạnh

'Trong phương pháp thử hai, thay vì mủ quảng gân củng một tý lệ cho mỗi cụm

từ như đánh giá tổng thế của bình luận, họ học phân loại mức độ sử dụng thông tín

Trang 28

26

toàn cục về xếp hạng tổng thể của tất cả các ý kiến Sau đỏ, mỗi cụm từ được phân loại

theo bộ phân lớp đã được đào tạo LIọ chú yêu phân loại từng cựm bằng cách chọn tí lệ

lớp có xác suất cao nhất sinh các bổ ngữ của các cụm từ, về cơ bản là một phân loại Naive Baycs với việc đồng nhất trước khi mỗi lớp dược dánh giá Việc xếp hạng sau

đó dược tang hợp bằng cách tính tỉ lệ trung bình của mỗi cụm từ trơng ruột khia cạnh

Thương pháp đụ đoán này được đưa ra làm việc tết hơn nhiễu hơn so với chỉ sử đụng,

xếp hạng tổng thể

Việc chuẩn bị một lượng đữ liệu học lớn là một thách thức trong việc sử dụng

phương pháp học máy, nó thậm chí còn khó khăn hơn việc tìm đít liệu cho m

vực chung, và mô hinh học trong môi miễn lính vực có thế không lam việc tốt trong miễn lĩnh vực khác [9]

2423 Dự bảo câm xúc dựa trên phương pháp từ điễn/ luật kết hợp

Ky thuật này rất phố biển trong ngữ cảnh tống hợp ý kiến [L0,L3,21] Kỹ thuật

này thường đựa vào một từ điển cảm xúc Từ điển thưởng chứa một danh sách cáo từ tích oực vả tiêu cục được sử đụng để so sánh với các từ trang văn bản ý kiến Ví dụ,

néu mét câu ÿ kiển co nhiều tr nim trong từ điển tích cực, chúng ta cỏ thể phân loại

nó như có một định hướng tích cực Những danh sách tử này thường dược sứ dụng kết hợp với một bộ quy tắc hoặc có thể được kết hợp với các kết quá của phân tích cú pháp hoặc gắn thẻ POS

Để xác định các ý kiến về các khia cạnh vả chiểu hưởng quan điểm Hu và Liu L7I để xuất một phương pháp đơn giãn nhưng hiệu (quả đựa lrên từ điển liên quan Họ

định

bắt đầu với một bộ khoảng 30 lính từ hạt giống cho mỗi chiêu hướng được

trước (tích cực và tiêu cực) Sau đó, họ sử dụng các mối quan hệ Lương đồng và trái

nghĩa được định nghĩa trong từ điển liên quan cho việc phân lớp chiều hướng tích cực

hay tiêu cực đến một tập hợp lớn của các tính từ Vì vậy, chiều hướng của một ý kiến

vẻ một khia cạnh đã được quyết định bởi chiều hưởng của tính từ xung quanh nó

Zhuang và cệng sự [21] sử đụng quan hệ phụ thuộc dé xác định các quan điểm từng với các từ đặc trưng Dễ xác định chiều hướng quan điểm, họ sử dụng một chiến

lược tương tự của IIu vả Liu [R] Lọ định ra LŨO từ quan điểm tích cục và tiêu cực từ

tập đữ liệu đã gán nhãn sau đó sứ dụng WordNet để gắn chiếu hưởng quan điểm cho các từ khác Hơn nữa, chiều hướng quan điểm của một từ bị dão ngược nếu có mỗi

quan hé phi dink nhw 1a “nor” hay “anti” trong dé

Phương pháp từ diễn làm việc tốt với nhiều miễn ứng dụng như đánh giả sẵn phẩm khi mọi người thường diễn đạt ý kiến của họ tường mình hơn Tuy nhiền trong, nhiêu miễn ứng đụng khó bơn như phim ảnh, mọi người thường noi rat ham ý thì phương pháp này đạt liệu suất thấp vì ngữ cảnh thường bị bố qua Hơn nữa, hiệu suất

của phương pháp này phụ thuộc vào chất lượng của tr điển dữ Hiệu đã đùng Để đại

Trang 29

37

hiệu suất cao, các từ điện khác nhau được định nghĩa cho các miễn ứng dụng khác

nhau [9]

2.4.3 Sinh bản tổng hợp

Sử dụng kết quả của phát hiện thuộc tính/ khía cạnh và dự đoán cảm xúc, bước

sau đỏ rất quan trọng đề tạo ra vả trình bảy tổng hợp ý kiến cuối củng trong một định dạng hiệu quả vả dễ hiểu Điều nảy thường bao gồm tập hợp các kết quả của hai bước đầu tiên vả tạo ra một bản tông hợp xúc tích tóm tắt

2.4.3.1 Tổng hợp thống kê

Trong khi có rất nhiều định dạng khác nhau của bản tổng hợp, nhiều nhất thường được sử dụng định dạng là một bản tổng hợp hiển thị số liệu thống kê được giới thiệu bởi Hu và Liu [8], Zhuang và cộng sự [21]

Hình 2.3 Vi du vé tong hop ý kiến dựa trên thông kê

Tổng hợp thông kê trực tiếp sử dụng kết quả từ hai bước trước đó - một danh

sách các khía cạnh và kết quả dự đoán tình cảm Qua đó hiển thị số các ý kiến tích cực

vả tiểu cực đối với mỗi khía cạnh Hình 2.3 mô tả một phương pháp tổng hợp thống kê được Liu và công sự sử dụng [12] Tổng hợp thông kê được áp dụng rộng rãi ngay cả trong thể giới thương mại Hình 2.4 mô tả một ví dụ vẻ cấu trúc tổng hợp trên trang tìm kiém Bing Trong việc tổng hợp ý kiến về đổi tượng máy ảnh Sony Camera DVD

650, các đặc trưng được liệt kê và tính toán số các ý kiến nhận xét vẻ các đặc trưng đó.

Trang 30

SHARE [I] Facebook QJ Twitter [Messenger EE] Email

Product Summary Where to Buy User Reviews Expert Reviews {Structured Summary

See al

USER REVIEWS yall | Nghi tưng | ores tos

Excellent camcorder,

‘Sony DOR-DVD850 DVD, Flash Media Camcorder — | have onmed this camera for

several years and am very pleased with it overall The zoom feature contict is right

“where your finger would be resting, making it easy to access and use, As you move

past optical

#*#*### mogneto214 -5/28/2010

wow viewpoints.com

Nice little purchase

| purchased this camcorder s0 that | could create videos for my websites | was

disappointed in only one thing, and that is that I thought | was getting the model that

also had baal in memory Despite that, however, | am very happy with this ite,

##'## SanDoo -4/16/2010

#4|eurx vilmaft,comi

Hình 2.4 Cầu trúc tổng hợp ý kiến trên trang tìm kiém Bing

Theo một cách khác, các ý kiển được phân lớp dựa trên các đặc trưng vả chiêu hưởng quan điểm Hình 2.5 là một ví dụ cho cách tông hợp nảy

a Feature: picture ——— =

F natin, ¿a2 ————— Support

‘Overall this is a good camera with a really good

3 The pictures are absolutely amazing the camera captures the minutest of details

takes incredible pictures

a Afternearly Boo pictures | have found that this camera

a The pictures come out hazy if your hands shake even fora moment during the entire process of taking a

it room during day time, pictures praduced by

Trang 31

2.4.3.2 Lựa chọn văn bản

Trong khi tông hợp thong kê giúp người dùng hiểu tổng thẻ ý kiến của mọi

người, đôi khi đọc văn bản thực tế là cân thiết đẻ hiểu chỉ tiết cụ thể hơn

Do khối lượng lớn các ỷ kiến về một chủ đẻ, hiển thị một danh sách đây đủ của câu không phải là hữu ích Đề giải quyết vẫn đề này, nhiều nghiên cứu gan day [10,

17,19,21] có gắng hiển thị phần nhỏ hơn của văn bản như là bản tóm tắt Họ sử dụng

mức độ chí tiết khác nhau của bản tổng hợp bao gồm cả cấp độ từ, cụm từ vả câu

Với các phương pháp mô hình chủ đề, một bản tóm tắt ở mức độ các từ thường được cung cấp cho môi chủ đẻ bởi vì danh sách các từ vả xác suất của chúng là một

đầu ra ngầu nhiên [19] Một bản tóm tắt mức câu có thể cung cấp một mức độ sâu hơn

về sự hiểu biết một chủ đẻ Bằng cách lựa chọn câu được đứng đầu mỗi thẻ loại, ta có

thể để hiển thị các câu đại diện tiêu biêu nhất Ku vả công sự 2006 [10] xếp hạng câu

dựa trên chỉ số TE.IDF của các tử và chọn các câu liên quan đẻ hiền thị bản tổng hợp

2.4.3.3 Xếp hạng tổng hợp

Lu va céng sự [14] đề xuất một phương pháp tóm tắt tiên tiên xếp hạng tổng

hợp trong đỏ kết hợp tóm tắt thông kê và lựa chọn văn bản Dựa trên việc tìm kiếm các

khía cạnh bằng cách phân cụm vả sử dụng mô hình chủ đẻ đưa ra kết quả dự đoán cảm

xúc trung bình của các cụm từ cho từng khía cạnh như là đánh giá cảm xúc cuối cùng cho từng khía cạnh đó, Hình 2.6 mô tả cho cách tổng hợp nảy

Representative Aspect Aspect Rating Biase

“Support Information

Hình 2.6 Phương pháp sinh bản tổng hợp cấu trúc của Lu và cộng sự

2.4.3.4 Tổng hợp với thời gian biểu

Xu và công sự [10] cho thầy xu hướng ý kiến theo một dòng thời gian Tổng hợp ý kiến tập trung vào việc tim kiếm các số liệu thống kê dữ liệu hiện tại Trong

Trang 32

30

thực tế, ý kiến thay đổi theo thời gian Tổng hợp ÿ kiên với một thời gian giúp chúng

ta thấy xu hướng ý kiến về một mục tiêu dễ dàng, và nó cũng cỏ thể cho chúng ta biết

ý tưởng đề phân tích Đề tìm ra những thay đổi ý kiến của nhân dân, chúng ta có thẻ phân tích sự kiện xảy ra với sự thay đổi ý kiến quyết liệt

Hình 2.7 Tổng hợp ý kiến theo thời gian

Hình 2.7 cho thấy thay đổi ý kiến đổi với bổn ứng cử viên bầu cử, vả chúng ta

có thê đề đảng xác định rằng cỏ một sự thay đôi quan điểm mạnh mẽ vảo ngảy bầu cử

2.5 Tổng hợp ý kiến không dựa trên đặc trưng

Tổng hợp quan điểm không dựa trên khia cạnh bao gồm tất cả các loại tổng hợp

ý kiến khác, chúng không phân chia các văn bản đầu vào thảnh các khía cạnh và chủ

đề nhỏ Phương pháp nảy giả định các văn bản ý kiên đã được phân chia theo các khia cạnh hoặc đơn giản chỉ lả cung cấp một bản tổng quát mả không cần xem xét đến các

khía cạnh [9]

2.5.1 Tổng hợp cơ bản

Sử dụng kết quả dự đoán từ phân loại cảm xúc, tổng hợp quan điểm cơ bản có thể được tạo ra Phân loại tình cảm quyết định chiều hướng cảm xúc của đầu vảo văn bản trên một đơn vị phân loại (câu, tải liệu, .) Bằng cách đêm và báo cáo số ý kiến tích cực và ý kiến tiêu cực, chúng ta có thể đễ dàng tạo ra một bản tổng hợp ý kiến thông kê đơn giản

Bản tóm tắt này thẻ hiện sự phân bố ỷ kiến tổng thể của dữ liệu đầu vào mả không có bước xác định khia cạnh Tuy nhiên, loại hình nảy của tổng chỉ có thể hiển thị kết quả phân tich tâm lỷ tại một mức đô rât thỏ Trong khi định dạng được sử dụng

Trang 33

31

trong phân loại ý kiến đơn giản đã được ap dụng rộng rãi, như một ban tom tat co the không đủ để giúp mọi người hiểu các chỉ tiết cụ thẻ trong ý kiến Điều nảy thúc đây các nghiên cửu tông hợp quan điểm đựa trên khia cạnh

2.5.2 Tổng hợp văn bản

2.5.2.1 Hội nhập quan điểm

Lu và Zhai [L4] sử dụng chiến lược khác nhau để xử lý văn bản tùy thuộc vảo các loại nguôn khác nhau Hình 2.8 mô tả một ví dụ về phương pháp tổng hợp này

| coe Raw review sentences

Hình 2.8 ĩ dụ về hội nhập quan điểm

Họ phân chia văn bản ỷ kiến thảnh hai loại, ý kiến chuyên gia và dùng thử bình thường, Ý kiến chuyên gia lả bài bảo mả thường là cũng cỏ cấu trúc và đễ dàng đề tìm thấy tính năng Ví đụ, chuyên gia bình luận CNET hay các bải viết trên Wikipedia lả những bải viết ý kiến chuyên gia Mặc dủ ý kiến chuyên gia la kha đây đủ nhưng,

không được cập nhật thường xuyên, do đó chủng thường không phải là những nhận xét mới Các ý kiến thông thường là các bài viết không có câu trúc khác Hầu hết các bài viết trên blog cá nhân và đánh giá của người dùng được coi là ý kiến bình thường Họ

có thể có thông tin không quan trọng, nhưng họ có xu hướng phải được cập nhật

thường xuyên hơn, do đó, chúng phản anh tin tite gan day rat tot

Hội nhập quan điểm là để kết hợp hai nguồn ÿ kiến và cho ra một bản tong hop

hoàn thiện Đâu tiên, họ trích xuất thông tin cầu trúc (dữ liệu đặc trưng) từ ý kiến của

chuyên gia dé phân cụm các tải liệu chung Bằng cách sử dụng một mô hình chủ đẻ

bán giám sát sử dụng kỹ thuật PLSA, họ tận dụng lợi thế của hai nguồn dữ liệu khác nhau Các đặc trưng trích xuất từ ý kiến chuyên gia được dủng như tri thức tiên

Trang 34

32

nghiệm cho bước thứ hai là phân tích các quan điểm thông thường, Ý kiến tương tự được tích hợp vào ý kiến chuyên gia, vả thông tin về mỗi đặc trung không cỏ trong ý kiến chuyên gia được thêm vào bản tổng hợp như là cóc ý kiến bỗ sung Thêm váo đó,

các thông lin từ các ý kiến thông thường về các đặc trưng được thêm vào trêu các đặc trưng mười thêm Bởi vì có L

m thêm bắt kỳ loại ý kiến chuyển gìa nào, nghiền cứu

này có thế áp dung cho bat kỳ lĩnh vực nào [9]

Phương pháp đã dễ xuất sử dụng một kiểu ý kiến chuyên gia làm đữ liệu dau

vào Tuy nhiên, có thể có mâu thuần giữa các ý kiên chuyên gia với các cất tị trúc đặc

tưng khác nhau Việc làm sạch dữ liệu và phương pháp liên kết có thế hữu ich cho

việc phân tích và kết hợp các cấu trúc của các nguồn ý kiến chuyên gia khác nhau Vì

vậy, chủng ta có thể có đanh sách đặc trung hoàn thiện hơn

2.5.2.2 Tổng hợp tương phân

Các phueng pháp tắng hợp ý kiến hiện tại thường sinh ra hai tập câu: Tích cực

và tiêu cực Các phương pháp đựa trên đặc trưng thường chia cáo câu dựa trên cáo đặo

trưng con Tuy nhiên, người dừng vẫn cân chia theo từng cản đề hiểu ý kiên một cách

chỉ tiết hơn Dặc biệt, có thể có các câu có chiêu hưởng quan điểm lấn lộn rất khó để

phan lap 16 rang

Ví dụ: Cho hai câu “Tuổi của pin thí đái trong khi chứng tỏi ít khi sử dụng nút

bắm” và “tuổi của pim thì ngắn trong khi chứng tôi sử dụng mút bắm rất nhiều” sẽ được

phân lớp tích cực và tiêu cực riêng, tuy nhiền họ dang nói củng một sự việc

im và Zhai [8] đề xuất một phương pháp cho phép hiện thị ý kiến tương phản

(COS) rat higu quả Tổng hợp tương phản tiếp tục tổng hợp đầu ra của bản tong hop di

tên tại Đưa các câu tích cực và tiêu cực lâm đầu vào, phương, pháp này sinh ra cặp câu

tương phản Để có một tổng hợp tương phản, các cắp càu phải biểu điển các câu dâu

vào tượng phản tắt để cho thấy hiệu quả hơn Họ lập hợp các vấn để thành một nên

ting ti uu va dé xuất hai phương pháp xấp xi để biểu điễn cặp câu sơ sánh, Phương

pháp thử nhất phân cụm mỗi cân tích cực và tiếu cực thành & cum và tìm ra các cắp

tương phản Phương pháp này tìm ra cặp tương phản trước tiên và lựa chọn cặp đại

diện trong số đó Họ chủ yêu sử dựng các hàm tương đồng từ và cũng thực nghiệm với phương pháp tương dồng ngữ nghĩa giữa các tử

Nghiên cứu này để xuất vấn để tổng hợp mới, tống hợp ý kiến tương phan Bằng việc tổng hợp các câu đã phản lớp, nó giám được khối lượng đừ liệu má nguời dùng nên đọc Thêm vào dỏ, bằng cách thể hiện các cặp tương phản, chúng ta sẽ nam dược các diém quan trọng và so sảnh hiệu quả hơn Tuy nhiên, các kỹ thuật sơ bản sử

Trang 35

tà a

có thể chọn các từ quan điểm cần thận hơn lả chỉ chọn các tỉnh từ và các từ phủ định cho độ đo tương đồng,

2.5.2.3 Tổng hợp văn bản trừu tượng

Tiỡi vì khó khăn trong việc sinh ra văn bản tổng hợp, tổng hợp trừu tượng ít phổ

biển trong tổng hợp văn bản Phần lớn các kỹ thuật thường sử dụng trích xuất từ khoa/cum từ dơn giản hoặc lựa chọn trích xuất câu

Không giống các nghiên cửu về tổng hợp ý kiến khác, Ganesan và cộng sự [6]

đẻ xuất một phương, pháp tông hợp ý kiến trừu tượng dựa trên phương pháp đề thị Do bản chất của ý kiển (dư thừa và phân tản), phương, pháp tương phản có thể không bao quát hết các ý kiến chính nếu chọn sai lập hợp câu Điều mày trổ nên dặc biệt quan

trọng khi kích uước của bản tôi tắt dược giới lum, chỉ một lượng nhô các câu dược

chọn Trong trường hợp này, rất khó để thụ được các câu mà tổng hợp tái cã các ý kiên Ngoài ra, phương pháp tương phản có xu hướng kha đài và có thể không phủ hợp

với một tập nhỏ

Trong nghiên cứu của Ganesan [6], bước đầu tiên là sinh ra một đổ thị tử trong văn bản của đứ liệu đầu vào, mỗi nút biểu điễn một từ, một cạnh biển điễn kết nội giữa hai từ Sử đụng ba thuộc tính rang buộc của cấu trúc đữ liệu đồ thị (rang buộc đư thửa, các cầu trủc xếp chẳng, khoảng cách khe), các thành phẩn trong đề thị má thục thị như các bản tổng hợp đại điện được tinh điểm và đưa vào danh sách Bản đại điện đứng dầu sau dỏ dược dụng đẻ sinh ra bản tổng hợp cuối củng,

Người ta thấy răng với cách tiếp cận này có thể tạo ra một bản tổng hợp ý kiến

xúc tích và để dọc, không dư thủa dữ liệu Vì phương pháp này độc lập với miễn ứng,

dụng, dựa trên củ pháp, và không cần tập ngữ liệu học nên phương, pháp này rất thực

tế và bao quát Tuy nhiên, do sự phụ thuộc vào thứ tự các từ trong văn bản, sự tương,

đồng ngữ nghĩa giữa các câu lá khó để cập được Ví đụ: “very gooá ballery Tife” va

“fantastic battery Hi” có thể coi là bai câu riêng biệt với nghĩa khác nhau Nâng cao

hơn nữa, việc hiển ngôn ngĩ tr nhiên ở một mức sâu hơn là rất cân thiết

Kỹ thuật này hoán toàn phụ thuộc vào EuroWordNet, vì vậy hiệu suất của hệ

thống hoàn toàn phụ thuộc vào hiệu suất của WordNet, Bởi vì WordNet không chửa tắt cả các tử và có thể có lỗi, kết nổi từ bằng các thông tin trên web có thể là mốt giải

pháp khả thị

Trang 36

2.5.3 Mô hình hóa

Trong khi phân lớn các công trình đã giới thiệu trước đây thể hiện tổng hợp như

một bảng tổng hợp thống, kê với các đoạn văn bản đại diện hay các cầu, cũng có những, nghiên cứu khác tìm cach hiển thị kết quá theo một cách khác để trực quan với người

dọc hơn

Chen và cộng sự [9] biểu diễn quan điểm trong một chủ đề với các cầu trúc đỗ thị khác nhau Họ phân căm với thông trì phân cực, phôi hợp từ, biểu điển ý kiến dựa

trên cây quyết dink

Mishne và cộng sự xây dựng MoodViews ]16| là một công cụ trực quan hóa cho phân tích cảm xúc trọng blog, Có ba ứng dụng nhé, Moodgrapher, Moodteller va

Moodsignals Moodgrapher biểu điền tổng hop mite dé tim trang dựa trên các thê tâm

trạng theo lừng người Moodleller là rnội công cụ lương tự sử dụng xử lý ngôn ngữ tự

nhiên để tìm kiếm tâm trạng MoodSignal tim kiếm lý do của một sự kiện đặc biệt mà biểu điễn như lä một đầu trong đỏ thị tâm trạng

m Vĩ

dụ, người ding có thể nói cho đà những ý kiến tích cực nhiều hơn những ý kiến tiêu cực hay không Trực quan hỏa không chỉ hữu ich cho người đừng chung, người muôn hiển được quan điểm mà còn cho các nhà nghiên cứu, người cẩn có bản tổng hợp kết

Mội loại các khía cạnh phân tích có thế giúp hiểu được phân phôi của ý

quả trực quan hơn Vị dụ, biểu dễ phân cực của Chen và cộng sự [9] biêu diễn một sự thay dỗi lớn trong các quan điểm tiểu cực Bằng cách phan tích hiện tượng, các nhá

nghiên cửu có thể tim ra rằng có nhiêu giải thích cụ thẻ hơn cho các bải nhận xét trong,

cáo quan điểm tiêu cực, kết quả là hiệu suất phân lớp có thể khác nhau giữa ý kiến tích

Ví dự Hình 2.9 có ba câu "Tom thích tảo”, “Jane ghét tao”, “Lom yéu Jane”

Đôi với câu dầu tiên “Tom” là một nguồn, “táo” là mội mục tiêu, và “like” cho thấy ý kiến của “Tom” với “tán”

Trang 37

để là tìm kiểm tham chiều đúng, đỏ là giải quyết đồng tham chiêu được nghiên cứu ở bước đầu tiên Stoyanov và Caride [18] để xuất kỹ thuật đồng tham chiếu đẻ kết nổi

các nguồn củng đề cập tới một thực thẻ Họ sử dụng các luật sở hữu cho tập dữ liệu ý

kiến và kỹ thuật đồng tham chiếu các cụm danh từ chung đẻ nhận diện chủ đẻ,

Tổng hợp thực thẻ được đẻ xuất nhưng chỉ có giải pháp đồng tham chiêu được

nghiên cứu nhiều Để cỏ bản tông hợp hoàn chỉnh, cản phải có các kỹ thuật khác cho các bước tiếp theo như là xác định quan điềm, xác định chiêu hướng vả xép hang quan điểm

2.6 Tóm tắt Chương hai

Trong chương nảy, luận văn đã giới thiệu các phương pháp tổng hợp ý kiến của các tác giả đã đẻ xuất trong thời gian gan đây Trong chương tiếp theo, luận văn đi vào giới thiêu bài toán, đưa ra mô hình đẻ xuất cho việc Tổng hợp ý kiến trong hội nghĩ.

Trang 38

Hình 3.1 Tiến trình tông hợp ý kiến trong hội nghị

Luận văn này đề xuất bài toản tổng hợp ý kiến góp y trong hội nghị qua việc phân tich một tình huồng cụ thẻ lả các hôi nghỉ của Ban chap Hanh Trung ương Đảng Trong các hội quy mô lớn có các chủ đề được đưa ra đề bản luận Mỗi chủ đẻ lớn sẽ cỏ một loạt các tiêu chỉ cho trước làm căn cứ đề các đại biêu thảo luận va đưa ra ý kiến Một hội nghị sẽ có rất nhiều các đại biều tham gia họp vỉ vậy sẽ được chia thành nhiều nhóm thảo luân riêng biệt, mỗi nhóm sẽ có một thư ký co nhiệm vụ ghi lại ý kiên thảo

luận của các đại biểu trong nhóm Tập hợp các thư ký từ các nhỏm được gọi là ban thư

ký Ban thư ky có nhiệm vụ tổng hợp các ý kiến từ các nhóm để đưa ra bản tổng hợp cuối cùng của toàn hội nghị Vì số lượng các đại biểu tham gia hội nghị là rất lớn nên rất khó khăn cho ban thư ký tổng hợp ý kiến về các chủ để dựa trên bộ tiêu chỉ cho

trước của từng chủ đề Tiền trình tổng hợp ý kiến của ban thư ký được mô tả như hình

31

Trang 39

37

Vi vay, luân văn muôn xây dựng một hệ thông tu dong tong hop ỷ kiến trong

hội nghị với số lượng lớn các đại biểu tham gia thảo luận Hệ thống nảy sẽ giúp cho ban thư ký thu thập, tự động tổng hop y kien va tao ra một ban tong hợp thô theo các tiêu chỉ Bản tổng hợp thô này sẽ được ban thư ký tiếp tục duyệt lại đề đưa ra một bản tổng hợp ý kiến cuối củng,

3.2 Chức năng mong muốn của hệ thống

Hình 3.2 Chức năng của hệ thông tông hợp ý kiến

Quá trình tông hợp ý kiến có sự hỗ trợ của Hệ thống tổng hợp ý kiến được mô

tả như hình 3.2 Hệ thông tự đông tổng hợp ý kiến trong hội nghị sau khi xây dựng sẽ

hô trợ một số công việc chính là thu thập ý kiên, tông hợp ý kiên và gợi ý cho ban thư

3.2.1 Thu thập ý kiến

Thay vi phải ghi chép lại từng ý kiến của các đại biêu bằng tay, sau đỏ các thư

ký lại nhập các ý kiến một cách thủ công thi hé thong sẽ hỗ trợ ban thư ký làm giảm thời gian, công sức trong nhiệm vụ nảy Hệ thống sẽ cho phép các thư ký nhập ý kiến

theo một trong hai cách: Nhập riêng lẻ từng ý kiến của các đại biểu hoặc nhập một bản

bao gồm tắt cả các ý kiến Form nhập ÿ kiến được mô tã như Hình 3.3

Trang 40

Tiêu đề: Sửa đổi điều 1 rong chương

Nội dung: Tôixín gốp đều 1 như sau |

es

Hình 3.3 Mô tả form nhập ý kiển

Trong trường hợp nhập riêng lẻ từng ý kiến, tên đại biểu vả chủ đề góp ÿ cỏ thẻ được lựa chọn từ danh sách, tiêu đẻ có thể có hoặc không Trong trường hợp nhập

nhiều ý kiến, nội dung của môi ý kiến nằm trên một dỏng, các trường dữ liệu khác cỏ

thể chỉ định hoặc không

3.2.2 Tổng hợp ý kiến

Nhiêm vụ chính của hệ thông là việc hỗ trợ tổng hợp ý kiến Với số lượng đại

biểu tham gia hội nghị là tương đối lớn (hảng trăm người) thì việc tổng hợp ý kiến một cach thú công là một nhiệm vụ khó khăn đổi với ban thư ký Chỉnh vì vậy, hệ thông

xây dựng sẽ hỗ trợ ban thư ký đưa ra một bản tổng hợp các ý kiển đưới dạng “thô”

Bản tổng hợp này sẽ liệt kê các ý kiến dựa trên các chủ đẻ, tiêu chí cho trước dé ban

thư ký tiếp tục hoàn thiện và đưa ra bản tông hợp cuối củng Bản tổng hợp “thô” được

mô tả như Hình 3.4

Ngày đăng: 21/05/2025, 18:49

HÌNH ẢNH LIÊN QUAN

Hình  2.1.  Ba  bước  của  tổng  hợp  ý  kiển  dựa  trên  đặc  trưng - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 2.1. Ba bước của tổng hợp ý kiển dựa trên đặc trưng (Trang 22)
Hình  2.3.  Vi  du  vé  tong  hop  ý  kiến  dựa  trên  thông  kê - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 2.3. Vi du vé tong hop ý kiến dựa trên thông kê (Trang 29)
Hình  2.6.  Phương  pháp  sinh  bản  tổng  hợp  cấu  trúc  của  Lu  và  cộng  sự - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 2.6. Phương pháp sinh bản tổng hợp cấu trúc của Lu và cộng sự (Trang 31)
Hình  2.7.  Tổng  hợp  ý  kiến  theo  thời  gian - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 2.7. Tổng hợp ý kiến theo thời gian (Trang 32)
Hình  2.9.  Vĩ  dụ  tổng  hợp  dựa  trên  thực  thể - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 2.9. Vĩ dụ tổng hợp dựa trên thực thể (Trang 37)
Hình  3.1.  Tiến  trình  tông  hợp  ý  kiến  trong  hội  nghị - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 3.1. Tiến trình tông hợp ý kiến trong hội nghị (Trang 38)
Hình  3.2.  Chức  năng  của  hệ  thông  tông  hợp  ý  kiến - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 3.2. Chức năng của hệ thông tông hợp ý kiến (Trang 39)
Hình  3.3.  Mô  tả form  nhập  ý  kiển - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 3.3. Mô tả form nhập ý kiển (Trang 40)
Hình  3.6.  Mô  hình  đề  xuất  cho  hệ  thông  hỗ  trợ  tổng  hợp  ý  kiến - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 3.6. Mô hình đề xuất cho hệ thông hỗ trợ tổng hợp ý kiến (Trang 43)
Hình  4.2.  Biêu  đô  đánh  giá  phân  lớp  NaiveBayes tự  xây  dựng - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 4.2. Biêu đô đánh giá phân lớp NaiveBayes tự xây dựng (Trang 62)
Hình  4.3.  Biêu  đồ  thể  hiện  kết  quả  của  tập  dữ  liệu  thử  nhất - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 4.3. Biêu đồ thể hiện kết quả của tập dữ liệu thử nhất (Trang 63)
Hình  4.4.  Biểu  đồ  thể  hiện  kết  quả  của  tập  dữ  liệu  thứ  hai - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 4.4. Biểu đồ thể hiện kết quả của tập dữ liệu thứ hai (Trang 64)
Hình  4.5.  Biểu  đồ  thể  hiện  kết  quả  của  tập  dữ  liệu  thứ ba - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 4.5. Biểu đồ thể hiện kết quả của tập dữ liệu thứ ba (Trang 64)
Hình  4.7,  Biéu  đồ  so  sảnh  độ  hồi  tưởng  giữa  các  tập  dữ  liệu - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 4.7, Biéu đồ so sảnh độ hồi tưởng giữa các tập dữ liệu (Trang 66)
Hình  4.9.  So  sánh  thời  gian  thực  hiện  thuật  toán  453.6  Kết  luận - Luận văn hệ thống tự Động tổng hợp Ý kiến góp Ý trong hội nghị
nh 4.9. So sánh thời gian thực hiện thuật toán 453.6 Kết luận (Trang 67)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w